科学家提出模仿学习算法,用GPT-4跨模态训练具身智能体,让智能体与现实世界有效对齐

导读:拥有多模态能力的具身智能体,是实现通用人工智能的最重要组成部分,人们希望它能够落地,帮助完成日常生活中的任务,例如,常见的家务劳动、自动驾驶和机器人操作等。 目前,领域内还没有一种公认的技术方案,能够有效地训练多模态具身智能体。 在大语言模…

拥有多模态能力的具身智能体,是实现通用人工智能的最重要组成部分,人们希望它能够落地,帮助完成日常生活中的任务,例如,常见的家务劳动、自动驾驶和机器人操作等。

目前,领域内还没有一种公认的技术方案,能够有效地训练多模态具身智能体。

在大语言模型中存在著名的 Scaling Laws 理论,简单来理解,模型越大,数据越多,最终得到的性能也会越好。但是,在训练具身智能体任务中,很难复刻大语言模型的成功。

主要原因有:

第一,与训练大语言模型使用的的海量语料不同,具身智能相关的数据十分单一和昂贵(数百万元级别);第二,缺乏像监督学习那样有效的训练方法。

基于此,南方科技大学与美国马里兰大学帕克分校、澳大利亚悉尼科技大学、京东探索研究院等团队合作,针对多模态具身智能体的训练与环境变化之间存在不对齐(misalignment)的问题,提出一种新型具身智能体训练框架。

通过大语言模型在模仿学习中为智能体提供经验反馈和指导,显著提升了家务机器人任务完成的成功率。

以往的研究中,人们通常认为在训练具身智能体时,只要离线数据集做得足够大,它的性能就会变得更好。

该研究为领域提供了一个全新的视角:即便数据集做得足够大,但未来世界的变化是无穷多的,也很难穷举和泛化出所有的可能性。因此,需要实时收集环境的反馈数据,再不断地交互学习。

近日,相关论文以《由平行文本世界中的大语言模型训练的多模态智能体》(Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld)为题发表在预印本网站 arXiv[1],并且已被 CVPR 2024 会议接收。

南方科技大学博士生杨一君为第一作者,南方科技大学讲席教授史玉回和京东探索研究院沈力博士(现中山大学副教授)担任共同通讯作者。

图丨相关论文(来源:arXiv)

关键问题:智能体与环境动态不对齐

研究人员希望从视觉输入状态,来训练跟随语言指令的具身智能体。但是,在现有的框架下,这样的具身智能体往往是从离线、固定的数据集中进行训练和学习,这会导致幻觉、分布偏移、稀疏奖励等一系列问题。

具体来说:

第一,幻觉,也称与人类目标不对齐。

智能体在固定、离线的数据集训练的条件下,它只能反映出某一个时间节点之前的世界发生的事情。

但世界是动态发生变化的,如果智能体遇到此前数据集中从未出现过的场景或情况,它会执行一些在人看来不合常理的操作或动作,也就是人们常说的“幻觉现象”,具体表现为:智能体执行了错误、不合理、以及危险的行为。

杨一君指出,“想彻底解决智能体的幻觉的问题,最直接的方式是,让智能体不断地与环境进行交互,实时收集环境的反馈数据,再不断地交互学习,如此一直循环下去。”

(来源:南方科技大学)

第二,分布偏移,也称与环境动态不对齐。

分布偏移问题与幻觉类似,它指的是原来学到的数据分布与未来的数据分布不同。随着时间的推移,在做决策时,数据分布也在不断地变化,因此会产生偏移,进而导致在原来数据集上充分训练过智能体在做决策时,出现一些异常的动作或模型的输出。

第三,稀疏奖励。实际上,用一个类似强化学习的方式,通过与环境的交互来训练智能体,可以得到的环境反馈非常稀疏。

杨一君解释说道:“一项任务的成功完成,需要多步决策累加在一起。但是,智能体可能在中间的某些步骤或在所有步骤都得不到任何有价值的反馈,只有最终任务完成后,才得到成功的反溃”

因此,如果任务的中间步骤过长,智能体没有被一步步地反馈指导,可能会导致其很难实现最终的目标。

用大语言模型跨模态训练具身智能体

在该研究中,马里兰大学帕克分校助理教授周天翼总结出上述智能体与环境动态不对齐的关键问题。

之后,经过团队讨论,杨一君提出,通过不断地与环境进行交互,再利用大语言模型根据环境反馈提供一步步指导,来更高效地训练智能体的策略。

“实际上,我们是领域内比较早意识到智能体与环境动态不对齐问题的团队,这一点在 CVPR 2024 会议审稿时也得到了审稿人的肯定。”他说。

研究人员提出一种跨模态模仿学习的算法框架,以得到关于环境的实时反溃需要了解的是,在模仿学习中,有两个关键的角色,分别为:教师/专家(Teacher)和学生/具身智能体(Student)。

在得到环境的状态信息后,先把其输入给大语言模型“教师”,然后“教师”在总结反馈后输出一个更容易学习的目标,让“学生”进行模仿。

杨一君表示:“教师的输出解决了之前存在的稀疏奖励的问题,这样,每一步环境反馈,教师都可以为学生提供指导,解决了需要在所有任务完成后才能知道是否成功的问题。”

(来源:arXiv)

在模仿学习方面,传统的方法是用人的标注进行训练和学习的指导。例如,在每一步提供几个选项,然后由人选择在执行上最有助于完成最终目标的选项。

需要了解的是,从人的反馈中进行学习的方式,不仅费时、费力,还要求进行反馈的人需要具备专业的学科知识,特别是与机器人相关的问题,这会提高标注的成本。

目前,大语言模型已经能够完成很多种类的任务,甚至包括一些决策的任务。因此,该课题组创新性地提出,用大语言模型代替人来提供模仿学习过程中的反馈信号。

他们调用 GPT-4 模型,让它在每一步的可选动作中选择,作为环境反馈更合适的文本动作,并进一步指导“学生”达成最终的目标。

图丨丰富的测试场景,智能体被要求在不同的场景下完成各种各样的家务劳动(来源:ProcTHOR)

由人根据场景进行标注操作,成功率大约在 91% 左右。在没有人的干预,只包含机器人摄像头看到场景条件下,成功率在 20% 左右。

该团队基于 Unity3D 渲染的仿真环境 ALFWorld,在包含几千种不同的家务劳动场景下,要求机器人完成洗盘子、拿苹果、倒垃圾等指令任务。通过这种新方法训练的智能体,任务成功率显著提升 20%-70%,最终实现了 88% 的成功率。

“这也是目前唯一一个接近人类成功率的方法。未来,如果我们的方法进一步实现规模效应,有希望用更大的模型在测试环境下达到或超越 91% 成功率。”杨一君说。

图丨ALFWorld 中视觉环境下三种基于视觉-语言模型的智能体的比较图(来源:arXiv)

将继续扩展具身智能体训练框架

在大语言模型出现之前,杨一君的研究方向是强化学习,所做的研究包括离线强化学习、持续强化学习等。这些探索也为本次研究奠定了坚实的基础,并具有一定的启发和促进作用。

“基于将技术应用到实际问题的考虑,随着大语言模型的出现,我的研究方向逐渐转向利用大语言模型的先验知识,帮助提升强化学习算法的效率。”他说。

图丨杨一君(来源:杨一君)

不可忽视的是,强化学习最大的问题在于,通过与环境不断地交互试错,需要巨大的数据量,才能学习到较为理想的策略,但是具身智能中的数据昂贵,这也是最难解决的问题之一。

下一步,该课题组计划继续扩展该方法,以实现更高的性能。杨一君表示:“我们将尝试把人的反馈引入到算法框架中来。并且,可以把人的反馈与大语言模型的反馈混合在一起,来解决成本高昂的问题。”

另一方面,他们还打算从优化模仿学习算法的角度,尝试解决数据与环境交互次数过多的问题。实际上,智能体与环境交互的次数和成本息息相关。研究人员希望,在达到相同学习性能的条件下,尽可能地限制与环境交互的次数。

例如,使用元学习的方式,能够让机器人复用与此前训练过的、常识性和通用性的先验知识,来帮助加速完成与之类似的任务(持续强化学习),通过该方法,在很大程度上能够减少环境的交互部署。

杨一君举例说道:“比如,机器人之前已经学习过洗盘子,让它再去学习洗碗时,从本质上和洗盘子是类似的。”

从前很多人认为算法设计得足够精巧,才能够真正地解决某个问题,但是,随着大语言模型的出现和发展,逐渐改变了人们看待解决人工智能问题的方式。

现阶段的情况是,算法可以足够简单,但所需要的计算资源和数据量需要足够大。也就是说,相较于算法,数据和算力资源变得更加重要。

之前人工智能的研究主要集中在感知问题,它解决的是能够认识物体的问题或功能,比如用计算机视觉做检测分割、深度估计、目标识别等。

谈及人工智能的下一步可能的发展,杨一君表示:“人工智能的下一步,应该是从感知问题转化到决策问题。”

未来,希望能够借助大语言模型解决问题的方式,以更多的数据、更大的算力以及更大的模型,来解决决策的问题。

“在决策问题上,我们期待能够出现通用的决策模型,以解决各种各样的决策问题,我觉得这可能是未来的一个里程碑式的进展。”杨一君最后说道。

参考资料:

1.Yijun Yang et al. Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld. arXiv:2311.16714v2(2024). https://arxiv.org/abs/2311.16714

2.https://procthor.allenai.org/

运营/排版:何晨龙

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...