初创公司 Wayve 的无人驾驶汽车现在支持了语音交流,乘客可以询问系统的驾驶决策,并得到答案。背后的想法是使用与 ChatGPT 相同的技术来帮助训练无人驾驶汽车。
该公司将其现有的自动驾驶软件与一个大型语言模型相结合,创建了一个名为 LINGO-1 的混合模型。LINGO-1 可以将视频数据和驾驶数据(汽车每秒采取的行动),与捕捉汽车所见所做的自然语言描述同步。
(来源:WAYVE)
这家总部位于英国的公司在过去几年里取得了一系列突破。2021 年,它展示了自己的车辆可以在伦敦街头接受人工智能训练,并在英国其他四个城市使用人工智能驾驶汽车,这一挑战通常需要进行重大的工程再造。2022 年,它使用同样的人工智能驾驶了不止一种类型的车辆,这也是该行业的首创。现在它实现了和汽车聊天。
在该公司本周给我的一个演示中,其 CEO 艾利克斯肯德尔(Alex Kendall)播放了一辆捷豹 I-PACE 汽车拍摄的视频,然后跳到视频的一个随机时间点,并开始提问:“天气怎么样?”答:天气多云。“你看到了什么危险?”答:左边有一所学校。“你为什么停车?”答:因为红绿灯是红色的。
肯德尔说:“在过去的几周里,我们看到了一些了不起的事情。我从来没有想过要问这样的问题,但是你看这个。”他输入:“右边的建筑有多少层?”答:三层。
“看到没!”他说,听起来像个骄傲的爸爸。“我们从未训练它去实现这一点。这真的让我们感到惊讶。我们认为这是人工智能安全方面的突破。”
“我对 LINGO-1 的能力印象深刻,”美国加州大学伯克利分校的机器人研究员、机器人公司 Covariant 的联合创始人皮特阿比尔(Pieter Abbeel)表示,他尝试了这项技术的演示。阿比尔问 LINGO-1,如果“如果灯是绿色的,你会怎么办?”
“它几乎每次都给出了非常准确的答案,”他说。
Wayve 希望通过询问自动驾驶软件的每一步行为,准确了解其汽车为什么以及如何做出某些决定。大多数时候,汽车开得很好。但当汽车行驶出现问题时,就可能很难办,正如Cruise 和 Waymo 等行业领先者所发现的那样。
这两家公司都在美国几个城市部署了小规模的无人驾驶出租车车队。但技术远非完美。Cruise 和 Waymo 的汽车发生了多起轻微碰撞(据报道 Waymo 杀死了一只狗),并在不知所措时阻碍了交通。
旧金山官员声称,2023 年 8 月两辆 Cruise 汽车挡住了一辆载有一名伤者的救护车,该伤者后来在医院不治身亡。Cruise 否认了官方的说法。
Wayve 希望,当自己的汽车做错了什么时,可以要求它们解释自己的行为,这将比仔细查看视频回放或单纯查看错误报告更快地发现缺陷。
阿比尔说:“自动驾驶最关键的挑战是安全。有了 LINGO-1 这样的系统,我想你会更好地了解它对驾驶的理解。”他说,这使得弱点识别变得更容易。
肯德尔说,下一步是用语言来训练汽车。为了训练 LINGO-1,Wayve 让其专业司机团队,其中一些是前驾驶教练,在驾驶时大声说话,解释他们在做什么以及为什么这样做:他们为什么加速,为什么减速,他们意识到了什么危险。
该公司利用这些数据对模型进行微调,为其提供驾驶技巧,就像教练指导人类学员一样。肯德尔说,告诉汽车如何做某事,而不仅仅是展示它,可以大大加快训练速度。
Wayve 并不是第一个在机器人技术中使用大型语言模型的公司。其他公司,包括谷歌和 Abbeel 的 Covariant 公司,正在使用自然语言测试或指导家用或工业机器人。这种混合技术甚至有一个名字:视觉语言动作模型(VLAM,visual-language-action models)。但 Wayve 是第一个将 VLAM 用于自动驾驶的公司。
肯德尔说:“人们经常说一图胜千言,但在机器学习中,情况恰恰相反。几句话抵得上一千张图片。”一张图片包含大量冗余数据。他说:“当你开车的时候,你不在乎天空,也不在乎前车的颜色,或者诸如此类的东西。文字可以集中在重要的信息上。”
纽约大学机器人研究员乐瑞尔宾图(Lerrel Pinto)说:“Wayve 的方法特别有趣且独特。”他尤其喜欢 LINGO-1 解释其行为的方式。
但他很好奇当模型瞎编乱造时会发生什么。“我不相信大型语言模型会完全输出真实的东西,”他说,“我不确定我是否可以信任它们来接管我的车。”
佐治亚理工学院的研究员乌云普尔爱桑(Upol Ehsan)也有类似的保留意见,他致力于研究让人工智能向人类解释其决策的方法。爱桑说:“用简单的话说,大型语言模型可以生成很棒的废话。我们需要贴上亮黄色的‘警告’标签,确保生成的语言不包含‘幻觉’。”
Wayve 非常清楚这些问题,并正在努力使 LINGO-1 尽可能准确。肯德尔说:“我们在任何大型语言模型中都看到了同样的挑战。这当然还不完美。”
与非混合模型相比,LINGO-1 的一个优势是,它的回应是基于相关的视频数据的。理论上,这应该使 LINGO-1 更加真实可信。
肯德尔说,这不仅仅是关于汽车的。“人类进化出语言是有原因的:这是我们所知道的、交流复杂话题最有效的方式。我认为智能机器也是如此。我们未来与机器人互动的方式将是通过语言完成的。”
阿比尔对此表示赞同。“我认为我们即将看到机器人技术的革命,”他说。
作者简介:威尔道格拉斯海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站 Future Now 的创始编辑,也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。
支持:Ren