谷歌科学家：机器人和深度学习正在有趣的融合

机器学习2年前 (2023)发布 aixure

68 0 0

导读：Vincent Vanhoucke是Google的首席科学家，斯坦福大学电子工程学博士，目前在Google Brain主导机器人相关的项目。Vanhoucke主要的研究领域是语音识别、计算机视觉和机器人等领域，他还即将主持机器人领域的盛会CoRL 2017（Conference on Robot Learning）。 V…

Vincent Vanhoucke是Google的首席科学家，斯坦福大学电子工程学博士，目前在Google Brain主导机器人相关的项目。Vanhoucke主要的研究领域是语音识别、计算机视觉和机器人等领域，他还即将主持机器人领域的盛会CoRL 2017（Conference on Robot Learning）。

Vanhoucke认为，机器智能现在已经发展到一个相当的水准，在某些特定情境下的表现可以媲美（甚至超越）人类，比如机器视觉、机器翻译、语音识别，现在是时候让这些能力在物理世界中发挥效应了。他在今天的演讲中提到，robotics的研究现在也正面临着一场深度学习的革新，实现这一点，需要现在的机器学习从业者跳出监督学习的舒适区，面临一些棘手的问题：数据稀缺，如何使机器实现技能转换以及持续性的学习等等。Vanhoucke也提到，这也是人工智能从理论到实践的必经之路。

Vanhoucke分别介绍了他在图像、语音（及机器翻译）领域和机器人（主要是机械手抓取）的一些研究成果。雷锋网(公众号：雷锋网)作了部分节眩

Vanhoucke说，2011年，语音识别研究者采用神经网络技术降低语音识别，错误率大幅降低，是语音识别领域十多年来最大的进步；2016年，几乎就已经达到人类水准了。

而机器翻译，2014年机器学习的引入也让机器翻译有了质的进步，但要说达到人类水准，还是比较勉强……

（看keynote上的名单，为Google的机器翻译做出贡献的，华人数量不少。）

这个柱状图是人类翻译、神经网络翻译和PBMT翻译的质量差别，依次递减。

Vanhoucke认为，机器学习研究比过去更容易了，有更多的开源工具和模型，更多的网络教程（他自己就在Udacity上开了网络课程），GPU和高性能计算硬件门槛也变低了，研究者也比以前更多。

图片识别领域，除了底层技术的完善，Google已经将图片识别技术应用在医疗领域，帮助医生诊断病情，并且获得了一些成效。

但他也说，图像识别现在远远没有到“succes”的地步，有40%基于图像监测做的决策，结果是很糟糕的。

接下来是机器人的部分。Vanhoucke是电子工程专业出身，在Google Brain主要的工作是机器人项目。他先强调了一个和很多人认知有出入的观点：目前的机器人研究其实跟深度学习没有多大关系。

他做了个示范，让手里的笔掉在地上，说，如果机器人的任务是抓取笔的话，那么抓住了和抓不住，从外部观察不到机器人的动作有什么差别（按：因此不能从中得到什么规律）。

机器抓取特定的物体是有迹可循的，抓取未知的物体尚无法解决。（Vanhoucke播了一段机器人摔跤集锦视频，说过去他觉得这些机器人摔跤很好笑，但是后来自己开始做机器人项目之后，看到这种画面就再也笑不出来了。研究机器抓取真的很难，但他很enjoy。）

越是少的图像识别技术介入，机器的鲁棒性就越好，能应对更复杂的物体。后续有听众问及抓取对象的数据库时，Vanhoucke说他们（Google）并不希望建立一个这样的知识图谱。