我们一般给人工智能喂养视频数据,或者我们平时看的短视频电视剧电影,都是旁观者视角。也就是说,我们类似旁观者一样,看到的是某个视频里的事件内容发生的全貌。机智客举个现实的例子更方便理解一点,比如你睡眼惺忪地在超市里拿了一袋洗衣粉,放入购物车或购物篮。旁观者视角就是,你穿着睡衣,微微弯腰,站在超市货架旁边找东西,看到洗衣粉后,从货架上拿下来,丢购物车或购物篮里。而第一视角则是,你心无旁骛,目光扫着货架一排排货物,看到洗衣粉,然后伸手拿过来,转头看向购物车,把洗衣粉放进去。
所以第一视角,往往更符合我们的生理结构,然而也信息量往往更少,虽然旁观者视角的信息量更多更全面,不过在现实世界,以我们人为中心,第一视角的情况往往最多。人工智能要更深入我们人类世界,也许学会第一视角看世界并与外界互动,才更贴近我们生活,方便为我们服务。
这不,第一视角的人工智能要来了。Facebook AI就在今年开启了一个名为Ego4D(Egocentric 4D Perception)的中长期计划,就是为了解决以第一人称视觉为中心的感知领域的研究挑战。据机智客了解,这是一个大规模的以第一人称视觉为中心的数据集,具有前所未有的多样性。它由来自全球9个不同国家74个地点的855名独特参与者收集的3025小时视频组成。它汇集了88名研究人员,将这一数据集的规模大幅增加了一个数量级,比任何其他项目都大20多倍,并且即将在11月底开放下载。用这些数据来喂养AI。
第一视角的人工智能?这是要“渗透”到人类世界,唤醒自我意识嘛?其实,这个属于以自我为中心的感知,也是一个全新的领域。而这种较之以往完全很“颠覆”的感知,让人工智能进入了一个全新的世界。试想一下让人工智能看一段以旁观者视角拍摄的过山车,即便外人看着都跟着紧张和头晕,但好歹能捕捉到整个过程的画面。而如果让AI以第一视角的体验者来看,那它不用说也处于完全懵逼状态。我是谁,我在干嘛,这是哪里,简直帧帧是灵魂发问。这当然只是一个例子,然而现在有些可穿戴设备更多是未来的可穿戴设备配备的相机多半就是以第一视角看外界的。
而这个,就是Facebook AI此时面对的挑战。Ego4D希望解决的第一个问题是情景记忆(Episodic memory)。比如你刚才拿过什么东西。Ego4D要解决的第二个问题便是预测(Forecasting):下一步我要做什么?比如你要去哪里?东西要放哪里等。最后一个问题也是我们盼望AI能实现的防线则是社会互动(Social interaction)。也就是理解社交互动。
这个,更趋近于我们每个个体的智能助手、可穿戴设备等高级方向了吧。第一视角的人工智能,未必能拥有自我意识,然而这一个全新的方向则让AI更方便融入我们每个个体的现实人生。我们目前的智能手机、智能手环、手表等智能终端或可穿戴设备更多的是一个工具,而非一个助手,它们都还没学会理解我们,即时协助我们。