资深机器人专家：苹果Vision Pro空间计算技术和深度学习结合，将给诸多领域带来革命

机器人2年前 (2023)发布 aixure

65 0 0

导读：本文首先结合苹果公司最新推出的 Vision Pro 详细回顾虚拟现实增强现实和混合现实等技术的来龙去脉，然后结合一家混合现实创业公司的发展历程展望 Vision Pro 为世界带来的可能性。增强现实和空间计算人类文明在近代突飞猛进地发展，许多技术的出现极大改…

本文首先结合苹果公司最新推出的 Vision Pro 详细回顾“虚拟现实”“增强现实”和“混合现实”等技术的来龙去脉，然后结合一家混合现实创业公司的发展历程展望 Vision Pro 为世界带来的可能性。

增强现实和空间计算

人类文明在近代突飞猛进地发展，许多技术的出现极大改变了我们的生产力和看待世界的方式。

技术对一个单独的人类个体的帮助主要有两点：

第一点，减少该个体获取信息的难度。举例来说，从印刷术到电报、电话，再到互联网、移动互联网，技术帮助人们更快地把信息传递和分发给不同的人。而从另一个角度说，马车、火车、飞机这些交通工具让人类个体更快地移动，也可以看作是帮助个人更快去到不同的地方收集更多的信息。人们对这些信息分发、信息收集的速度要求主导了过去近 200 年的主要技术进步。

第二点，提供对世界量化的认知。对时间和空间的量化需求同样在人类历史发展中扮演了重要的角色，例如早期的钟表采用日晷、滴水计时，随后在中世纪发展了出擒纵机构、复杂齿轮组，然后在当代发展到了石英电路、原子钟，这每一项在量化时间方面的技术进步都来自于各种科学和工程领域对量化世界的追求。

图 | 本文作者杨硕（来源：杨硕）

获取信息和量化世界不仅提高生产力，还可以提供发自人类本能的安全感。一个人身处野外虽然感到惶恐，但如果通过手表知道离天黑还有多少小时（对时间的量化认知）、通过 GPS 接收机知道自己离附近的城镇还有多远距离（对空间的量化认知）、通过对讲机或者手机可以实时与熟悉的人交流（获取信息），则这个人可以获得极大的安全感。

因此，获取信息和量化世界可以说源自生物趋利避害的本能，或者说他们也就是人类本能的一部分，它让技术的洪流不可阻挡地在历史长河中前进。

由于对这些技术的追求是人类的本能，所以从古至今、无论实现与否，每个人都明白任何一件帮助我们获取信息和量化世界的技术的极限是什么越快越好、越精确越好：2000 年前通过鸽子传递文书的罗马人，一定幻想过未来会出现让自己手中的信息瞬间传递到千里之外的技术；中世纪的钟表匠只懂得重力擒纵机构，但他们明白在长期技术发展之后一定会有未来的工匠造出运行万年依然分秒不差的钟表。

同样地，每个人都会因为自己本能地追求获取信息和量化世界而能够幻想出一些所有人都会喜欢和追求的技术。比如，古往今来一定有无数人类个体曾想象过这样一种技术我们睁开眼看世界，视野中不仅有我们身边其他人类个体以及自然和人造的物体的影像，还有对于这些物体量化的或者描述性的信息一个非洲的原始人迫切需要知道视野中树根边的一片蘑菇里哪些有毒哪些没毒、一个欧洲的石匠希望可以实时知道手中正在加工的石槽的宽度、一个当代的办公室职员想要努力回想自己昨天随手把一个 U 盘放在了桌上哪个角落……如果我们看向周围就能额外看到蘑菇的类型、石料的长度、办公桌上特定物体的位置等信息，我们的生活将会多么安全和高效！

这就是我们今日津津乐道的“增强现实”技术。它源自人类内心的本能，代表了人类对获取信息和量化世界的极致追求，一代一代人类都曾经幻想过它的存在以及可能的实现方式。

二十一世纪二十年代的人类基于当前时代的科技发展水平，对这种技术的可能实现方式是这样思考的：这是一台佩戴在人眼前方的机电设备，重量和制造成本越低越好，最好重量能够忽略不计，人眼透过这台设备看到周围环境反射的光线，同时这台设备会投射光线到人眼中，让人看到虚拟的、关于周围环境物体的量化信息。这台设备有自己的计算单元、信息存储器，可以分析理解周围环境中物体的信息，还能够接入互联网获取更多的相关信息。我们可以用如下的架构图来表示：

（来源：杨硕）

苹果最新推出的 Vision Pro 以及此前已经存在的微软 Hololens 正是实现了这样功能的机电设备。不过两者还有一些小区别，这区别与“混合现实”的概念有关。

当代人类还想出了另一种方式来达到极致获取信息和量化世界的目的：如果我们身处的不是现实世界，而是数字和计算构成的世界，那么在这个本身就是由人类自己构建的世界中自由移动、量化一切事物就是自然而然的事情。将人类的意识接入数字化的虚拟世界，就是被称为“虚拟现实”的技术。这种技术的极限超出了当代人类的想象，我们现有的被称为虚拟现实设备的大部分机电产品只是一些拙劣的实现，因为人类有视觉、听觉、触觉等等不同的感觉，我们不知道如何把所有的感官信息都用数字化的信息来取代。当代的虚拟现实设备往往只替换人类视觉系统输入的信息，采用如下的架构方式：

（来源：杨硕）

采用上述架构的虚拟现实设备有一个巨大的缺点几乎难以用现有的技术手段克服头晕。每一个人类个体无时无刻不在大脑中进行“传感器融合”，通过几种感官传感器来确定自己在空间中的状态。其中最重要的一种传感器融合行为是对头部运动速度的测量。

当我们转动头部和身体时，人脑会通过视觉系统看到的图像计算自己的运动速度；另外人的耳蜗中存在一些固体状的颗粒称为耳石，它们受到惯性力加减速时会牵引耳石膜，让耳蜗感知头部的运动速度。

再者，人体运动时，各个相关肌肉的伸长和缩短情况也提供了一些关于运动的信息。当这三者测量的运动速度不一致时，人就很容易出现头晕的症状。晕车是一个典型的例子，晕车的主要原因是人看向车内，通过视觉系统认为自己没有运动，但此时车辆的加减速和颠簸会让耳石告诉大脑说身体正在运动，大脑因此会出现混乱。

另一个例子是恐高症，人在高处看地面时，由于地面的景象离自己太远，视觉系统测量不出运动，和耳蜗感知到的微小运动信息出现了不一致，大脑又进入了眩晕状态，此时如果人赶快坐下、扶住栏杆或者扶住地面，通过身体肌肉信息向大脑传达身体的运动信息状况（此时至少身体肌肉和耳蜗测量的运动信息是一致的），就可以减弱头晕的反应在下图右侧的几种姿势中，从上到下头晕反应越来越严重：

（来源：杨硕）

因此可想而知，只替换视觉系统输入的虚拟现实设备给大脑将造成多少迷惑。当然，就像晕车和恐高可以通过训练来克服一样通过反复经历传感器信息不一致的场景锻炼大脑只关注耳蜗和身体肌肉提供的运动信息虚拟现实设备也可以通过用户自己的训练来减少甚至消除眩晕感，但这对用户提出了很高的要求。

另外一个折衷的解决方案是虚拟现实设备还是要让用户的大脑感受到视觉系统该看到的信息，把一个随着用户视线移动的相机捕捉的图像同样显示给用户作为虚拟世界的背景，这样用户的视觉系统依然可以获得和其他感官一致的运动速度测量。这种设计被称为“混合现实”，如下图所示：

（来源：杨硕）

在混合现实设备中，用户不仅看到虚拟世界呈现的信息，还可以看到背景中的环境图像，从而让大脑明白自己在空间中的运动状态。

另外，“混合现实”设备和“增强现实”设备的结构有相似之处，区别是环境光线是直接通过设备的开口通路进入人眼（这种设计学名叫做光学透视，Optical See-through），还是被设备的数字摄像头转换成数字图像再发给人眼。把环境转换为数字图像的便捷之处是设备可以利用当代的计算机视觉算法对图像做处理和分析，这样能够结合分析结果呈现更多更准确的信息。根据苹果发布会中 Vision Pro 的介绍，我们可以看出它是一台混合现实设备。

我们可以说混合现实设备是一种对虚拟现实的头晕问题的补偿方案，又是对增强现实技术的另一种实现和优化方式。但是，混合现实设备如果性能不好，反而会加重头晕的问题，因为用户看到的不是直接来自环境的光线，而是经过了计算设备后处理的图像的光线。

如果计算设备采集图像、处理图像需要的时间太久，图像的延迟还是会造成视觉系统和耳蜗的运动估计信息不一致：视觉系统通过数字图像估计当前时刻减去一小段时间前的头部运动速度，而耳蜗估计的是当前时刻的速度。计算设备的图像延迟越大，估计不一致越明显，头晕的问题越严重。

一般的理论认为这个延迟必须小于人眼视觉暂留效应的时间（约 1/16 秒或 60 毫秒）。在苹果发布 Vision Pro 的介绍中，提到了一个 12 毫秒把数字图像显示到屏幕的数值，但是并没有详细介绍究竟这个数值是转换数字图像的处理时间，还是包含了转换图像、叠加虚拟信息的全部时间。不论是哪一种，这个数值都是很惊人的，因为当前市面上所有的类似设备，延迟基本都在 100 毫秒上下。

微软的 Hololens 号称延迟可以做到 60 毫秒以下，但是它只是增强现实设备，光学透视节省了处理数字图像的时间，而叠加信息的图像通过类似抬头显示器的光路呈现，而这些图像的像素比较低，最终观看体验应该不如 Vision Pro 的纸面数值。

这种种不同的方案和对设备性能的追求是因为虚拟现实本质是一种欺骗大脑的技术，但是大脑是人类智慧的核心，岂是这么容易好欺骗的，大脑总是能够敏锐地意识到身体感官传感器信号之间的误差，然后拒绝正常工作。

最合理的虚拟现实技术一定是直接替换掉大脑所有的感官输入，不过人类尚不知道有什么简单的机电系统可以在不损伤人体的情况下代替掉耳石提供的运动速度测量和肌肉感知到的运动信息，也许未来我们会发展出直接替换掉大脑入口神经链路上的信息的技术，但这个时代的人类对此没有任何系统性的理解。“虚拟现实”在当代不是一个准确被实现的技术，也往往和增强现实技术和混合现实技术混淆。

因此，在逐渐发展之后，“虚拟现实”“增强现实”和“混合现实”三个概念开始变得非常相似，采用了类似的技术实现方式。用这三个概念作为相关的机电设备的分类方式并不准确，普通消费者感到迷惑、从业人士多有争议。可能正是因为如此，苹果在发布会中只谈到了 Vision Pro 是一台“空间计算”（spatial computing）设备，而没有强调它是一台混合现实设备。

“空间计算”一词更好地突出了这类显示设备最大的技术难点：信息呈现需要考虑人与周围环境物体的空间关系。我们已经用了相当多的篇幅讨论为什么虚拟现实设备（从这里开始我们统称它们为空间计算设备）必须调整方案、优化性能来保证人的大脑始终具备对自身空间状态的认知。

接下来，我们要着重介绍一下“信息呈现”环节中对空间关系的关注。有些时候简单的架构图会让人产生其中某些部件非常容易实现的错觉，但其实空间计算设备最浩瀚的工程隐藏在这一个环节中。

简单来说，就像我们看电影的时候经常通过字幕获得额外的信息一样，空间计算设备也可以把一些信息直接像字幕那样显示在用户的视野中的固定位置。但是，我们的大脑很聪明也很蠢，如果视野中出现了很多字，而我们又在认真读这些字，视觉系统就会开始把这些字当作是环境中的物体并通过它们来估计自身的运动信息，而它们是相对视野静止的于是又要头晕了。

更妥当的办法是把信息呈现在环境物体之间，让可视化的信息看起来是环境的一部分。比如用户在视野中看到一个人在说话，相对应的语言翻译显示在这个人的胸口处，用户稍微动一动头，显示的翻译信息也跟着人运动，看起来是固定在人的身体上，而不是固定在自己眼前的屏幕上。

为了实现这个功能，“信息呈现”部分中其实发生了下面这样一些子环节：空间计算设备计算出自身在空间中的位置、设备计算出另一个人在空间中的位置、收集语音信息并翻译、把翻译语句可视化并虚拟出一个字句的图形、把文字图形调整在合适的三维空间位置并渲染出二维图像、把图像叠加在环境的数字图像上然后显示在用户的视野中。

实现这些子环节涉及到的技术各有千秋，横跨计算机视觉、深度学习、自然语言处理、机器人学等不同工程和科学领域。更重要的是，所有这些子环节运行的时间要求非常严格，如果用户看到的图像不能延迟超过 60 毫秒，那么每一个子环节都只能分配到几十毫秒甚至不到十毫秒的时间。

下面的架构图是笔者根据已有的技术构思的子环节关系和各个环节的延迟要求，它可能与 Vision Pro 实际的情况有差别（设备整体输入输出的总延迟数值究竟是多少在发布会中没有明确，实时语音翻译也不是他们展示的功能），但是足够说明空间计算设备的复杂和对实时计算的严苛程度。

（来源：杨硕）

其中，实时语音识别和翻译是自然语言处理领域的“圣杯”，今年开始通过大语言模型我们终于窥见了这种技术的曙光，但是怎么能在 50ms 或者更短的时间内做到实时的翻译和呈现还是很有技术挑战性。在有些应用场景下，即使翻译和显示语句慢一点可能也不会太影响用户体验，所以我们可能不需要追求这种技术的极致。

通过实时定位与地图重建技术（Simultanous Localization And Mapping）进行传感器融合，进而确定设备和环境物体的空间位置是过去二十年机器人学领域最蓬勃发展的一个课题，相关的技术业已成熟，难点同样在于如何优化算法减少时间消耗。

这个环节的时间消耗是整体系统的性能瓶颈，因为空间计算设备的体验来自于呈现的信息融入环境的融洽程度，因此每一毫秒的延迟缩减都能提高设备的使用体验。当然，每一毫秒的延迟缩减也需要从硬件到软件不同层面巨量的工程投入：采用更好的传感器和处理器硬件、尽可能使用并行计算处理传感器数据、尽量利用融合算法中出现的矩阵的稀疏性、使用优化的汇编语言编写矩阵计算的数学库……

发布会中展示的 R1 芯片可能就是专门负责这些子环节的芯片，它就像是一个站在奔流的大河边的渔夫试图在几十毫秒内数清自己面前经过了多少条鱼一般，从多路相机、激光雷达、惯性导航元件的信息洪流中总结出自身和环境物体的空间信息。

这个架构图并没有涉及 Vision Pro 的手势识别和眼动追踪功能，这两个交互性的功能并不影响系统整体的空间计算性能，属于锦上添花。但是能够在满足空间计算的大计算量需求之外还能塞入这两个功能，足见 Vision Pro 硬件性能的强大。

回到我们开头所说的人们对“增强现实”的美好幻想，Vision Pro 达到我们的美好幻想了吗？远远没有。我们脑海中想要的的增强现实应该一毫秒延迟都没有（60 毫秒或者 12 毫秒听起来可太差了）、毫不笨重（而不是一大坨戴在头上的金属）、戴上可以用一整天（而不是在怀里揣着电池才只能用两小时）。

但是，它是走向未来的关键一步，我们确信沿着这条路走下去，继续一毫秒一毫秒地减少延迟，同时继续减少设备的发热、重量、成本，我们总会到达增强现实技术的极致。

八十年前，面对占地超过一个篮球场的电脑的科学家可能想象不到，几十年后性能更强的电脑可以方便地揣进人的口袋；同样地，三十年后比 Vision Pro 性能更好的空间计算设备可以作为隐形眼镜佩戴并不是痴人说梦。我们正在这条路的起点。

空间计算可以做什么？

Vision Pro 并不完美，但是低延迟、高分辨率、两小时续航以及一些试用者对重量的良好反馈都让人感觉非常乐观。但是，和虚拟现实相关的热潮在过去十年中几次高涨又几次衰退，这些年中我们经历了太多的新设备的诞生，也经历了太多戴完这类设备之后的头晕脑胀，这一次我们又是虚假的乐观吗？

在讨论我们可以用 Vision Pro 做什么之前，我想先讲一位朋友的故事。我对空间计算技术的思考大多来自他的帮助。

2014 年，我随大疆的团队拜访硅谷的公司和投资人，行程期间突然有一位人人网的朋友联系我希望我去他的车库看看。一向乐于结交工程师的我和这位叫 Amber 的朋友约在斯坦福购物中心的苹果店见面，然后他带我驱车去向硅谷房价最贵的富人区阿瑟顿这个区一栋豪宅的主人把车库租给了他说是车库但是车库附带一套佣人住的套间，比一般人的家都大。在那里我看到 Amber 在早期的 HTC Vive 开发者版本上开发的一些虚拟现实应用。第一次进入虚拟世界的我每隔十分钟就会头昏脑胀得难受，必须停下来躺在地上让大脑重新把传感器们配准。但是，在大脑不出问题的间隙中，我还是能感受到虚拟现实的壮丽。

直到我玩了一阵子虚拟现实以后，才坐下来和 Amber 好好聊天。我才知道他毕业于清华姚班，本科期间在香港科技大学跟著名计算机科学家杨强教授做科研，在斯坦福大学读完计算机硕士之后并不想安于在大科技公司打工，而是想创业探索虚拟现实和数字媒体艺术。多年以后再回想起来我总觉得认识 Amber 的经历非常超现实，Amber 自己也觉得很超现实，毕竟不是每个人都有机会在青年时期住在硅谷的核心地区的豪宅车库里。此后的多年里，每次有机会到硅谷我总会去 Amber 的车库做客。

2015 年我开始与 Amber 合作开发结合四旋翼飞行器的虚拟现实应用。我在大疆工作的早期参与了 DJI SDK 的开发，通过 DJI SDK 用户可以编程控制四旋翼飞行器在空中的位置和相机朝向角度等行为。2016 年，Amber 的公司公布了一款基于 DJI SDK 开发的应用叫做 Skywand，它的想法非常酷：很多时候我们在规划飞行器航线之前缺乏对航线上飞行器会看到什么东西的直观理解。

为了解决这个问题，可以先用 Google Earth 的航拍数据构建和现实世界一样的虚拟世界，然后在数字世界里规划和预览飞行器的航线，通过虚拟现实头显设备来从空中查看航线非常直观（除了隔一阵子要停下来从头晕中恢复）。航线规划完成后，接着把航线发送给飞行器，真实世界中的飞行器可以启动一个航线任务，在现实空间中飞过一模一样的航线。这项技术非常适合电影拍摄时重复执行相同的航拍镜头。

（来源：Skywand）

Skywand 想法很好，但是它必须适配特定版本的 HTC Vive 虚拟现实设备和改装的 DJI Inspire 飞行器，这使得软件对硬件的兼容性非常难维持。此后一年多，在 HTC 和 DJI 各种进行了硬件迭代之后，继续维护 Skywand 变得非常困难。

另外，虚拟现实的头晕问题也限制了它能够给航拍带来的生产力提升。这让我们相信虚拟现实更准确地说是我们前面讨论的这种拙劣的版本本身的上限很低。让用户还是看到环境光线的增强现实或者混合现实技术才更加有用。

2017 年，恰逢苹果推出了 ARKit 功能，Amber 开始探索如何结合 ARKit 低成本地实现增强现实技术，并且希望能在增强现实眼镜成熟之前，提供一种低成本的替代品用于实验和研究，于是他发明出了 HoloKit 这款设备。

（来源：杨硕）

Holokit 是一款便宜又巧妙的增强现实设备，售价仅仅 129 美金。它本身只有一套实现光学透视的镜片组，同样用抬头显示器的原理把安装至其中的 iPhone 手机屏幕图像叠加在用户看到的环境光线中，原理虽然很简单，但呈现效果和昂贵的 Hololens 非常类似，有 60 多度的视场角度，所有的空间计算都依托苹果手机的 ARKit。

Amber 用了多年的时间自己摸清了深圳的消费电子供应链，实现了 Holokit 的量产。Amber 偶尔会找我讨论我们可以用 Holokit 做什么，由于他对数字媒体艺术的热情，他更多关注的是此类设备的多人游戏属性 (Co-presence)，以及通过虚拟的场景和现实场景的结合来展示艺术。比如在 Holokit 上最令人印象深刻的演示是下面这个视频所展示的多人协作和龙战斗的场景，这个展示刚刚在人机交互顶级会议 CHI2023 上拿到最佳演示奖：

（来源：Holokit）

在这个演示中，多个玩家和一名观察者都身处纽约市的 World Trade Center，所有人带上 Holokit 进入到一个相同的虚拟游戏空间中，这个空间里有一条飞龙。玩家们手上佩戴苹果手表，手表内内置运动感应元件，手表通过蓝牙和手机连接，这样当他们挥动手臂时就可以像用魔杖发射咒语一般攻击龙。

玩家被龙攻击时，可以通过左右跑动来躲开龙焰。这个演示极好地利用了低成本空间计算设备的优势并避免了劣势在巨大的开阔空间里用户主要通过光学透视看清周围环境，所以不容易产生眩晕。手机的性能有限，龙的定位有一定的延时，但是由于环境开阔，延迟不会太影响体验；延迟影响了发射咒语的方向精度，但这反而增加了游戏的随机性和趣味性。

(来源：Holokit)

Holokit 高度依托于苹果手机的生态，确实在诞生之初也得到了苹果的关注。在 Amber 基于 Holokit 做出一些演示之后不久，2018 年开始苹果公司有团队与他接触，想要把 Holokit 打造成苹果 ARkit 生态中重要的开发者的实验平台。后来因为疫情等种种原因，这项合作没能继续进行下去，非常可惜。在苹果公司内部有多个空间计算项目和计划在运作，有的项目组希望推动 Holokit 这样低成本、以 iPhone 为中心的组合式平台。

有的项目组希望推动 Vision Pro 这样从软件到硬件都重头打造，一起共同优化的全新项目。现在看来最后苹果公司高层决定了巨额投入全新的空间计算平台开发，这样的决定可谓是极有魄力。但就像我们在上一节分析的那样，iPhone 的 ARkit 再加上 Holokit 是一个非常好的方案，但是手机的硬件设计为实现其他的通用功能做出了妥协，所以它不是一个专门为空间计算打造的设备，只有项目组自身能够对软件和硬件全面掌握，设计专用的硬件系统全力支持空间计算软件的性能，一毫秒一毫秒地抠系统的性能，才能把空间计算技术推到极致。

在 Vision Pro 发布之后，Holokit 依然有不小的优势可以与之互补。一方面它很便宜，另一方面 HoloKit 相对于其他独立的混合显示设备又能利用目前 Apple iPhone 的软件和硬件体系（如 ARKit 和 LiDAR)。这样的价格和适配性更加适合 Amber 研究的多人 AR 互动场景（因为目前用 VisionPro 玩 3-4 人的 AR 游戏，买设备一共都要投入上万美金）。另外，Vision Pro 的开发环境可能会和 ARkit 有相关性，Holokit 可能可以为 Vision Pro 上的应用做低成本验证。不论如何，Amber 和他的 Holokit 是空间计算技术的先行者，他们开拓和启发了这项技术的种种可能性。

Amber 第一次把他和同伴在纽约 World Trade Center 多人打龙的视频发给我的时候，我正在匹兹堡萧瑟的莫农加希拉河南岸找加油站，锈带区的城镇夜晚人烟稀少，我停在加油站看他发来的视频，赞叹于 World Trade Center 本就恢弘的内部空间被这个游戏衬托得更加宏伟。心想如果在加油站空旷的场地上玩这个游戏，可能这个荒凉的地方会显得更有生机一些。这让我进一步意识到，空间计算应用唤起人们对空间的认知，本质上是在响应人们量化世界的本能。

打龙的空间计算游戏让我们认识一个大尺度空旷空间具有的价值，并且获得改造它的途径。在更微观和精细一些的层面上，空间计算设备也可以帮助我们丈量空间，获得空间可以如何被应用的信息。比如说 ARkit 最受欢迎的一些应用包括宜家和亚马逊网站上把家具实时放入家中的功能：

因此，我觉得思考空间计算设备的用处时，一定要从我们最本能的获取信息和量化世界的需求出发。玩游戏、看电影、打电话等已有的一些混合现实应用并没有直接去满足我们的这些需求，或者说和已有的其他设备的功能有重叠，并没有凸显空间计算设备获取信息和量化世界的优势。头戴式的空间计算设备解放了双手，呈现的信息能够帮助我们更好地量化世界。有哪些人类日常的行为是需要双手操作空间中的物体的同时，需要大量的关于空间的新信息来提高工作效率的呢？从这个思路出发我们能够想到许多崭新的 Vision Pro 提供的应用场景：

第一个，艺术和设计创作者的效率提升。比如画家可以通过空间计算设备在自己的画布上呈现辅助线和线稿、蛋糕师可以在自己的蛋糕坯上叠加蛋糕花样的设计思路、陶艺制作者可以看到自己的物件的尺寸和外形、插花师可以获得插花的建议。家居空间设计师可以和客户一起在毛坯房里预览设计的实际空间感并讨论改进意见、电影导演可以和特效师在片场预览增加特效后的场景并指挥演员和摄影师。所有这些辅助都可以帮助工作者在不停手的情况下获得自己正在交互的空间中物体的额外信息。

第二个，机械、家具等物件组装的效率提升。不管是专业还是非专业人士，在组装一些物件的时候经常会感到烦恼，比如说宜家的家具，虽然会有详细的说明书，但有的复杂家具里中会有非常相似、仅长度不同的螺丝，这种情况下，通过空间计算设备更好地呈现组装说明、提示零件的长度、类型等信息可以大大提升组装效率。这类组装任务在家庭生活中大量出现，在工业生产中也无处不在，十分容易针对性进行空间计算应用的开发。

（来源：杨硕）

第三个，需要搜索和寻找的场景效率提升。比如图书管理员需要在书架中寻找该归还的书籍的位置，头戴式空间计算设备可以大幅减少搜索耗时。

（来源：Pixabay）

同样的需求也出现在商场货架、满是零件和工具的工作台、放有大量文件的办公桌等场景。在这些场景中，用户通常身处一个固定的工作区域，可以把空间计算设备连接外部电源来保证长时间工作。影响长时间佩戴的负面因素可能是空间计算设备的重量会给颈椎额外的压力，有消息说 Vision Pro 的重量不是特别理想，希望明年发布的量产版本可以进一步优化一些。

总结

我们在一波空间计算技术发展浪潮的起点，过往在虚拟现实、增强现实和混合现实技术领域开拓的先行者们已经证明了相关技术的潜力，如今随着苹果 Vision Pro 的诞生，空间计算技术即将得到更大的发展和应用。

空间计算如果能够和逐渐成熟的深度学习技术以及大语言模型结合，将会给很多领域带来革命，本文中谈论的种种潜在应用只是冰山一角，作者权当抛砖引玉，未来等待广大的开发者和用户来创造。

作者简介：杨硕，美国卡内基梅隆大学在读博士生，研究足式机器人的运动控制和感知，即将加入 Tesla Optimus 人形机器人项目组任职高级控制工程师。曾在大疆创新领导开发智能导航算法、无人机平台、RoboMaster 等项目。在 TRO、 RAL、 ICRA 和 IROS 等机器人学术杂志和会议发表论文多篇，拥有 5 项传感器融合方面的美国发明专利。长期从事机器人技术科普与教学工作，在中文互联网有较高知名度。

# 机器人