麻省理工发明张量全息术，瞬间生成全息图，为AR/VR显示提供新可能

AR增强现实2年前 (2023)发布 aixure

68 0 0

导读：经历过80年代的人都应该记得商场和街机店中的各种全息游戏。我们大多数人都认为未来会充满类似的全息游戏和电影。尽管这个未来尚成为现实，但麻省理工学院开发了一种利用人工智能来实时生成全息图的全新方法。所述方法名为张量全息术（Tensor Holograpy），…

经历过80年代的人都应该记得商场和街机店中的各种全息游戏。我们大多数人都认为未来会充满类似的全息游戏和电影。尽管这个未来尚成为现实，但麻省理工学院开发了一种利用人工智能来实时生成全息图的全新方法。所述方法名为张量全息术（Tensor Holograpy），并且可由智能手机或笔记本运行。

研究人员一直在努力实现计算机生成全息图，但所述过程需要一台超级计算机来运行大量的物理模拟。这不仅耗时，而且结果不够逼真。麻省理工学院的全新方法则几乎可以瞬间产生全息图。它采用了一种基于深度学习的方法，而且能效足以允许笔记本或智能手机快速运行。

名为《Towards real-time photorealistic 3D holography with deep neural networks（通过深度神经网络实现实时的照片真实感级3D全息图）》的论文已经发表在《自然》期刊。

值得一提的是，这项研究获得了索尼的资助。

团队表示：“人们以前认为，在现有的消费级硬件条件下不可能进行实时3D全息计算。人们常说，商用全息显示器将在10年内问世，但这种说法已经存在了几十年。”

他们认为，名为张量全息术（Tensor Holograpy）的全新方法最终能够实现这个10年目标，并推动全息技术在虚拟现实和3D打印等领域的应用。

一般的照片会对每个光波的亮度进行编码，并且能够忠实地再现场景的颜色，但它最终只能产生一个平面图像。

相反，全息图对每个光波的亮度和相位进行编码。这种结合提供了关于场景视差和景深的更真实描绘。不过，全息图的绘制和分享是一个挑战。

早期的全息图是用光学方法记录。这需要分裂一束激光，其中一半用来照亮被摄体，另一半用作光波相位的参考。这个参考产生了全息图独特的深度感，而生成的图像为静态，无法捕捉运动。而且它们只是硬拷贝，难以复制和分享。

计算机生成全息图则通过模拟光学设备来避开所述挑战，但计算耗能非常巨大。因为场景中的每个点都有不同的深度，所以不能对所有的点都应用相同的操作。这大大增加了复杂性。操作群集式超级计算机来运行这种基于物理的模拟可能需要数分钟才能获得一张全息图像。另外，现有的算法不能以真实感的精度对遮挡进行建模。

所以，麻省理工大学的团队采取了不同的方法：让计算机自学物理。

他们利用深度学习来加速计算机生成全息图，从而实现实时全息图的生成。研究小组设计了一种卷积神经网络，使用一系列可训练的张量来大致模拟人类处理视觉信息的方式。

研究小组建立了一个由4000对计算机生成图像组成的自定义数据库。每对匹配一张图片和相应的全息图，包括每个像素的颜色和深度信息。为了在新数据库中创建全息图，研究人员使用了形状和颜色复杂多变的场景，像素的深度从背景到前景均匀分布。另外，使用一组基于物理的全新计算来处理遮挡。这种方法产生了逼真的训练数据。

论文主要介绍了一个基于深度学习的CGH管道，它能够根据一个RGB深度图像实时合成一个具有真实感的彩色三维全息图。团队的卷积神经网络（CNN）具有极高的内存效率（低于620千字节），能够以60赫兹的频率在一个消费级图形处理单元运行，分辨率则达到1920×1080像素。利用低功耗机载人工智能加速芯片，CNN同时可以在移动设备（1.1赫兹的iPhone 11 Pro）和边缘（2.0赫兹的Google edge TPU）交互运行。

团队通过引入一个大规模的CGH数据集（MIT-CGH-4K）来实现这条管道，所述数据集包含4000对RGB深度图像和相应的3D全息图。CNN使用基于可微波的Loss函数进行训练，并在物理上近似菲涅耳衍射。采用抗混叠纯相位编码方法，研究人员实现了无散斑、外观自然、高分辨率的三维全息图。

通过从每个图像对中学习，张量网络调整了自己计算的参数，并不断增强创建全息图的能力。完全优化的网络运行速度比基于物理的计算快数个数量级。这一效率让团队自己感到惊讶。

研究人员指出：“我们对它的表现感到惊讶。张量全息术只需几毫秒就可以从带有深度信息的图像中制作出全息图。另外，这些信息是由典型的计算机生成图像提供，并且可以从多摄像头设置或激光雷达传感器中计算出来（这对新款高端智能手机而言已经是标配）。这一进展为实时三维全息术铺平了道路。更重要的是，紧凑的张量网络需要不到1 MB的内存。考虑到最新款智能手机拥有几十到几百千兆字节的可用容量，这可以忽略不计。”

尽管未参与研究，但阅览过论文的微软首席光学架构师约尔科林（Joel Kollin）表示，这项研究“表明只需适度的计算需求都能实现真正的3D全息显示。”他同时指出，与以前的研究相比，图像质量有了显著的改善，而这将能够“增加真实感和舒适感”。另外，像这样的全息显示甚至可以根据用户的视力参数进行定制，“由于全息显示可以纠正眼睛的像差，所以显示图像可能比用户通过眼镜看到的画面更清晰，而眼镜只能校正像焦距和散光这样的低阶像差。”