新V观海外：OpenAI Sora模型背后的架构创新

57 0 0

导读：陈沛/文 OpenAI最近介绍了新的AI视频模型Sora的部分生成视频示例，引发了很多关注。Sora模型直观上带来的最大提升是能够直接生成长达60秒的视频，且在视频质感和流畅度方面表现的非常出色。由于OpenAI的明星效应，Sora模型一经推出便引发很多用户竞相转发，…

陈沛/文OpenAI最近介绍了新的AI视频模型Sora的部分生成视频示例，引发了很多关注。Sora模型直观上带来的最大提升是能够直接生成长达60秒的视频，且在视频质感和流畅度方面表现的非常出色。

由于OpenAI的明星效应，Sora模型一经推出便引发很多用户竞相转发，表示视频效果惊为天人，视频制作的相关工作都会被取代。

Sora模型的实际生成效果仍是未知数

但从我实际使用和观察RunwayML、Stable Video Diffusion（SVD）、Adobe Firefly等主流AI视频服务的情况来看，目前AI生成视频的质感往往达不到最初宣传的效果，还会在物体行进方向、人物四肢等方面出现明显错误，无法满足实际应用的需求。

而Sora模型目前还处于测试阶段，预计再经过一段时间的安全测试和用户反馈后才会正式提供服务，因此还无法了解Sora模型的实际效果。

不过，OpenAI也没有刻意回避Sora模型生成错误内容的情况。在OpenAI发布的技术报告中有一段Sora模型生成的错误视频，展示了桌上的水杯会先从底部流出果汁，然后沿着错误的方向和角度倒在桌上。

Sora模型的背后是2022年刚刚面世的新架构

Sora模型的最大突破是视频时长。与之前的RunwayML、SVD只能生成4秒左右的视频片段相比，Sora模型生成的60秒视频实现了明显提升。

Sora模型实现视频时长突破的主要功臣是它所采用的Diffusion Transformer架构。该架构由Sora模型的主要作者Bill Peebles在2022年刚刚提出，才在ICCV 2023大会上做过介绍。

按照Bill Peebles在论文中的说法，他将Transformer结构替代了Diffusion模型中常用的U-Net结构，并将图像输入转化成了Patch（类似语言模型中输入的Token），得到了新的Diffusion Transformers架构，提升了原来Diffusion模型在深度和宽度上的可扩展性，为视频模型增加输出时长奠定了基矗

实际上，不仅Sora模型背后的Diffusion Transformer架构才面世不久，就连Sora技术报告后引用的32篇研究论文中，绝大多数也都是近3年新发布的研究结果。

研究驱动和融资驱动已成为AI发展的关键要素

回首2017年Transformer研究论文面世后，2019年就出现了首个GPT模型的发展成果。而近两年刚刚提出Diffusion Transformer的研究论文，很快就转化成了Sora模型这样的突破性产品。

如今AI领域的重要变化，往往不是来自于某个功能或应用层面，而是发源于底层架构的研究创新。研究驱动正在AI发展中起到越来越关键的作用。

另一方面，有了Diffusion Transformer这样的研究创新后，往往也是在OpenAI这样资源雄厚的机构中才能做的出来。

在开发阶段，把Diffusion Transformer的研究落地成Sora的产品需要投入大量的预训练、数据、工程资源。而在Sora服务正式推出后，运营推理过程中的资源消耗和算力成本也不可小视，融资驱动也正在成为AI发展的必要条件。

从Sora模型这个例子也能看出，要深度理解AI领域的关键动向，如今必须要从研究层面和融资层面进行观察和跟踪，从而更好地洞察AI发展的未来走势。

# 人工智能应用