实时媒体AI，打破内容创作天花板，加速视频创新

人工智能应用1年前 (2023)发布 aixure

74 0 0

导读：随着视频业务不断升级，用户对体验的要求越来越高，比如要互动性更强、玩法更多样，体验更酷炫等。另外，直播业务、RTC业务，内容同质化比较严重，内容创造、用户体验也都遇到了天花板，这些都需要一些技术去打破它。我们跟斗鱼长期碰撞，共同探索后，得到一…

随着视频业务不断升级，用户对体验的要求越来越高，比如要互动性更强、玩法更多样，体验更酷炫等。另外，直播业务、RTC业务，内容同质化比较严重，内容创造、用户体验也都遇到了天花板，这些都需要一些技术去打破它。我们跟斗鱼长期碰撞，共同探索后，得到一个命题：通过媒体AI去做这个事情。刚才斗鱼肖总的视频里面也提到了很多直播特效，包括像美颜、美型、虚拟主播、背景替换等，同时我们面向在线教育的场景，也会有一些像课堂评测的能力，都是基于媒体AI去做的。

构建媒体AI目前面临的三大痛点

当前，媒体AI的构建有几大痛点：

终端：类型多、算力弱。

目前很多的媒体AI能力都是在终端实现的，虽然终端的算力在不断提升，但像一些高复杂度的特效是做不了的，比如虚拟人物。背景替换当前的效果也很一般，你能看出一个明显的轮廓，当然更不要说实现对标电影级特效的背景替换了。

云端：实时互动弱、成本高。

现在很多在云端去做的视频AI，一般都是偏向于离线的业务，它对互动体验的满足性相对比较低。在直播实时互动的时代，这是无法满足需求的。而且因为音视频数据在边缘和云端源站相互传输，引入较高的带宽成本。

创新门槛高、生态封闭。

现在AI的能力，各厂家都是独立开发，各玩各的，生态相对是比较封闭的。

我们希望基于云原生，和伙伴一起构建一个边云协同的实时媒体AI的能力，去解决上述痛点，加速视频业务创新。

实时媒体AI的定义及核心价值

我们给实时媒体AI做了一个定义，基于华为云原生的边缘、计算、容器、存储、网络等服务能力，构建丰富的实时媒体AI处理能力，同时联同伙伴打造生态开放的AI算法市场，加速视频业务创新，为客户提供差异化竞争力，为用户提供更优质的体验。

先举个简单的例子，我们把当前直播和RTC里端侧做的一些特效，通过边缘云的方式来实现，加入更多更酷炫的特效，比如效果更好的背景替换，提升互动性的AR卡通、虚拟人物等等。

当前，实时媒体AI还处在一个探索推进的状态中，我们希望其能实现如下4个核心价值：

玩法更多。以后直播和RTC业务有更多的AI能力可以用，可以组合，来实现更多更酷炫的创新玩法；

体验更优。有了这些创新玩法后，用户对实时互动的体验要求是比较高的，我们希望实现“延迟无感”的体验，与本地使用高端机是同样的体验效果。还有一点针对算法开发者来说的，可以基于云的平台，更快地发布、更快地开发，更快地去体验验证。

成本更低。目前大部分媒体AI的能力是基于端侧实现的，因为一提到云侧，就会想到GPU、各种硬件平台的成本会比较高，但我们希望能把这块的成本降下来。这里包括两个部分，一是用华为云统一的软硬件资源，提高资源的复用率，降低每一路资源成本，二是基于云上统一平台，一键更新，无需适配多种终端，来降低算法开发和APP更新的成本。

生态开放。我们希望构建一个开放的AI算法生态市场，避免各家闭门造车、各玩各的的状态，希望能通过AI算法的互通共享，来降低算法开发门槛。

这些核心价值的实现，都是基于云原生，下面将从实时媒体AI的云原生架构、实时处理框架、算法开放几个方面详细介绍一下如何通过云原生实现核心价值的。

实时媒体AI云原生架构

首先介绍一下实时媒体AI基于云原生的架构：

从下往上看，首先它是基于华为云的边缘节点，用华为云IEF边缘管理服务对整个的节点软硬件资源做一个纳管，进行调度。其次，框架基于华为云EI平台，提供ModelArts训练等多种能力，支持Tensorflow、PyTorch等主流深度学习框架。框架里还包含一个SWR（镜像仓库）的服务，这个服务既可以集成发布华为EI自研算法镜像，也可以集成第三方基于EI的算法镜像。还有一个关键点要介绍，我们提供一个高性能边缘函数计算能力，这个能力实际上是面向实时媒体AI业务做的一个函数级处理框架结构，它可以非常高性能地将所有的AI算法实时调度到边缘节点上，并对边缘函数进行编排。实时媒体AI平台，用于卸载终端上的媒体处理能力，减少媒体处理适配不同终端平台的开发量，并保证不同终端平台体验效果一致，面向不同解决方案提供归一化的媒体处理能力。

我们通过这个架构，提供更多更优的媒体AI玩法，同时，它统一算法的创新发开平台，可以避免多终端适配。

实时处理函数框架

如前面所述，实时媒体AI的核心是实时，如何最大程度的降低端到端处理时延，让用户对延迟“无感”。

实时媒体AI除了将实时处理能力下沉到边缘，就近提供处理、降低链路时延之外，还重点构建了实时处理函数框架，用来降低处理时延。该处理框架主要以下几个方面降低端到端处理时延：1）基于华为云腾、鲲鹏等硬件，对AI算法、视频编解码算法做加速处理；2）通过高速总线加速AI算法容器之间视频原始数据传输；3）通过函数资源池预热机制提前加载AI算法，降低启动时延等。整个处理流程，我们是希望能做到100毫秒以内，加上网络的时延，能做到300毫秒以内。这样的话，对用户而言，延迟是无感知的。

云原生算法开放

如前面所说，我们不仅仅是构建一个实时媒体AI服务能力，更希望的是构建面向多种业务场景的实时媒体AI算法生态，希望更多的伙伴参与进来，一起推动业务创新、用户体验提升。

基于这个想法，我们构建了一个算法开放的流程，包括所有实时媒体AI算法的标准算法接口和集成流程，也包括算法生态市场的构建，我们都会陆续的推出。这样的话，不管是基于华为EI平台去构建的AI算法，还是考虑到数据的隐私性，基于自己的平台去构建的AI算法，都可以通过这个流程集成到我们实时媒体AI里面。

实时媒体AI应用案例斗鱼

基于华为云云原生RTC实时音视频服务以及实时媒体AI能力，斗鱼实现实时云端特效，将端侧难以实现的特效能力向云侧转移，为用户提供“延迟无感”的实时互动体验，促进业务创新，提升业务粘性。华为云领先的云原生技术，让斗鱼可以专注云侧创新，避免适配多种终端，快速验证创新效果，大幅提升研发效能。同时，还能避免SDK频繁更新带来的用户多次下载，提升用户使用体验。

基于华为云和斗鱼的算法，双方还构筑了一个富有想象空间的算法生态。面向未来，双方将持续深化合作，基于AR/VR提供更多创新玩法，结合华为云算法商城为主播带来更多场景选择，追求更优用户体验。

目前我们正在跟斗鱼一起做美颜、美型、滤镜、贴纸等实时云端特效，这些特效会集成在斗鱼的直播平台里面，后续虚拟形象、背景替换等特效也会陆续上线。

低时延云端美颜、背景替换DEMO

第一个DEMO是当前跟斗鱼一起做的一个低时延云端美颜特效，里面包括美白，磨皮等一系列的处理。这个端到端的时延，目前我们在网络比较好的情况下，可以做到150毫秒。正如我们看到的两个对比视频，基本上是同步的，肉眼看不出差异性。

另外的一个DEMO是背景替换的。是一个知识视频里面做的背景替换。后面还会把背景替换效果做得更好，能像电影级的，比如说把背景替换和美颜美型、虚拟形象等组合叠加，做出更好更炫的效果。

最后我对今天分享的实时媒体AI做个总结。

我们希望实时媒体AI是作为加速视频业务创新的一个关键手段，能够提供更多的处理能力，更优的互动体验，更低的创新成本，当然也希望更多AI算法合作伙伴们的加入，一起来共同打造一个开放生态！

# 人工智能应用