Nvidia推出云计算AI视频流媒体平台Maxine

云计算2年前 (2023)发布 aixure

60 0 0

导读：Nvidia在GTC大会上，推出使用云计算GPU加持的人工智能视频会议组件Maxine，让用户能够以H.264流媒体图片标准十分之一的带宽，高性能地传输图片，由于Maxine采用云计算原生架构，开发者还能够利用Kubernetes的扩展性缩放服务规模。另外，Maxine集成先进的视频…

Nvidia在GTC大会上，推出使用云计算GPU加持的人工智能视频会议组件Maxine，让用户能够以H.264流媒体图片标准十分之一的带宽，高性能地传输图片，由于Maxine采用云计算原生架构，开发者还能够利用Kubernetes的扩展性缩放服务规模。另外，Maxine集成先进的视频、音频和对话AI功能，提供视线校正（Gaze Correction）、超高分辨率、噪音消除和脸部打光等功能。

Nvidia使用人工智能新技术，大幅度降低传输视频所需要的带宽，Maxine并不会真的流媒体整个画面的像素，而是通过人工智能技术，分析每个会议参与者的脸部关键点，并在另一端进行动画处理，因此需要传输的资料，会比起完整的画面少上许多。

Nvidia使用在GPU上执行的人工智能视频压缩技术，将视频段宽消耗，减少到H.264流媒体视频压缩标准的十分之一，不只减少服务供应商的成本，也让最终用户可以用更少的传输资料，获得顺畅的视频会议体验。

Maxine还应用了生成对抗网络技术，让视频会议服务供应商，提供各种功能改善视频会议体验，像是自动校正脸部，能够让脸看起来正对所有会议参与者，也能校正会议参与者的视线，模拟眼神接触。这些功能可以让会议参与者，即便不看着摄影机，也能维持专心与人对话的状态。

而视频会议服务供应商，也能添加替身功能，让会议参与者选择以动画人物代替自身图片，即时表现情绪以及声音。另外，Maxine还能提供人像关注功能，即便说话者随意移动，画面也会自动跟随说话者。

Maxine集成了各种Nvidia人工智能SDK与API，像是可提供对话式人工智能功能的SDK Jarvis，开发人员可以借由集成虚拟助理，在视频会议服务加入语音识别、语音理解和语音生成功能，让虚拟助理代为记录笔记，帮忙配置项目，或是以人声回答问题，也能够提供翻译、字幕和语音转文本服务，帮助参与者理解会议内容。

除了使用Jarvis，Maxine平台还利用DeepStream SDK，强化音频和视频功能，并且以TensorRT SDK，执行高性能深度学习推理。官方提到，Maxine平台的人工智能运算，因为都在云计算处理，最终用户不需要使用专用硬件，就能获得这些人工智能功能。

Maxine的云计算原生基础架构设计，是以GPU执行Kubernetes容器集群，提供各式人工智能微服务，因此开发者能够扩展服务规模，应对突如其来的大量请求，而且Maxine模块化的设计，开发人员可以选择需要的人工智能功能，集成到视频会议解决方案中。

# 云计算