小鹏P7将上线新一代AI语音：无限接近人类、带情感、会调侃

AI1年前 (2023)发布 aixure

70 0 0

导读：小鹏汽车似乎对产品有近乎偏执要求：要在车内创造出一种能「无限接近人类语气」的声音交互系统。 7月，这套「全新AI声音」的小P系统将在P7部分车型上线。直接上视频，推荐带耳机食用，0:07高能：去年1024之后，小鹏车机智能化有了很大进步，于是我们花费…

小鹏汽车似乎对产品有近乎偏执要求：要在车内创造出一种能「无限接近人类语气」的声音交互系统。

7月，这套「全新AI声音」的小P系统将在P7部分车型上线。

直接上视频，推荐带耳机食用，0:07高能：

“去年1024之后，小鹏车机智能化有了很大进步，于是我们花费很多精力在小P的语音表现上，给大家一个更好的信息交互渠道。”小鹏汽车AI产品专家陈思云介绍起全新车载语音。

小鹏产品团队为新声音设立了三大「纲要」：

（1）足够像真人。

（2）角色足够拟人，例如定位成「秘书」、「宠物」或是「女神」。

（3）亲切传达信息，拉进用户距离。

小P全新AI声音是如何做到的呢？为实现这三条，团队就必须往车机联入一个在线的、更大规模的「神经网络模型」从而实现HIFI级别合成语音。

目前，这套神经网络已经为小P带来了至少2项肉眼可见的提升：

MOS评分4.49

经MOS1语音质量评测，小鹏全新AI声音得分为4.49，是目前微软MOS语音质量评测得分最高的车载智能语音助手。

当然，MOS评分不能完全完全「神化」。

MOS最早源于电话的语音质量评价。这项评价标准由ITU（International Telecommunication Union，国际电信联盟简称国际电联）在1996年，作为囊括在《P.800: Methods for determination of transmission quality 》中的一个「子标准」沿用至今，字面意思不难看出，这是个围绕「主观」（subjective）也就是人工听觉、人工打分的一项判定方法。

别看MOS古老（那时TTS还未普及），作为一个成熟、稳定、高度逼近人类听觉体验的评价标准，MOS的制定最初建立在一套有参考信号的评价体系之上的：评价时，同时需要待测信号和参考信号。相较于无参考评价方案，有参考的客观评价方案更容易做得贴近主观评价体系。

“MOS体系本身是一个主观评分，在全球最标准化的大会上参加评分的时候，也会要求需要把两个竞品或两个声音加上真人，加上一个非安慰剂的参照系放在一起横向比较。

我们只能比较这几个主观评价中，用户对它们评价的差值，但绝对分值的比较，因为它是一个主观比较：所以在换样本量，或换不同的场景，都会导致分值上的差异，需要放在同一测试中这个分数才有比较的意义。”

陈思云在回答能否用MOS评分高低作竞品横评时谈到，“即便无法客观的让小P横向对比。但我相信更新后，用户拿小P和Siri对比，还是有很大区别的。”

软硬兼施，打出「情感牌」

从刚才的视频来看，全新小P声音饱满程度也有很大提升，再配合P7本身的良好的NVH性能，我预感这波HiFi级高保真音质真的可以在P7上发挥出来，成为量产车中排名数一数二的沉浸交互感。

实际上，全新AI声音采用24K采样技术（现有声音为16k），各种场景下的声音反馈都被精心调教，用户听到的每句话都细腻生动、充满活力。

“新旧声音对比来听，会明显感受到音质的差距。这个声音不是拼接的，完全采用AI训练、生成出来的。”郝超补充道，“业内无论车企还是智能音箱，大家还是在用提前录音的方式，尽可能让语音包更好听，但内容覆盖率不高，所以我们采取这种方式（AI生成），也算一次大的创新。”

除了这些「硬实力」，全新AI语音还有足够「软实力」。

“小P会像Siri一样调侃么？”笔者问道。

“全新AI声音会有一些情绪上的表达，或者对不同情景、不同语气会有一些彩蛋的埋入，包含像偶尔跟用户进行一些小的调侃，去调剂一下用户整个行程中的娱乐性，这也会有一些小的彩蛋的埋入。”陈思云回答。

而具体有哪些「彩蛋」，还需要P7车主一点点挖掘。

除了语音彩蛋，全新小P语气包括例如「助理、客服、聊天、温和、亲热、抒情、新闻、严肃、不满、生气、害怕、悲伤、冷静」等14种强烈情绪的变换能力，后续版本还会逐步贴合更多场景。

说了这么多优点，但新技术哪有不翻车的。来谈谈笔者对小鹏全新AI语音的担忧吧。

首先就是难以应对离线情形。

车辆行驶在偏远地区，没网，或者信号中断，在「有-无」网络之间来回切换，驾驶者肯定对语音质量的高低变换一定是有反应的。

但小鹏的工程师已经想出了对策：在线追求高品质，离线兜底无时延。

“如果遇到「5公里长的隧道」这类极端网络情况，我们会在本地留一个「小的离线模型」，它的体量不会很大，但保证小P在时效性不变差的情况下一定能把声音发出来，比如说导航或者自动驾驶这些播报，两个模型工作准则是一样的。”

按照郝超的说法，这套自研「端云融合多级缓存」，能让车辆预测当下的网络情况，自动改迅在线神经网络引擎」or「离线引擎进行声音合成」，总之就是在信号不佳的情况下，语音播报依然维持高音质。

“通过这个技术，小P已做到97%超高在线率。”郝超补充道。

最后，笔者认为，无论多么炫技，全新小P仍是围绕更好传达信息而生的。

回想下，你有没有经历过，当车内导航声被道路噪音掩盖、碰巧路线显示延迟而错过待转路口？

在认知心理学中有个经常被提及的原理：「鸡尾酒会效应」。指的是人类听觉系统有着极其神奇的「专注能力」，即便在嘈杂环境中，仍能将注意力专注于某种「特定声音」，而「无视」掉背景音。

其实，小鹏语音团队做的便是将这个原理「逆」过来：做出一套更好被人类听觉系统分辨的声音。

是的，人的注意力是有限的，一个好的交互系统在设计时就必定要考虑到极端情况下，如何减少人脑的能量消耗，从而达到最好的信息传递效果。

期待小P早日让车主们享受到这一乐趣。

【 THE END 】

# AI

文章版权归作者所有，未经允许请勿转载。

AI“大跃进”，芯片还够吗？

aixure

因私自转移公司文件，谷歌解雇其AI伦理团队又一重要研究员

aixure

微软称GPT-4或具备人类逻辑，人工智能终将成“人类智能”？

aixure

智能语音交互，正在改变我们生活

aixure

白日梦的信徒们，在投资人工智能之前请先阅读本文

aixure

王阳：中国的人工智能应走向全球化发展

aixure

暂无评论

暂无评论...

小鹏P7将上线新一代AI语音：无限接近人类、带情感、会调侃

唤醒AI人才对话未来，2021百度奖学金正式启动

从制度看中国在人工智能发展中的现状

相关文章

暂无评论

相关文章