占据语音交互技术70％市场的隐形冠军，醉翁之意不在酒

企业新闻2年前 (2023)发布 aixure

72 0 0

导读：本期采访的声智科技是声学领域的隐形巨人，声智很少直接向C端用户提供产品，但其底层技术却被小米、百度、华为、阿里、腾讯等多家巨头运用，占据了国内70%的远场语音交互市…

本期采访的声智科技是声学领域的“隐形”巨人，声智很少直接向C端用户提供产品，但其底层技术却被小米、百度、华为、阿里、腾讯等多家巨头运用，占据了国内70%的远场语音交互市常

声智科技于2020年完成B+轮投资，投资机构包括江苏省国信集团、中信建投资本、杭州银行，此前，该公司曾获得1200万元的天使轮融资、1600万元的Pre-A轮融资、近亿元的A轮融资，和2亿人民币的B轮融资。

作者 | 门宇阔

编辑 | Momo

2014年，亚马逊推出了一个非常别样的音箱：Echo。伴随其出现的，还有一句另类的口号：「Voice First」。

当时亚马逊的判断是，语音交互的易用性和直觉性将引发一次革命，彻底改变人与机器沟通的方式。亚马逊描绘出的「语音乌托邦」蓝图，引来无数人的好奇和探索。

当时还身在中科院的常乐也是其中一员，通过Echo隐约看到了一个新的机会，她和她的团队组建起一家创业公司，把声学语音技术商业化，加入一场百年一遇的行业变革。

从物理学到商业化

人机交互，最早依赖于按钮，后来依托于鼠标键盘，2007年iPhone发布后，触摸屏成了最成功的交互工具。

这些交互方式有很多共同点，比如都是基于触觉和视觉，交互距离被限定在一个手臂的范围之内。

相比之下，声音天生具有解放双手的作用，相比于触摸式的交互，语音要更加自然和人性化，它也不依赖双眼，不需要用户刻意去熟悉软件界面，不需要去学习交互逻辑，天气播报、闹钟设定、网络搜索、预约叫车…只要张口问就可以直接获得答案。

这种全新的交互形式帮助AI技术得以在消费者端下沉，催生出了Echo为代表的新品类。

不过这类产品需要解决一个首要问题，用户在使用Siri等AI助理时，往往会把手机拿到嘴边，外界的噪声对语音交互的影响都很小，而智能音箱承担的是长达几米的远场交互距离，居家环境下声音源也更加复杂。

声智科技敏感地发现了这一问题，认清做好智能音箱的第一步，是要做好远场语音交互技术。因为没有好的“耳朵”，没有好的感知，音箱听不清几米外的人说话，谈何交互？

“在当时的环境下，其实近场的语音识别已经在实验室内做的很好了，语音识别率的准确度是可以商业化的，”常乐回忆说，“但远场交互中的各种噪声导致真实场景中还不行，比如开车的时候，因为胎噪、风噪等的影响，这个时候你语音说去导航去哪里，发现识别率就会很低，比如在人声鼎沸的餐馆里做语音交互，它的语音识别率也会很低，是因为在这样的环境下，有很多空间物理环境噪声造成对语音识别产生不良影响。”

语音技术正是声智科技的强项，公司创始合伙人总共6个人，其中5个来自中科院声学所。2016年公司创立，彼时的市场上已经存在讯飞、云知声、思必驰等语音交互的公司，而声智创始人们的技术背景，让他们决意早期一定要聚集声学前端模块（麦克风阵列、降噪、硬件平台），其它方面（生产制造、云端内容）可以用合作的方式来补齐。

于是，创始人们从专业出发，着手去改善体验最差的远场语音交互问题，提供4+1, 6+1等完整的麦克风整列方案，为智能音箱开发出足够灵敏的“耳朵”，以便采集更好的数据，为机器学习提供数据基矗

相比于同期竞争者，声智科技的发展路线最为极致和专注，不断完善远场感知技术中声源测向、混响去除、噪声抑制等功能，把语音识别率提高到95%以上。

声智麦克风阵列模组系列

即使有了业内一流的语音技术积累，声智也没有进军当时风靡一时的智能音箱领域，常乐说，公司既是技术型驱动，商业模式就想的很清楚：在自己最擅长的技术点上树立优势，以此来出售具有高附加值的产品或方案，成为行业的底层技术供应商。

在解决远场语音交互的前端技术后，声智开始填充整个“木桶”的其它板块，语义理解、大数据解析、智能搜索、知识图谱等等。2017年，中国的智能音箱市场彻底进入“百箱大战”的阶段。小米、百度、阿里、联想、出门问问、喜马拉雅等公司相继发布了自己的产品，而提供底层语音技术服务的声智科技马上成了众多公司的合作首眩

寻找智能音箱之外的更多可能

站在2021年的节点去看，亚马逊当年恢弘的蓝图依然在被一批人坚持着，智能音箱和围绕它产生的IoT行业已经形成一个巨大的产业。

而随着市场增长和饱和度的提高，整体的增长速度也在放缓，这意味着底层技术提供商需要寻找新的业务增长点。

数据来源：iiMedia Research

5年过去了，伴随着语音交互方式的普及和新技术的发展，人与机器交互方式也由单一的维度的触控、图像、语音转变成为声光融合等多维度的人机交互融合。

在常乐看来，过去5年，机器开始有了模仿人类的听觉，视觉，语言，推理等能力，但是大部分的人机交互设计还主要是单一维度感知、认知能力等提升。

例如图像识别算法可以感知事物，但无法使用语言来描述它们；自然语言模型可以理解文字，但文字是脱离任何感官现实的。而真实场景的人机交互需要融合人类认知、感知能力的多模态交互，可以将语言、图像、声音和其他感官信息联系起来，解决复杂问题。

基于这样的市场和行业判断，常乐总结了声智的发展思路，首先是继续加大对多模态融合AI技术研发投入，并输出标准化AI技术服务能力，为更多的企业赋能。

另一方面，则需要找到新的产品载体和突破口，为声智科技的技术、产品和解决方案寻找更多的落地应用的场景。

于是，在声智科技占据了中国70%的远场语音交互市场后，毅然决然地开始了新的征程。

声智科技合作的智能音箱

在智能音箱火速发展的那几年内，云计算、5G、深度学习、AI芯片等技术也相继成熟，人们探讨的不再是围绕智能家居为中心的生活场景，“AI+IoT”概念的提出产生了智能城市、智能制造、远程监控、智能座舱等更多的领域，产生出了更大的价值。

从智能音箱作为突破口的声智科技，也将自己的技术从声学语音拓展成声光融合，内容服务聚合、数据智能分析、IOT智能控制等多维度发展，搭建出了开源开放的人工智能交互平台，落地场景扩展到智慧健康、智慧安全、智慧生活等诸多领域。

可声控的机器人

在智慧办公场景中，声智推出的智能会议系统，基于智能麦克风、会易宝等产品，可以解决会议中噪声大、信号失真等问题，实现实时语音转写、会议纪要，多角色分离等功能，转写准确率达98%以上。

在智慧园区场景中，声智的智慧电梯可以通过语音命令，手势识别，AI数字人主动为您呼梯等人工智能交互的方式，帮助用户去到想去的楼层，实现全程无接触的乘梯体验，已在北京、上海、青岛、苏州等医院、机尝园区正式投入。

在智慧社区场景中，声智的AI数字人红外测温与监控解决可实现1-6米范围内、在0.2秒内完成多个目标的高精度测温，并支持实时AI语音合成播报，自动上传预警信息。用户可全程无感测温，方便快捷。

在智慧生活领域，声智还推出了智能降噪耳机，用军工品质的主动降噪技术，给用户全新的听觉体验，并通过先进的免唤醒技术，无需唤醒指令就可以语音指挥耳机完成歌曲播放切换、语音翻译等功能。

声智时空胶囊耳机

通过一系列产品线的布局，声智的业务布局也从技术、软件授权服务，丰富到提供完整的产品、综合解决方案和服务。多年的技术积累和商业化能力，帮助声智获得了资本的持续支持，从1200万的天使轮融资，到1600万的Pre-A、近亿元的A轮、2亿的B轮、B+…一路水到渠成。

声智目前的业务涉猎的领域较多，可在AI行业逐渐垂直化，产业细分化的当下，声智的多点覆盖是否会不够专精？常乐表示，公司一直追求的，是把人工智能交互技术做到极致，适用于多个领域，更加通用化：

“基于底层的人工智能操作系统，去做不同市场场景的商业化落地，貌似看起来业务分散，反而我们认为是把业务做的专精化。我们推出人工智能的操作系统，不光是有语言理解、图像处理这样的能力，还有声光融合的综合能力，把多模态感知技术和人工智能技术做一个很好的融合，去面向各个的领域去做复制，成为基础设施。”

常乐依然笃定AI的未来，而底层的交互系统，将是AIoT的基石。声智想做的，是AI时代的应用层操作系统，为更多的企业做服务，去赋能更多的行业。

从这个角度来看，公司目前所涉及的智慧健康、智慧安全、智慧生活的产品，均是AI操作系统在应用层的落地，一个个不同领域落地项目的实施，反过来也是对系统本身的修补和完善。

“成为AI时代的底层操作系统” ，这大概是所有AI企业的梦想，而声智科技已经在路上。

# 企业新闻

文章版权归作者所有，未经允许请勿转载。

2022天齐锂业创业大赛总决赛圆满落幕

aixure

阿里妈妈开源两项AI技术大幅提升数据的保护和使用效率

aixure

区块链、云计算、人工智能，上海保险中介机构依靠高科技进行创新

aixure

医疗AI第一股上市背后投资人解密投资逻辑

aixure

雷军看上新茶饮？顺为资本领投“7分甜”A轮融资

aixure

百度披露全球发售文件三大增长引擎夯实AI 第一股

aixure

暂无评论

暂无评论...

占据语音交互技术70％市场的隐形冠军，醉翁之意不在酒

思科网迅将提供实时翻译功能：涉及100余种语言

创新坚守初心不改科大讯飞用人工智能解决社会刚需

相关文章

暂无评论

相关文章

占据语音交互技术70％市场的隐形冠军，醉翁之意不在酒

思科网迅将提供实时翻译功能：涉及100余种语言

创新坚守初心不改 科大讯飞用人工智能解决社会刚需

相关文章

暂无评论

相关文章

创新坚守初心不改科大讯飞用人工智能解决社会刚需