Google扩展云计算语音转文本服务添加支持7种语言

云计算1年前 (2023)发布 aixure

61 0 0

导读：Google更新云计算语音转文本（Speech-to-Text）API，添加支持的语言以及增强对方言的识别能力，以扩展支持的市场范围。新支持的语言为缅甸语、爱沙尼亚语、乌兹别克斯坦语、旁遮普语、阿尔巴尼亚语、马其顿语和蒙古语等，训练资源相对于主流语言不足的7种语…

Google更新云计算语音转文本（Speech-to-Text）API，添加支持的语言以及增强对方言的识别能力，以扩展支持的市场范围。新支持的语言为缅甸语、爱沙尼亚语、乌兹别克斯坦语、旁遮普语、阿尔巴尼亚语、马其顿语和蒙古语等，训练资源相对于主流语言不足的7种语言，使整体云计算语音转文本API支持的语言，从64种上升为71种，把方言也算进去的话，从120种来到了127种。

Google语音转文本功能以API的形式提供，让用户对各种长度的语音，或是流媒体音频，将语音转成文本，而企业也可以自定义功能，配置转录的过程。这次的更新，Google还强化了其三项功能，语音适应（Speech Adaptation）、电话通话模型（Telephony Model）以及说话者自动分段标记（Speaker Diarization）对方言的识别能力。

语音适应可以让企业调整服务产生的文本，零售商可以训练语音转文本功能，强化识别客户服务来电中难以翻译的产品名称，甚至是转换各种时间表达方法成为数字格式（下图），另外，用户也能配置API，控制其回传信息的方式，以大幅改进特定使用案例的语音识别品质。现在语音适应功能新提供68种语言和方言，包括国语（Mandarin）、日语和西班牙语等。

说话者自动分段标记是一种可区分一段语音中不同说话者的技术，将音频文件中的单词和语句分配给不同说话者，让用户不仅可以理解语音内容，还能知道是由谁说的。而这项技术可以让用户更简单地为视频增加字幕。这次的更新加入了对10种方言的支持，包括英国英文、西班牙文和国语。

另外，正确的标点符号也是转录品质的重点，Google的自动标点符号功能，会试图模仿用户他们写下所说话语的方式，这将有助于提升文本的可读性。这次更新Google添加了对德语、法语和日语等18种方言的支持。

Google提到，这次的更新扩展了语音转文本可服务的对象，添加超过2亿人，而功能强化也可为原本的服务对象，提供品质更好的转录功能。

# 云计算