机器之心原创
作者:力琴
小小词典笔为何让人“上瘾”?机器之心试图通过采访,了解有道词典笔背后从 0 到 1 的工程实践。
距离有道词典笔 2 代发布的 1 年 3 个月之后,网易有道又推出了一款全新的有道词典 3,区别在于,将查词体验从扫描的交互方式直接简化到点一下就一秒钟完成查词。
网易有道产品负责人吴迎晖拿着全新的词典笔在现场做演示,无论是当天刊发的中国日报英文版、纸质书籍,还是护手霜、药盒,都可以快速点查陌生单词。“‘快速点查’是让你上瘾的一个功能。”他说。
当天发布会的产品体验区,这款词典笔很快引起了参会者的注意,人群熙熙攘攘地聚在体验区周围,迫不及待想要一睹词典笔究竟是什么样。
当我拿起词典笔想要找单词点读时,下意识直接将笔头指向单词的偏中间位置,很多未使用过有道词典笔的参会者几乎都犯了同样的操作错误,导致识别出来的单词大部分是不全的。
后来这种操作被现场工作人员指正,并被告知需要将笔头垂直放在所要识别单词的首个字母前面,才可以顺利完成点查。屡试体验碰壁,在掌握合适方法之后,我很快产生了上瘾查词的感觉。
在英语学习场景当中,辅助查词的产品就有电子词典、点读笔、点读机等。与这些传统产品不同的是,有道词典笔更依赖于人工智能,用技术解决场景需求。只不过,关于这款小小词典笔背后的技术与工程实践很少认真被讨论。
作为一家技术驱动产品的教育科技公司,借助有道词典等产品的 8 亿 + 用户,有道词典笔可以获得大规模文本、OCR 图像和语言的真实数据。自词典笔自 2017 年推出开始,与之相应的工程也在不断更新与迭代。
小小词典笔为何让人“上瘾”?机器之心试图通过采访,了解有道词典笔背后从 0 到 1 的工程实践。
01 一件冒险的事情
“‘超快点查’是吴迎晖的个人主意。”网易有道 CEO 周枫说。“他想到这个主意的时候,整个团队都很兴奋。”
超快点查是有道词典笔 3 的一大亮点,这将查词体验从扫描的交互方式直接简化到点一下就完成查词。
吴迎晖表示这个创新功能来自于对用户的洞察。实际上,从有道词典笔 1 代推出至今,产品团队几乎每天都能收到各种各样用户的反馈,这些反馈都指向一个核心问题,究竟如何更有效率。
他的点子立即点拨了团队的所有人,于是可视化互动点读也出来了。有道词典笔 3 的互动点读功能面向低年龄段儿童,将日常绘本实现动画效果,绘本还设有互动答题,可实现一句一跟读,AI 打分。尤其对于有孩子的用户而言,既要买词典,又要给孩子买点读产品,因此有道想做一款覆盖所有点读场景的智能化产品,用速度换取效率,给用户提供价值。
功能非常吸引人,但如何就需求和场景改设计、验证,挑战很大。“这个挺冒险的,万一不成功,坑的是整个团队。”有道词典笔的解决办法是加入超感光学系统,用视觉办法解决点读。
关于超感光学系统,有道官方的解释是:它兼容了 OCR(光学字符识别)与 OID(光学辨识码)两大 AI 技术的自动判断与识别,可同时识别红外光与可见光。
超感光学系统有非常大的广角,使其能够识别文字的区域更大,这构成了 “超快点查” 的基础条件。
“虽然这个功能非常实用且吸引人,但对算法挑战非常大。”网易有道首席科学家段亦涛说。广角镜头成像会产生畸变,另外,超感光学系统笔头也会导致光照不均。两者都会造成识别困难。
“在此条件下做 AI 模型是很难的事,业界没有现成的参考方案。”
实际上,无论是点查还是可视化点读,所采用的 OCR、OID 技术并不稀奇,难点在于,需要用算法挑战不可控环境下的识别;在有限的硬件条件下,集成不同产品和模块组合。
02 一年零三个月的改变:从模型到框架
为了解决畸变、光照不均等问题,有道开发了新的方案与模型,优化从图像采集、检测及识别的全过程。
直观而言,笔头的广角镜头会在短时间内采集图像,而图像是畸变的,在识别之前需要将畸变图像转换成无畸变图像。
为此,有道预设了理想条件图像到实际采集图像的变换关系,包括广角镜头的径向畸变和倾斜角度的投影畸变。
在点查功能触发后,有道使用预设的变化参数,修正图像的畸变;然后使用阈值化图像技术对阴影进行补偿。
所采集图像经去畸变、去阴影后,再进行图像增强,得到完整且可识别的图像。随后 OCR 负责 “看懂” 图像识别文字,TTS 负责词和句子的读音。整个过程在抬笔间就能完成,实现“超快点查”。
用户可以用词典笔在不同的场景识别不同的文字,比如化妆品的说明书、医药物品曲面等等。词典笔二代推出后,有道意识到用户对密集、弯曲、背景干扰等扫描场景下对模型准确率有更高的期待,因此,部署了更为精细的像素级别检测模型。
有道将图像上的每个像素位置进行前景文字和背景的分类,使用局部特征回归行高等位置信息,将所扫描的中心文字连接并组合成行,切分成用于识别的文本行。新的检测网络模型可将密集、弯曲的文字从各类复杂背景中检测出来。
在 “检测与识别” 的框架上,有道还增加了纠正模块,用于将特殊字体、形近字、背景干扰造成的误识别进行纠正。
基于有道海量的语言数据积累,有道针对词典笔学习场景构建了 N-gram 语言模型。
在训练阶段,有道使用语料库及对应图像数据同时训练识别模型和语言模型;在推理阶段,识别模型的解码能力易受字体和背景干扰,输出 “错误” 的识别结果。
例如图中所示的 “pedkfast”,原是错误拼写。但在语言模型的加持下,“错误” 的预测概率将会被抑制,由语言模型输出的转移概率作用在解码阶段,将更加符合语言规范的结果 “peakfast” 输出。
03 离线侧端的底层工程
相较于词典笔 2 代,词典笔 3 代在不联网的情况下,翻译引擎速度提升了 20%,平均的识别准确率达到了 98.3%,最高的准确率能达到 99%。
这些数据的体现,都要归功于词典笔内置的离线 OCR 和翻译模型。词典笔中的离线模型都是从线上模型演化而来,为了保证用户体验效果,都需要在端上进行推断。
点读笔的运行流程是先要扫描文字,再进行翻译、查词,离线模型当中就包含视觉模型和翻译模型。段亦涛表示,这些模型跟词典笔 2 代相比都有了升级。
笔头广角镜头的设计,给图像识别带来视觉畸变上的麻烦,因此,在视觉模型方面,有道做了检测和识别的模型的升级,并将 NLP 也融合到视觉模型中,可以帮助识别纠错。
图像识别后是翻译环节。翻译模型方面,有道做了语言的适配和优化,让翻译更加智能。由于翻译模型的输入是视觉识别模型的输出,不可避免会出现类似标点符号、形近字等错误。为此,在识别模型本身具备一定纠错能力的情况下,有道还为翻译模型做了一些容错的处理。
这些针对离线模型所做的优化,对词典笔底层的算力及内存提出了挑战。为了保证在给定算力的情况下实时运行,有道在模型上做了大量的优化。这些方法跟机器之心了解到的,针对词典笔 2 代离线模型的做法大致相同,将模型压缩渗透在训练、预测各个阶段。
有道还采用了模型裁剪、参数共享、知识蒸馏等办法降低模型大校通过这些方面的优化,保证在不影响性能的情况下降低对运算资源的依赖,并对结果做更加精准地预测。
除了针对模型的优化与精简外,有道自研了离线推理框架,从以下几个方面优化推理性能:
底层计算:手写 ARM NEON 汇编级优化,运行 Winograd 卷积算法,网络层合并;
数据管理:重新设计数据排布,高效向量化,支持 FP32/FP16/INT8;
异构平台:多核并行计算,支持 CPU/GPU,模型可以一键转换,自动裁剪;
在新计算引擎的支持下,整个链路的计算速度提升 20%。
“整个优化是从模型、框架、工程等各个层面全方位的升级。”段亦涛认为。
04 智能硬件的新变量
在升级词典笔视觉点读业务的同时,有道也在给其他业务提供视觉技术的支持。段亦涛向机器之心表示,有道有面向 B 端学校的项目,当中有一款硬件产品叫做有道智能学习终端,可以用于识别和收集错题。对视觉技术的要求极大。
随着人工智能技术对学习、教学场景的重塑日趋成熟,有道在技术方面也逐渐深入。网易有道在智能硬件相关的技术研发投入了很大的力量,在包括计算机视觉、自然语言处理、语音技术、高性能计算和异构计算,以及硬件研发方面都有深厚的积累。
目前重技术的智能硬件产品成为网易有道最为重要的业务版图。在第三季度财报中,智能硬件为有道贡献 1.631 亿元,同比增长 289.3%,首次超过广告业务。有道的学习型智能硬件正在爆发其巨大的商业变现潜力。
与此同时,诸如字节跳动、科大讯飞、搜狗等公司也在教育智能硬件市场展现其巨大的野心。对用户及教育企业而言,教育智能硬件能够有效弥补 PC 或 APP 端的交互体验、数据采集的不足,并有利于缓解获客成本,提高用户留存率。
究其各家的智能硬件产品,因切入的场景不同,教育硬件产品形态各异。无论是基于怎样的技术细节及基础,关键在于都需要结合用户需求,将场景做透,在此基础上,AI 能力、产品能力及内容缺一不可。
当下,有道词典笔凭借在技术、产品及内容上的优势已经成为万众瞩目的硬件产品。以后,有道词典笔会成为可复制的硬件吗?面对机器之心的提问,段亦涛表示,“好的东西肯定会有人模仿,至少我们的先发优势强。如果别人没有做过这个东西,一定会付出时间的代价。我们只要做到跑得比别人快。”
网易 CEO 丁磊曾在网易有道上市,及网易在港二次上市之时,向全国英语老师免费赠送有道词典笔,至少在这个环节,有道词典笔已经先抢下用户认知,让用户体验小小词典笔背后神奇的 AI 力量。
对于现在市场上推出的智能硬件产品,段亦涛有自己的理解,他拒绝从工具功能性角度解读,而是有更长远的认知。
“在真实学习场景中,学生需要在物理世界里留痕,因此任何智能工具,包括软硬件,都无法颠覆原有的学习过程。我们可以做到的是,通过智能硬件介入学生学习的物理世界中,让学习行为更加高效。同时通过获得学习过程中的数字化数据,逐步建立趋于成熟的数字化教学体系。”
从数字化角度看,网易有道是一家重算法的以技术驱动的教育科技公司。即使是百分之一的算法和框架优化,都能转化为巨大的商业与教育价值。每一小步突破,就是重构教育的一大步。
THE END
转载请联系本公众号获得授权