微软的一项新AI项目旨在自动为文档和电子邮件中的图像添加字幕,以便视觉障碍软件读取图像。
微软的研究人员在有关预印本存储库arXiv的论文中解释了他们的机器学习模型的原理。
该模型使用可视语音词汇预训练(VIVO),它利用大量成对的图像标签数据来学习视觉词汇。然后,使用带有适当字幕的图像的第二个数据以帮助教AI如何最好地描述图片。
“理想情况下,每个人都应在文档,网络,社交媒体中为所有图像添加替代文本,因为这可以使盲人访问内容并参与对话。但是,可惜,人们却没有。”微软AI平台小组的软件工程经理Saqib Shaikh说。
总体而言,研究人员希望AI能够提供Microsoft现有字幕系统两倍的性能。
为了对新AI的性能进行基准测试,研究人员将其纳入了“无上限”挑战。在撰写本文时,Microsoft的AI现在在其排行榜上排名第一。
“无上限的挑战实际上是如何描述您在训练数据中没有看到的那些新颖的物体?”微软研究实验室的首席研究经理王丽娟评论道。
希望使用Microsoft自动字幕AI来构建应用程序的开发人员已经可以这样做,因为Azure Cognitive Services的Computer Vision软件包中提供了该功能。
微软令人印象深刻的SeeingAI应用程序将使用新的AI进行更新,该应用程序使用计算机视觉描述视力障碍者的周围环境。
“图像字幕是可以实现广泛服务的核心计算机视觉功能之一,”Azure AI认知服务的CTO黄表示。
黄继续说:“我们AI的这一突破以Azure为平台,以服务于更多客户。” “这不仅是研究上的突破;在Azure上将突破转化为生产所需的时间也是突破。”
改进的自动字幕功能也有望在今年晚些时候在Outlook,Word和PowerPoint中使用。