随着2019冠状病毒病(COVID-19)大流行的加剧,世界卫生组织和联合国发出了严厉警告:与COVID-19有关的网络谣言和假新闻的“信息流行病”正在阻碍公共卫生努力,造成不必要的死亡。这些组织警告说:“错误信息会让人付出生命的代价。”“没有适当的信任和正确的信息……病毒将继续猖獗。”
为了解决这个问题,史蒂文斯理工学院(Stevens Institute of Technology)的研究人员正在开发一种可扩展的解决方案:一种能够检测与COVID-19有关的“假新闻”,并自动标记误导性新闻报道和社交媒体帖子的人工智能工具。史蒂文斯人工智能研究所(Stevens Institute for Artificial Intelligence)的人工智能专家、电子与计算机工程教授kp苏巴拉克希米(K.P. Subbalakshmi)解释说:“疫情期间,情况变得非常两极分化。”“我们迫切需要新的工具来帮助人们找到他们可以信任的信息。”
为了开发一种能够检测COVID-19错误信息的算法,苏巴拉克希米博士首先与史蒂文斯研究生陈明轩(Mingxuan Chen)和楚杏桥(Xingqiao Chu)合作,收集了大约2600篇关于COVID-19疫苗的新闻文章,这些文章在15个月的时间里来自80家不同的出版商。然后,研究小组将这些文章与知名媒体评级网站进行交叉引用,并将每一篇文章贴上“可信”或“不可信”的标签。
接下来,该团队收集了24000多条提到索引新闻报道的推文,并开发了一种“立场检测”算法,能够确定一条推文是支持还是反对相关文章。“过去,研究人员认为,如果你在推特上发布了一篇新闻文章,那么你就同意了它的立常但情况未必如此你可能会说‘你能相信这些废话吗?’”苏巴拉克希米博士说。“使用立场检测让我们有了更丰富的视角,帮助我们更有效地检测假新闻。”
史蒂文斯团队利用他们标记的数据集,训练并测试了一种新的人工智能架构,该架构旨在检测细微的语言线索,区分真实报道和假新闻。这是一种强大的方法,因为它不需要人工智能系统审核文本的事实内容,或跟踪公共卫生信息的演变;相反,该算法检测与可信或不可信文本对应的风格指纹。
苏巴拉克希米博士解释说:“将任何书面句子转换成一个数据点(n维空间中的向量)是有可能的,它代表了作者的语言使用。”“我们的算法会检查这些数据点,以判断一篇文章是否有可能是假新闻。”
苏巴拉克希米博士解释说,例如,更加浮夸或情绪化的语言往往与虚假的主张相关。其他因素,如发表时间,文章的长度,甚至作者的数量都可以被人工智能算法使用,从而确定一篇文章的可信度。这些统计数据提供了他们新策划的数据集。他们的基线架构能够识别假新闻,准确率约为88%,比之前大多数用于识别假新闻的人工智能工具要好得多。
苏巴拉克希米说,这是一个令人印象深刻的突破,特别是使用了几乎是实时收集和分析的数据。尽管如此,还需要更多的工作来创建足够强大和严格的工具来部署到现实世界中。“我们已经创建了一个非常精确的算法来检测错误信息,”苏巴拉克希米博士说。“但我们在这项工作中真正的贡献是数据集本身。我们希望其他研究人员将这一技术向前推进,并用它来帮助他们更好地理解假新闻。”
需要进一步研究的一个关键领域是:在索引的新闻文章和社交媒体帖子中嵌入图像和视频,以增强假新闻检测。“到目前为止,我们一直专注于短信,”苏巴拉克希米博士说。“但新闻和推文包含各种媒体,我们需要消化所有这些,以便找出哪些是假的,哪些是真的。”
处理社交媒体帖子等短信息是一个挑战,但苏巴拉克希米博士的团队已经开发出了人工智能工具,可以识别具有欺骗性的推文,以及散播假新闻和阴谋论的推文。苏巴拉克希米博士表示,将机器人检测算法和语言分析结合起来,可以创造出更强大、可扩展的人工智能工具。
随着卫生部长现在呼吁开发人工智能工具,以帮助打击2019冠状病毒病的错误信息,迫切需要此类解决方案。不过,苏巴拉克希米博士警告说,还有很长的路要走。她解释说,假新闻是阴险的,在网上传播虚假谣言的人和团体正在努力避免被发现,并开发自己的新工具。
她说:“每次我们向前迈出一步,坏人就能从我们的方法中学习,并建立更复杂的东西。”“这是一场持续不断的战斗诀窍就是领先几步。”