采访前阅读上百份文件报告、从上万条数据资料中寻找线索……记者或许常常因此而感到心力交瘁。好消息是,现在,记者可以将这些机械的工作慢慢交给人工智能了,它可以模仿人类进行学习、推理,并进行自我修正。
本期全媒派(ID:quanmeipai)受权转载全球深度报道网(ID:gijn_cn)的文章,来看BBC的数据记者 Paul Bradshaw 在第11届全球深度报道大会上的分享,了解一下人工智能如何辅助记者的日常工作。
确定范围
在进行调查报道的过程中,有时你的直觉会告诉你,事实真相比你手头收集到的不痛不痒的资料要大得多,但很难确定这个范围究竟有多大,“我们需要知道有多少人受到了此事影响,或者此事已经持续多久了。”
经过训练的算法能够透过特定的文字模式分析大量的文件,以圈定哪些属于相关联的内容,Atlanta Journal-Constitution 就成功地训练出了能够处理性骚扰案件文档的算法,这则算法得以快速分析大量的相似文件,为记者们提供更多的调查线索。
确定问题
人工智能可以用来确认问题。瑞士广播机构 Schweizer Radio und Fernsehen 基于多种要素规则,成功地训练出了能够检测虚假社交媒体账号的算法,他们使用这则算法去分析一名瑞士意见领袖的粉丝,发现其三分之一的粉丝全部都是虚假账户。
了解语境
相比于单单分析词汇,自然语言处理算法(Natural Language Processing,NLP)能够将词汇所处的语境、讲话人的意图也纳入分析研究之中。此前,ProPublica 就分析了竞选活动是如何基于受众的微妙不同,向选民们发送定制化、个性化的宣传电邮的。而这一切都基于算法对于选民的了解。
然而自然语言处理算法也因此受到了批评,因为这种算法是在一个特定的文化语境中被训练出来的,这也意味着它会潜在地带有某种特定的性别和种族偏见。
找到线索
人工智能能够辅助进行语言模式的检测,从而理解文字背后蕴藏的情绪,当然也能够发现改动的痕迹,这在分析上千页的文件时尤其有用。
《华盛顿邮报》曾经取得了美国国际开发署监察办公室的12份审计文件的草案,他们在人工智能的帮助下,将草案与最终版本进行对比,发现任何表达负面情绪或被理解成批评的词汇语句,在正式发布版本中都被删去了。
定位机器生成内容
机器生成的内容正在互联网上泛滥,借助人工智能,你可以分辨出哪些是机器生成的内容、哪些是由人类撰写,这会对你的调查报道非常有用。
从大数据中找到头绪
人工智能可以从大型定量数据中挖掘出线索。举个例子,对于工资的分析可以得出哪间学校的老师拿到了最多的钱,或是不同性别的收入差异。“这就能为你找到突破口,让你明白需要找哪些对象进行采访。” Bradshaw 说。
解码专业术语
无论是政府、商业公司,还是 NGO,甚至是记者自己都很喜欢使用专业术语,但这些语言很难被外人所理解的,分析起来就更难了。而人工智能可以对语言和行文模式进行处理分析,将那些专业术语进行解码。
分析关系网
同一个实体在不同的文件中有时候会用不同文字进行指称,人工智能可以对这些关系网进行集中分析,辨认归纳出那些字面名称不一致、但实际上是同一实体的人或机构。举个例子,人工智能可以同一实体的财产记录、税收数据以及其他信息进行比对,即便他们被记录在案的名字不同。
分析无人机与卫星影像
人工智能同样可以对无人机拍摄的影片、卫星影像进行分析,为你的调查提供线索与目标。它们同样能够分析处理传感器的资料,这样你就不需要亲自一条条检视大量数据了。
归纳总结
OCR 技术能够对摄影、手写或印刷的文字进行阅读识别,进而将其转换为可进行检索的文件格式。人工智能也能用同样的方法处理音像与影像内容,并将完整内容总结成为明了的概要。
这项技术目前还未臻完美,所以你需要对可能出现的错误做好心理准备。不过即便如此,它还是可以为记者大大减负。
定制你的私人助理
你可以使用人工智能来定制个性化服务,生成标题、翻译以及设定智能回复机器人。举个例子,对于一宗全国性的大型调查报道,机器人能够面向境外生成有针对性的、在地化的标题和文章,吸引在地读者。它们同样能够24小时全年无休地与你的读者就故事进行互动,让他们获得更高的参与感。
但人工智能技术当然也有自身的缺陷:它并不是百分百准确的,也会受到来自不同文化的偏见影响。当你使用这种自动生成的内容时,你需要想想看你要在多大程度上保留编辑权限。
“根本上,你需要记住的是人工智能到底还是一项工具。它和任何工具一样,只局限地存在于文化的语境之中。并且,机器学习始终是一种概算与推定,绝对不可能做到百分之百正确。” Bradshaw 说。