互联网数据“喂大”聊天机器人，我们应该讨要费用吗？

机器人2年前 (2023)发布 aixure

54 0 0

导读：划重点腾讯科技讯 4月30日消息，人工智能公司通过无数人在互联网上创造的内容来训练自家系统，他们既未征得人们的同意，也未提供任何补偿。现在，科技和媒体公司要求人工智能公司为这些内容付费，以便从这波聊天机器人热潮中分一杯羹。如果你曾经发表过博…

划重点

科技新闻讯 4月30日消息，人工智能公司通过无数人在互联网上创造的内容来训练自家系统，他们既未征得人们的同意，也未提供任何补偿。现在，科技和媒体公司要求人工智能公司为这些内容付费，以便从这波聊天机器人热潮中分一杯羹。

如果你曾经发表过博文，或者在Reddit上发布过内容，抑或是在开放网络上的任何其他地方分享过内容，那么你很可能在创造最新一代人工智能方面做出了贡献。

谷歌聊天机器人Bard、OpenAI的ChatGPT、微软的新版必应以及许多初创公司推出的类似工具，现在都整合了人工智能语言模型。如果没有网络上免费提供的海量文本，这些智能机器人作家可能永远都无法出现。

自从早期的搜索引擎之争以来，从未有过这样的情况。随着科技巨头试图以一种全新的方式瓜分不可替代的丰富信息源，网页内容再次成了争夺的焦点。

原本不知内情的科技和媒体公司正在意识到，这些数据对于培训最新一代基于语言的人工智能至关重要。Reddit上的内容是OpenAI训练人工智能的宝贵资源，它将开始向人工智能公司收取数据访问费用。OpenAI对此拒绝置评。

推特最近也开始对允许访问其数据的服务收费，这一变化影响了推特业务的许多方面，包括人工智能公司对其数据的使用。代表出版商的新闻媒体联盟本月在一篇论文中宣布，当公司用其成员制作的作品训练人工智能时，它们应该支付许可费。

程序员问答网站Stack Overflow首席执行官普拉珊特钱德拉塞卡表示:“对我们来说，真正重要的是确认信息的归属。”该网站计划开始向访问用户在公司网站上所创作内容的大型人工智能公司收取费用，她说：“我们真的想确保Stack Overflow社区在过去15年的努力得到回报。”

使用网页内容要不要付费？

以前出现的人工智能服务，如OpenAI的DALL-E 2，它们可以通过训练生成图像，现在被指控大规模窃取知识产权。开发这些系统的公司目前正因这些指控而卷入诉讼。人工智能生成的文本之战规模可能会更大，这不仅涉及补偿和信用问题，还涉及隐私问题。

这场争端的起因在于人工智能聊天机器人的开发方式。为这些机器人提供动力的所谓大型语言模型算法必须通过吸收和处理大量现有语言来进行训练，以模仿人类的说话内容和说话方式。这类数据与我们在互联网上所习惯的服务不同，比如Facebook母公司Meta Platforms等用于定向广告的行为和个人信息。

这些数据是使用各种服务的人类用户创造的，比如Reddit用户发表的数亿条帖子。只有在网络上，你才能找到足够大的人工生成词库。没有它，今天所有基于聊天的人工智能和相关技术都将无法成功。

非营利机构艾伦人工智能研究所的研究科学家杰西道奇在2021年发表的一篇论文中发现，维基百科和来自大大小小媒体无数受版权保护的新闻文章，都存在于最常用的网络爬虫内容数据库中。而谷歌和Facebook都使用这个数据集来训练大语言模型，OpenAI也利用了类似的数据库。

OpenAI尚未披露其数据的来源，但该公司在2020年发表的一篇论文明确表示，其大语言模型使用从Reddit上抓取的帖子来帮助过滤和改进用于训练人工智能的数据。

Reddit发言人蒂姆拉斯施密特表示，目前还不确定向访问其数据的公司收费能带来多少收入，但该公司有信心，它拥有的这类数据可以帮助改善当今最先进的大型语言模型。

此前有报道称，出版业高管始终在研究他们的内容在多大程度上被用于培训ChatGPT和其他人工智能工具，他们认为自己应该如何获得补偿，以及他们可以借助哪些法律依据。然而，该组织的总法律顾问丹妮尔科菲说，迄今为止，大型人工智能聊天引擎的所有者（谷歌、OpenAI、微软等）还没有达成任何协议，为来自新闻媒体联盟成员的部分培训数据付费。

推特没有回复置评，微软拒绝置评。谷歌的一位发言人表示，该公司“长期以来始终在帮助创作者和出版商将其内容货币化，并帮助加强与受众的关系。根据我们的人工智能原则，我们将继续在这一领域以负责任、符合道德规范的态度进行创新。”他还表示，现在“还处于早期阶段”，谷歌正在征求意见，讨论如何构建有利于开放网络的人工智能。

法律和道德困境

在某些情况下，复制公开网络上可用的数据（即抓取内容）是合法的，尽管公司在如何以及何时被允许这样做的具体问题上仍在争论。

大多数公司和组织之所以将他们的数据放到网络上，是因为他们希望这些数据能被搜索引擎发现并汇编索引，然后搜索引擎可以引导人们找到这些内容。然而，复制这些数据来训练人工智能，以取代寻找原始来源的需要，这是完全不同的。

华盛顿大学计算语言学家艾米丽本德尔(Emily M. Bender)表示，那些从网络上搜集信息来训练人工智能的科技公司的运作原则是：“我们可以接受它，因此它是我们的”。本德博士补充说，将这些文本（包括书籍、杂志文章、个人博文、专利、科学论文以及维基百科内容）转化为聊天机器人的答案，就会剥夺这些材料的来源链接。这也使得聊天机器人用户更难验证机器人所告诉他们的内容。对于经常编造内容的某些系统来说，这是个大问题。

这种大规模抓取网络信息的行为也会窃取我们的个人信息。Common Crawl的数据科学家和工程师塞巴斯蒂安内格尔说，你几年前写的一篇博客文章，即使后来被删除了，可能仍然存在于OpenAI使用的训练数据中。OpenAI使用大量多年前的网络信息来培训其人工智能。

Common Crawl是一个非营利组织，十多年来，它从开放网络中抓取了大量数据，并将其数据库免费提供给研究人员。Common Crawl的数据库也被想要训练人工智能的公司当作起点，包括谷歌、Meta、OpenAI等公司。

本德尔说，与谷歌和微软拥有的搜索索引不同，从训练有素的人工智能中删除个人信息需要对整个模型进行重新训练。道奇博士说，因为重新训练一个大语言模型的成本太高了由于需要巨大的计算能力，大约需要数千万美元，即使用户能证明个人数据被用于训练人工智能，公司也不太可能这么做。

但是，本德尔补充说，在大多数情况下，也很难让一个接受过包括个人信息在内的数据训练的人工智能来反刍这些信息。OpenAI表示，它已经调整了基于聊天的系统，以拒绝提供个人信息的请求。欧盟和拜登政府都在考虑针对这类人工智能制定新的监管法规。

问责制和利益分享

有些人工智能的支持者认为，人工智能应该获得其工程师能够获得的所有数据，因为这是人类学习的方式。从逻辑上讲，为什么机器不能这样做呢?

本德尔说，撇开今天的人工智能实际上并不像人类那样行事这一点不谈，上述论点的一个问题在于，根据现行法律，人工智能不能对自己的行为负责。剽窃他人作品，或试图将错误信息重新包装为事实的人可能会面临严重后果。但她补充说，无论是机器还是它的创造者，都不承担同样的责任。

但是，无数人创造的那些个人随笔、在默默无闻的论坛上或已不复存在的社交网络上的帖子，以及其他各种各样的东西，让如今基于聊天的人工智能和它们的写作能力一样好吗?所有这些内容的创造者唯一可能看到的好处是，也许是他们所使用的语言为创造聊天机器人做出了某些贡献。（金鹿）

# 机器人