OpenAI对大量数据的需求正在反噬自身

AI2年前 (2023)发布 aixure

70 0 0

导读：在面临意大利的临时禁令和其他欧盟国家的一系列调查之后，OpenAI 只有一周多的时间来遵守欧洲的数据保护法。如果它没能做到，就将面临巨额罚、被迫删除数据，甚至被彻底禁止。但专家们告诉《麻省理工科技评论》，OpenAI 几乎不可能遵守这些规定。这是因为它…

在面临意大利的临时禁令和其他欧盟国家的一系列调查之后，OpenAI 只有一周多的时间来遵守欧洲的数据保护法。如果它没能做到，就将面临巨额罚、被迫删除数据，甚至被彻底禁止。

但专家们告诉《麻省理工科技评论》，OpenAI 几乎不可能遵守这些规定。这是因为它用于训练其人工智能模型的数据都是从互联网上收集的。

在目前的人工智能开发中，主流的思想是训练数据越多越好。OpenAI 的 GPT-2 模型有一个由 40GB 文本组成的数据集，到了 ChatGPT 所用的 GPT-3，则使用了 570GB 的数据进行了训练。OpenAI 尚未透露其最新模型 GPT-4 所用的数据集的大校

但这种对更大模型的追求现在开始反噬 OpenAI。在过去的几周里，一些西方数据保护机构已经开始调查 OpenAI 如何收集和处理驱动 ChatGPT 的数据。他们认为，它窃取了人们的个人隐私数据，例如姓名或电子邮箱地址，并未经他们同意使用这些数据。

（来源：STEPHANIE ARNETT/MITTR）

保险起见，意大利当局已经暂时禁止了 ChatGPT 的使用。法国、德国、爱尔兰和加拿大的数据监管机构也在调查 OpenAI 的这款应用如何收集和使用数据。欧洲数据保护委员会，也正在建立一个覆盖全欧盟的特别工作组，以协调围绕 ChatGPT 的调查和执法。

意大利已要求 OpenAI 在 2023 年 4 月 30 日之前遵守相关法律。这将意味着 OpenAI 必须征求人们的同意，才能收集他们的数据，或者证明它在收集这些数据方面具有“正当利益”。OpenAI 还必须向人们解释 ChatGPT 是如何使用他们的数据的，并让他们能够纠正聊天机器人产生的任何错误。如果用户要求的话，就必须删除他们的数据，还可以反对计算机程序使用它。

如果 OpenAI 不能让当局相信其数据使用实践是合法的，它可能会在特定国家甚至整个欧盟被禁止。法国数据保护机构 CNIL（Commission Nationale de l'Informatique et des Libertés）的人工智能专家亚历克西斯莱奥蒂埃（Alexis Leautier）说，该公司还可能面临巨额罚款，甚至可能被迫删除模型和用于训练它们的数据。

英国纽卡斯尔大学的互联网法律教授莉莉安爱德华兹（Lilian Edwards）说，OpenAI 的违规行为非常明显，这个案件很可能最终会提交到欧盟法院，即欧盟最高法院。我们可能需要数年时间才能看到意大利数据监管机构提出的问题的答案。

高风险游戏

对于 OpenAI 而言，这场博弈游戏的赌注已高的不能再高了。欧盟的通用数据保护条例是世界上最严格的数据保护制度，并已在世界各地被广泛复制。从巴西到美国加州，世界各地的监管机构都将密切关注接下来会发生什么，这一结果可能从根本上改变人工智能公司收集数据的方式。

除了要求其数据实践更加透明之外，OpenAI 还必须证明，它收集其算法训练数据的时候使用了两种合法方式之一：征得同意或“正当利益”。

OpenAI 似乎不太可能辩称，它在搜集人们的数据时获得了他们的同意。这就意味着，它只能尝试“恰当利益”这条辩护之路。爱德华兹说，这可能需要该公司向监管机构提出令人信服的理由，说明 ChatGPT 十分重要，以至于可以在未获得许可的情况下收集用户数据。

OpenAI 告诉我们，它相信自己遵守了隐私法规，并在一篇博客文章中表示，在可行的情况下，根据要求从训练数据中删除个人信息。该公司表示，其模型训练所用的数据是可公开获得的内容、授权内容和由人类评论者生成的内容。但对于像 GDPR 这样的数据保护法来说，这个门槛太低了。

爱德华兹说：“美国有一种原则，即当这些东西出现在公共场合时，它就不再是私人的。但这根本不是欧洲法律的运作方式。”GDPR 赋予人们作为“数据主体”的权利，比如被告知他们的数据是如何被收集和使用的，以及将他们的数据从系统中删除的权利，即使这些数据一直都是公开的。

大海捞针

OpenAI 还有另一个问题。意大利当局表示，OpenAI 在“后训练阶段”收集用户数据的方式并不透明，比如在他们与 ChatGPT 互动的聊天日志中。

“真正令人担忧的是它如何使用你在聊天中给出的数据，”莱奥蒂埃说。人们倾向于与聊天机器人分享亲密的私人信息，告诉它自己的精神状态、健康状况或个人观点。莱奥蒂埃指出，如果 ChatGPT 存在将这些敏感数据消化并发送给他人的风险，这就是有问题的。他补充说，根据欧洲法律，用户需要能够删除他们的聊天数据。

曾担任谷歌人工智能伦理联合负责人的 Hugging Face 首席科学家玛格丽特米切尔（Margaret Mitchell）说，OpenAI 将发现几乎不可能从训练数据中找到个人数据并将其删除。

她说，该公司本可以从一开始就建立稳妥的数据记录，从而让自己避开一个巨大的麻烦。但与之相反，在人工智能行业，人们通常通过不加选择地抓取网络数据，然后将重复或无关数据的删除、过滤不必要的东西、修复拼写错误等工作外包，来为人工智能模型构建数据集。这些方法，以及数据集的庞大规模，意味着科技公司往往对哪些数据训练了他们的模型掌握得非常有限。

谷歌的前研究科学家、研究人工智能数据实践的企业家尼希亚桑巴西万（Nithya Sambasivan）说，科技公司不记录他们如何收集或注释人工智能训练数据，甚至也不知道数据集中的内容。在 ChatGPT 庞大的训练数据集中找到意大利数据就像大海捞针一样。即使 OpenAI 成功地删除了用户的数据，也不清楚这一操作是否会是永久的。研究表明，数据集在被删除后很长一段时间都会留在互联网上，因为原始数据的副本往往会在网上传播。

米切尔说：“数据收集的技术非常、非常不成熟。”这是因为大量工作都集中在为人工智能模型开发尖端技术上，而数据收集方法在过去十年几乎没有改变。米切尔说，在人工智能社区，人工智能模型的重要性被过分强调，甚至是以牺牲其他一切为代价：“机器学习领域存在一个文化上的问题，数据被视为愚蠢的工作，模型被视为真正的工作。”

桑巴斯万对此表示赞同：“总的来说，数据工作需要更多的合法性。”

支持：Ren

原文：

https://www.technologyreview.com/2023/04/19/1071789/openais-hunger-for-data-is-coming-back-to-bite-it/

# AI