美专家建议设AI基金：向科技大公司收数据使用费，再分发给民众

大数据1年前 (2023)发布 aixure

53 0 0

导读：划重点： 1当大型科技公司利用公共数据训练的生成式人工智能产生输出时，他们要按照字数或像素相关的数据单位支付少量授权费。这些费用将进入人工智能红利基金。每隔几个月，商务部就会把基金平均分配给全国每个居民。 2其他国家可以创建自己的版本，对在其…

划重点：

1当大型科技公司利用公共数据训练的生成式人工智能产生输出时，他们要按照字数或像素相关的数据单位支付少量授权费。这些费用将进入人工智能红利基金。每隔几个月，商务部就会把基金平均分配给全国每个居民。

2其他国家可以创建自己的版本，对在其境内使用的人工智能收取类似的费用。每个国家都可以独立管理他们的人工智能政策。

如果没有网民提供的文字和照片供人工智能公司训练他们的模型，他们就没有东西可卖。

【编者按】上周末，“推特崩了”作为热搜词引发全球关注，起因是该公司所有者埃隆马斯克采取临时紧急行动，限制用户阅读推文的条数。马斯克称，推特正在努力应对“极端程度的数据抓取”和“系统操纵”，但他没有透露谁在抓取推特的数据并详细解释系统如何被操纵。不久前，海外社交网站Reddit也抱怨过类似问题。

人工智能的爆炸式增长使数据抓取成为平台面临的一个日益严重的问题。今年4月，马斯克指责微软“非法”使用推特数据，暗指微软与人工智能公司OpenAI合作，在“来自互联网的大量不同文本数据集”上训练人工智能模型。

6月29日，南加州大学计算机科学教授巴拉特拉格万（Barath Raghavan）和哈佛大学肯尼迪学院研究员、《黑客的思维》作者布鲁斯施奈尔（Bruce Schneier）在美国政治新闻网站POLITICO杂志板块撰文称，大型科技公司在利用网民的数据训练大语言模型时，应当向他们支付相应的费用。两位专家建议，可以参照阿拉斯加石油基金设立人工智能基金，向科技大公司收取数据使用费，然后分发给全国每个民众。

澎湃科技（www.thepaper.cn）翻译整理了这篇文章，略有删减。

40年来，阿拉斯加人每年都能在自己的邮箱里发现支票，这来源于他们脚下的黑金（石油）。这是阿拉斯加的永久基金，由该州的石油收入资助，每年支付给每个阿拉斯加人。现在我们处于另一种资源热潮中，公司推销的是比特而不是石油：生成式人工智能。

每个人都在谈论这些新的人工智能技术比如ChatGPT而人工智能公司也在吹捧它们的强大力量。但他们并没有提到这种力量如何来自我们所有人。如果没有我们所有的文字和照片供人工智能公司用来训练他们的模型，他们就没有东西可卖。大型科技公司正在利用美国人民的劳动，在我们不知情、未同意和授权的情况下将这份收益收入囊中。

您的数据为当今的人工智能提供动力，因此您应当获得利润，而我们有办法实现这一目标。我们称之为“人工智能红利（the AI Dividend）”。

我们的建议很简单，让人想起阿拉斯加计划，当大型科技公司利用公共数据训练的生成式人工智能产生输出时，他们要按照字数或像素相关的数据单位支付少量授权费。这些费用将进入人工智能红利基金。每隔几个月，商务部就会把基金平均分配给全国每个居民。

没有理由让事情变得更加复杂。生成式人工智能需要各种各样的数据，这意味着我们所有人都是有价值的而不仅仅是那些专业、多产或写作优秀的人。要弄清楚哪些人对人工智能输出的文字有贡献，这件事既有挑战性又有侵入性，因为即使是公司自己也不太清楚他们的模型是如何工作的。按照人们创造的文字或图像的比例支付红利，只会激励他们创造无尽的废话，或者更糟，用人工智能来创造那些废话。大型科技公司的底线是，如果他们的人工智能模型是用公共数据创建的，他们就必须向基金付款。如果你是美国人，你就可以从基金中得到报酬。

根据这项计划，爱好者和美国小企业将免收费用。只有大型科技公司那些有可观收入的公司才需要向该基金缴款。他们要在生成式人工智能输出时付费，比如从ChatGPT、Bing、Bard或通过应用程序编程接口在第三方服务中嵌入使用的时候。

我们的建议还包括一个强制许可计划。通过同意向这个基金支付，人工智能公司将获得一个许可证，允许他们在训练人工智能时使用公共数据。当然，这不会取代正常的版权法。如果一个模型开始制作超出合理使用范围的版权材料，那就是另一个问题了。

用今天的数字来看，情况是，授权费可能很少，人工智能生成的每个单词 0.001美元起价。类似的费用也会适用于其他类别的生成式人工智能输出，比如图像。这虽然不多，但加起来就多了。由于大多数大型科技公司已经开始将生成式人工智能整合到产品中，这些费用将意味着每个人每年的红利有几百美元。

为数据付费的想法并不新鲜，一些公司已经尝试为自愿参与的用户这样做过。公众因使用其资源而获得回报的想法，早在阿拉斯加石油基金（Alaska’s oil fund）之前就有了。但生成式人工智能则不同：无论我们喜欢与否，它都会使用我们所有人的数据，它无处不在，而且可能非常有价值。如果大型科技公司要从头开始创建一个与我们的数据相当的合成数据，将花费一大笔钱，而且合成数据几乎肯定会导致更糟糕的输出。没有我们，他们就无法创造出好的人工智能。

我们的计划将适用于在美国使用的生成式人工智能。它也只向美国人发放红利。其他国家可以创建自己的版本，对在其境内使用的人工智能收取类似的费用。就像美国公司为在欧洲出售的服务收取增值税一样，每个国家都可以独立管理他们的人工智能政策。

不要误会我们的意思；这不是试图扼杀这项新兴的技术。生成式人工智能有着有趣、有价值甚至可能是变革性的用途，这项政策符合未来的发展。即使有人工智能红利的费用，生成式人工智能也是便宜的，并且随着技术的进步，它只会变得更便宜。人工智能也带来了风险无论是日常的还是深层次的政府可能需要制定政策来弥补任何出现的损害。

我们的计划不能确保人工智能的发展没有负面影响，但它将确保所有美国人都能分享好处特别是因为如果没有我们的贡献，这项新技术是不可能实现的。

# 大数据