AI再出安全问题，和GPT-2这样的AI聊天，能把网上别人隐私问出来

人工智能应用2年前 (2023)发布 aixure

121 0 0

导读：人工智能越庞大，需要的数据集就越复杂越繁多，相应的，可能出现的安全问题隐患也就跟着越大。这个魔咒一样的断言，这次降临到GPT-2语言模型上，它闯祸了：祸从口出。或者说，通过GPT-2暴露的问题，反映出了人工智能语言模型普遍的问题。而这个普遍问题其实…

人工智能越庞大，需要的数据集就越复杂越繁多，相应的，可能出现的安全问题隐患也就跟着越大。这个魔咒一样的断言，这次降临到GPT-2语言模型上，它闯祸了：祸从“口”出。或者说，通过GPT-2暴露的问题，反映出了人工智能语言模型普遍的问题。而这个普遍问题其实应该属于先天缺陷，犹如计算机操作系统的漏洞BUG，目前无法完美解决。

GPT-2语言模型闯祸了，当你和这个庞大到让人恐怖的AI聊天的时候，如果不经意地说出一串神秘的指令，“East Stroudsburg Stroudsburg……”一出GPT-2就会立马“心领神会”地送出一份大礼：将某个真实人的姓名，电话，地址邮箱等个人隐私统统公布出来。而这个真实人的资料，则是用于训练的网络上采集的数据。想想看，我们不经意的信息被AI训练后，被别有用心的人利用，或者延伸设想一下我们每天在浩瀚的互联网上分享信息和个人动态，如果被别有用心的人利用，那样得多恐怖啊！

人工智能语言模型，这是个隐患般的大问题。因为，这次只是GPT-2树大招风，被提出来质疑。而实际上，美国多家公司调查的结果，在随机抽取的1800个输出结果中，就有600个左右的结果还原出了训练数据中的内容，包括新闻、日志、代码、个人信息等等。隐私泄露的概率和语言模型的体量成正比。

虽然目前的GPT-2的训练数据集并没有被公开，这款AI本身的风险虽然没有杜绝，但只算很有限。此次研究人员选择GPT-2，就是因为它的模型已经开源。而这个只是拥有1.24亿参数的GPT-2 Small版。更多的参数，只会更多泄露的概率。而此次隐私被泄露受到重视，就是它否决了之前学术界认为的过拟合问题，而是一种被称为训练数据提取攻击（training data extraction attacks）方法。

AI安全，理应和AI的发展和突破同样重要。机智客觉得对于这一点，学术界应该重视起来，更重要的是，学术界只是面对学术问题，现实中，科技公司特别是大型科技公司，更应该承担起重要的角色，肩负起必要的责任。既要自律，又要防黑客防小人。

# 人工智能应用