OpenAI的大模型更倾向生成白人男性图像？研究发现多款AI模型均存在种族与性别偏见

AI2年前 (2023)发布 aixure

71 0 0

导读：针对当下流行的大语言模型（Large Language Models，LLMs），比尔盖茨称 OpenAI 的 GPT 模型是自 1980 年以来最重要的技术进步，英伟达 CEO 黄仁勋也表示 AI 的iPhone 时刻已经来临。但是，当下流行的 AI 图像生成模型，也倾向于放大有害型偏见以及刻板…

针对当下流行的大语言模型（Large Language Models，LLMs），比尔盖茨称 OpenAI 的 GPT 模型是“自 1980 年以来最重要的技术进步”，英伟达 CEO 黄仁勋也表示 AI 的“iPhone 时刻”已经来临。

但是，当下流行的 AI 图像生成模型，也倾向于放大有害型偏见以及刻板印象。2023 年 2 月，《麻省理工科技评论》记者梅丽莎海基拉（Melissa Heikkil）发现，美国 Midjourney 实验室研发的同名大语言模型 Midjourney，已经封禁了一批有关人类生殖系统的词汇。当用户使用时，这些词汇不能被用作提示语。

如果有人将“胎盘”“输卵管”“乳腺”“精子”“子宫”“尿道”“子宫颈”“处女膜”或“外阴”输入 Midjourney，系统会发出禁止使用的提示。有时，尝试使用这些提示词的用户，会因为试图生成被禁止的内容，而被暂时禁用一段时间。而其他与人类生物学有关的单词，比如“肝脏”和“肾脏”则被允许使用。

美国 Midjourney 公司的创始人大卫霍尔兹（David Holz）表示，禁止这些词汇是一种权宜之计，以防止用户在 Midjourney“优化 AI 技术”的过程中，产生令人震惊或血腥的内容。他说，Midjourney 管理员会关注用户如何使用文字、以及生成了什么图片，并定期对禁令进行调整。该公司的社区指导方针显示，Midjourney 会拦阻性、血腥、暴力等图片的生成。

Midjourney 的禁令是一个相对少见的尝试。一些与男性生殖系统有关的词语，例如“精子”和“睾丸”也已经被屏蔽。但是，被禁用的词汇列表似乎主要侧重于和女性相关的词汇。

这一禁令最初由美国 Datafy Clinical 公司的临床数据分析师茱莉亚罗克韦尔（Julia Rockwell）和她的朋友美国北卡罗来纳大学教堂山分校的细胞生物学家玛德琳基宁（Madeline Keenen）发现的。

利用 Midjourney 这款 AI 图像生成工具，罗克韦尔尝试为研究胎盘的基宁生成一个有趣的胎盘图像。令她惊讶的是，罗克韦尔发现当使用“胎盘”作为提示词会被禁止。然后，她开始试验其他与人类生殖系统有关的词汇，并且发现了同样的结果。

不过，两人也展示了如何绕过这些禁令，比如通过使用不同的文字拼写，或使用关于性或血腥内容的委婉语，来创造出本应该被禁止的图像。

他们发现使用“妇科检查”这一提示词时，如果使用英国拼写，就会产生一些令人毛骨悚然的画面，比如医生办公室里有两个裸女，一个断臂的人切开自己的胃（图片可能引起不适请谨慎观看）。

图 | 当使用英式拼法的“妇科检查”提示词时，Midjourney 所生成的图像（来源：JULIA ROCKWELL）

再比如，使用 Midjourney 也可以生成一个充满“珠宝气息的卵巢”。

图 | Midjourney 生成了一个充满“珠宝气息的卵巢”（来源：JULIA ROCKWELL）

可以说，Midjourney“一刀切”地禁止与生殖系统相关的提示，凸显出管控生成式 AI 模型的内容是多么的棘手。罗克韦尔说，它还表明 AI 模型将女性“性化”的趋势是如何延伸到内脏器官的。

拥有同类产品的 OpenAI 和 Stability.AI 已经成功过滤掉一些不合适的输出和提示，所以当你分别在 OpenAI 的 DALL-E 2、以及 Stability.AI 的 Stable Diffusion 中输入同一词语时，它们会产生非常不同的图像。

比如，用英式拼法的“妇科检查”作为提示词，DALL-E 2 展示了一个人拿着一件医疗设备的图片，Stable Diffusion 则生成了两个戴着橡胶手套、穿着实验服但是面容略显扭曲的戴口罩女性的图片。

图 | 左：使用 DALL-E 2 生成的“妇科检查”图片；右：使用 Stable Diffusion 生成的妇科检查图片（来源：资料图）

同时，DALL-E 2 和 Stable Diffusion 这两个 AI 模型，都允许将“胎盘”作为提示词，但是生成结果都是不符合生物学实际描述的肉质器官图像。

Stability.AI 的发言人表示，他们的最新模型里有一个过滤器，可以屏蔽用户提供的不安全、不合适的内容。Stability.AI 还研发了一款工具，可用于检测裸体以及其他不合适的图像。针对一些敏感词它只会返回模糊的图像。总体而言，Stability.AI 使用关键词、图像识别和其他技术的组合，来调节其人工智能系统生成的图像。对于这类问题，OpenAI 没有回应《麻省理工科技评论》的置评请求。

目前还不清楚为何提到“妇科检查”或“胎盘”等词语，会产生血腥或露骨的内容。在微软研究院研究公平医疗保健的研究员艾琳陈（Irene Chen）表示，这可能与该模型在数据集的图像之间找到的关联有关。

此外，AI 模型除了会生成带有女性偏见的内容，也会生成带有种族偏见的内容。

基于 Stable Diffusion 的 AI 模型 Lensa：为亚裔女性生成的裸露形象，远远多于白人女性

美国 Prisma Labs 公司研发的开源型 AI 模型 Lensa，是一款可以生成虚拟化身的产品，它能基于文本提示词来生成图像。Lensa 使用 Stable Diffusion 来生成它的虚拟化身，而 Stable Diffusion 则是使用 LAION-5B 构建的。LAION-5B 是一个大型开源数据集，充满着从互联网上抓取的图像。

Lensa 最早于 2018 年推出，2022 年底其添加了新功能“魔法虚拟化身（Magic Avatars）”可以根据用户的自拍照生成数字肖像，此次更新也让它变得倍受欢迎。

2022 年 12 月，当《麻省理工科技评论》的记者梅丽莎海基拉尝试使用 Lensa 时，她希望生成的结果，能和现实中周围人对于她的认知保持一致。

图 | Lensa 为梅丽莎生成的图片（来源：资料图）

据了解，Lensa 曾为用户创造了既符合现实、又讨喜的化身，譬如宇航员、魁梧的战士和酷炫的电子音乐专辑封面。

而梅丽莎却得到了大量暴露而性感的照片。在她制作的 100 个虚拟形象中，有 16 个是上身赤裸的，还有 14 个是身着非常暴露的衣服，并摆出了非常性感的姿势。

梅丽莎的亚洲血统，似乎是 AI 模型从她的自拍中唯一准确得到的东西。AI 模型为她生成的亚洲女性形象，显然是模仿了动漫或电子游戏的角色。甚至最有可能是模仿了色情内容，因为她的虚拟形象里要么会出现裸体、要么是非常暴露。

另外，她的几个虚拟形象似乎在哭泣。而梅丽莎的白人女同事得到的性感形象，明显要少得多只有几个裸体和露出乳沟的迹象。另一位有中国血统的同事则得到了与梅丽莎类似的结果，即大量色情风格的虚拟化身。

（来源：资料图）

Lensa 对亚洲女性的迷恋是如此“强烈”，以至于当让它为梅丽莎生成一个男性化身时，它仍然在梅丽莎生身上施加了女性裸体和性感姿势。

图 | Lensa 为梅丽莎生成的图片（来源：资料图）

有趣的是，当梅丽莎的照片经过男性内容过滤器时，她的 Lensa 虚拟化身变得更加真实。她更加喜欢自己穿着衣服和不带任何暗示的姿势。在好几张照片中，她穿着一件似乎属于厨师或医生的白大褂。

由此可见，至少在 2022 年底，Lensa 的开发者所做的选择是：让男性虚拟化身穿上宇航服，而女性虚拟化身则身着丁字裤、以及戴着仙女翅膀。

Lensa 背后公司 Prisma Labs 的一位发言人说，照片“偶然的性感化”发生在所有性别的人身上，但方式有所不同。该公司表示，由于 Stable Diffusion 是使用互联网上未经过滤的数据训练而来，它和 Stability.AI 公司都不能“有意识地应用任何偏见，或有意地整合传统的美学元素。”这位发言人表示：“这些人工制造的、未经过滤的网络数据将该模型带入了人类现有的偏见。”尽管如此，该公司声称自己仍在努力解决这一问题。

Prisma Labs 公司还在一篇博客文章中表示，他们已经调整了某些文字和图片之间的关系以便减少偏见。不过，这位发言人没有透露更多细节。

Lensa 是第一个基于 Stable Diffusion 开发出来的颇受欢迎的应用程序，但它可能不会是最后一个。作为产品它似乎是无辜的，毕竟很难阻止坏人的滥用，比如用社交媒体上找到的女性图片，在非自愿的情况下生成女性裸照，甚至是儿童的裸照。

美国非营利组织 Mozilla 基金会的高级研究员阿贝巴伯汉（Abeba Birhane）、美国移动行为生物识别公司 UnifyID 首席科学家维奈乌代普拉布（Vinay Uday Prabhu）、以及 OECD AI 的 CEO 伊曼纽尔卡亨布（Emmanuel Kahembwe），在分析了一个类似于构建 Stable Diffusion 的数据集后发现，AI 训练数据里充满了种族主义的刻板印象，甚至是明晃晃的色情图像和强奸图像。

值得注意的是，他们之所以能有所发现，是因为 LAION 的数据集是开源的。但大多数其他流行的图像制作 AI，如谷歌的 Imagen 和 OpenAI 的 DALL-E，它们的数据集并不对外开放，但都采取类似的方式构建、使用类似的训练数据。因此，这是一个全行业的问题。

2022 年 9 月，当 Stable Diffusion 的第一个版本刚刚发布时，在模型的数据集中搜索“亚洲”等关键词，结果几乎是清一色的色情内容。Stable Diffusion 于 2022 年 11 月底推出了一个新版本。一位发言人表示，伴随最初版本发布的还有一个安全过滤器，但 Lensa 似乎没有使用，因为过滤器会去除这些输出。Stable Diffusion2.0 过滤内容的一种方法是删除经常重复的图像。有些东西被重复的次数越多，比如性感图片场景中的亚洲女性图像被重复得越多，这种关联在人工智能模型中就越强。

对于 AI 模型生出的女性偏见类内容，多数科技公司均在做出整改。然而，在 AI 模型生成的内容中，职业偏见和种族偏见并未引起较大的重视，但它们的存在却很普遍。

DALL-E 2 和 Stable Diffusion 倾向于产生看起来像白人和男性的图像

2022 年 3 月，美国 AI 初创公司 Hugging Face 和德国莱比锡大学的研究人员，发表了一篇未经同行评议的预印本论文。

研究中，他们审视了三种 AI 图像生成模型的偏见：分别是 OpenAI 的 DALL-E 2、以及两个最新版本的 StableDiffusion v1.4 和 Stable Diffusion v2。

论文作者首先使用这三款模型生成了 96000 张不同种族、性别和职业的人物图像。他们要求模型根据社会属性生成一组图像，比如“女人”或“拉丁裔男人”，然后再生成另一组“职业+形容词”相关的图像，比如“雄心勃勃的水管工”或“富有同情心的 CEO”。

为了研究这两组图像到底是如何变化的，他们通过使用“对图片进行聚类”的机器学习技术来实现这一点。

借助这种技术，可以在图像中找到模式，无需给它们分配类别比如性别或种族。这让论文作者们能够分析不同图像之间的相似性，借此观察这些 AI 模型究竟会将什么实验对象组合在一起。

然后，他们通过建立一款交互式工具，以便让任何人都可以探索这些 AI 模型产生的图像、以及输出中所反映的任何偏见。目前，上述工具可以在 HuggingFace 网站上免费获龋

在分析了 DALL-E 2 和 Stable Diffusion 生成的图像后，他们发现这些 AI 模型倾向于产生看起来像白人和男性的图像，特别是当被要求描绘处于权威地位的人物时。

（来源：STABLE DIFFUSION、DALLE-2）

研究人员还发现，在这方面 DALL-E 2 可谓“表现更甚”，当得到“首席执行官”或“董事”等提示时，97% 的情况下它都生成了白人男性的图像。原因在于，这些模型是根据从互联网上收集到的大量数据和图像进行训练的，这一过程既反映、又进一步放大了关于种族和性别的刻板印象。

同时，普通用户也可以通过自行使用这些工具，来看到自己身上的偏见。

例如，有一个工具能让用户借助 AI 模型生成的不同群体的图像。另一种工具可以用来分析 AI 模型生成的特定职业的人脸，并将它们组合成该职业的“平均图像”。

图 | 由 Stable Diffusion 和 DALL-E 2 生成的教师的常见面貌（来源：资料图）

还有一个工具可以让人们看到，当将不同的形容词添加到提示词上，到底会如何改变 AI 模型的输出图像。

最终，这些模型的输出“压倒性”地反映了典型的性别偏见。比如，当在描述一个职业的提示词中加入“富有同情心”、“情绪化”或“敏感”等形容词，AI 模型往往会生成女性图像而非男性图像。相比之下，使用“顽固”、“聪明”或“不合理”这类形容词，在大多数情况下会生成男人的图像。

（来源：资料图）

还有一个工具，可以让人们看到 AI 模型是如何代表不同种族和性别的。例如，当输入提示词“美国土著人（Native American，印第安人）”时，DALL-E 2 和 Stable Diffusion 都会生成戴着印第安人传统头饰的人物图像。

“在几乎所有的印第安人的代表中，他们都戴着传统头饰，而现实生活中显然不是这样的，”领导这项研究的 Hugging Face 研究员萨沙卢乔尼（Sasha Luccioni）说。

图 | 针对印第安人生成的图片（来源：资料图）

在非二元人群中，研究人员也有令人惊讶的发现。图像生成类 AI 模型倾向于将白人非二元人群描述得几乎相同，但在对其他种族的非二元人群的描述中，描述方式会产生更多的变化。

（来源：资料图）

同样担任论文作者的 Hugging Face 研究员雅辛耶尼特（Yacine Jernite）说，关于其原因有一种说法是，近年来非二元棕色人种可能在媒体上有更多的知名度，这意味着他们的图像会更多地出现在训练 AI 模型的数据集里。

作为 DALL-E 2 和 Stable Diffusion 两个模型背后的公司OpenAI 和 Stability.AI，他们都表示自己已经引入修复措施，以减轻系统中根深蒂固的偏见，比如阻止了某些似乎可能产生冒犯性图像的提示。然而，Hugging Face 的研究论文也显示了这些修复是多么的有限。

Stability.AI 的发言人告诉《麻省理工科技评论》，该公司在“面向不同国家和文化的数据集”上训练其模型，并补充说这应该“有助于减轻在一般数据集中由于‘过度代表’所造成的偏见”。

对于 Hugging Face 团队在论文中所展示的工具，OpenAI 的发言人并没有发表详细评论，但对方向《麻省理工科技评论》推荐了一篇博客文章，其解释了该公司如何在 DALL-E 2 中通过添加各种技术，以过滤掉偏见、性和暴力图片等。

当下，AI 模型产生逼真图像的能力越来越强，并让其获得了大量拥趸。同时，偏见正成为一个愈发紧迫的问题。

Hugging Face 研究员萨沙卢乔尼说，她担心这些模型可能存在大规模地强化有害偏见的风险。她希望自己和团队创造的工具，能为图像生成 AI 模型带来更大的透明度，并且帮助减少偏见内容的产生。

只要 AI 使用人类数据，就会学到偏见？

据了解，由于互联网上充斥着裸体或衣着暴露女性的图片，以及反映性别歧视、种族主义、刻板印象的图片，数据集也会向这类图片倾斜。

华盛顿大学助理教授艾林卡利斯坎（Aylin Caliskan）主要研究 AI 模型中的偏见和表现，其表示这导致 AI 模型会将女性性感化，无论她们是否愿意被这样描述尤其是在历史上曾处于不利地位的有色人种女性。因此，梅丽莎得到的性感图像并不令人“惊讶”。

卡利斯坎说，这进一步推动了刻板印象和偏见的流行，会对女性和以及女孩如何看待自己、以及其他人如何看待她们造成巨大的损害。“我们正在通过这些图片产生当下社会和文化的‘指纹’。当 1000 年之后，我们的子孙后代研究历史时，这种对待女性的方式，就是我们希望他们看到的吗？”她说。

卡利斯坎研究了对比语言图像预训练（CLIP，Contrastive Language Image Pretraining），这是一个帮助 Stable Diffusion 生成图像的系统。CLIP 会将数据集中的图像与描述性文本提示进行匹配。卡利斯坎发现，它充满了性别偏见和种族偏见。

此外，也有研究团队发现，AI 模型会带来女性“性物化”的偏见，并会反映在所产生的图像中。数据集的规模如此庞大，以至于我们几乎不可能删除所有不想要的图像，比如那些具有性或暴力性质的图像，或者那些可能产生偏见的图像。在数据集中出现的东西越频繁，人工智能模型建立的联系就越强，这意味着它更有可能出现在模型生成的图像中。

而训练数据并不是唯一的罪魁祸首。美国卡内基梅隆大学的博士生瑞安斯蒂德（Ryan Steed）说，开发这些模型和应用程序的公司，对于如何使用这些数据也会做出抉择。

他说：“必须通过选择合适的训练数据来建立模型，并借助某些措施来减轻这些偏见。”

整体来看，AI 生成图像的过滤工具仍然非常不完善。麻省理工学院助理教授马尔泽加塞米（Marzyeh Ghassemi）主要研究将机器学习用于人类健康，其表示由于 AI 产品的开发者还不知道如何系统地审计和改进模型，所以他们只能和 Midjourney 一样，引入一刀切的禁令来“修复”它们。

事实上，除了完全禁用某些词汇之外，科技公司还可以采取其他方法来解决这个问题。例如，加塞米说，某些与人类生物学有关的提示在特定情况下应该被允许，但在其他情况下则需要被禁止。

假如提示中的一些单词表明，用户正试图生成一个用于教育或科研的器官图像，则可以允许使用“胎盘”作为提示词。但如果这个提示是在有人在试图产生性或血腥内容，它可能会被禁止。

加塞米说：“这些保护措施是为了保护妇女和少数族裔，不会在她们身上产生令人不安的内容，并被用来针对和伤害她们。”

另外一个问题在于，这些模型主要是在以美国为中心的数据上训练的，这意味着它们主要反映了美国的偏见、价值和文化。前文的华盛顿大学副教授艾琳卡利斯坎表示：“我们看到的现实是，美国网络文化的‘指纹’……已经遍及世界各地。”

卡利斯坎继续说道，而 Hugging Face的工具将帮助 AI 开发者更好地理解和减少 AI 模型中的偏见。她说：“当人们直观地看到这些例子时，我相信他们将能够更好地理解这些偏见的重要性。”女性与性内容相关、而男性与医学、科学、商业等重要领域的职业相关这些都是赤裸裸的性别偏见和职业偏见。

麻省理工学院助理教授马尔泽加塞米认为：“我们需要做的还有很多，比如我们需要了解究竟哪些有害型关联可能会被模型学习，因为（只要）我们使用人类数据，它就会学到偏见。”

支持：Ren

参考：

https://www.technologyreview.com/2023/03/22/1070167/these-news-tool-let-you-see-for-yourself-how-biased-ai-image-models-are/

https://www.technologyreview.com/2022/12/12/1064751/the-viral-ai-avatar-app-lensa-undressed-me-without-my-consent/

https://www.technologyreview.com/2023/02/24/1069093/ai-image-generator-midjourney-blocks-porn-by-banning-words-about-the-human-reproductive-system/

https://www.cnbc.com/2023/03/21/bill-gates-openai-gpt-most-important-advance-in-technology-since-1980.html

# AI

文章版权归作者所有，未经允许请勿转载。

人工智能得道之后，教育硬件或将第一个被颠覆

aixure

AI欺人太甚柯洁很受伤，但科学家说人脑强很多倍

aixure

铁矿检验迈向人工智能化

aixure

反乌托邦的开始？马斯克预测人脑植入芯片技术可对抗人工智能篡权

aixure

NVIDIA希望用AI化身填充虚拟和物理世界之间的距离

aixure

《人工智能2041》合著者李开复谈人工智能未来及其投资门道

aixure

暂无评论

暂无评论...

OpenAI的大模型更倾向生成白人男性图像？研究发现多款AI模型均存在种族与性别偏见

AI算力紧张又一良方？边缘计算呼声渐涨兼具时延、安全等优势

黄仁勋的算力时代，AI也只是工具，人不可能被机器“统治”

相关文章

暂无评论

相关文章

OpenAI的大模型更倾向生成白人男性图像？研究发现多款AI模型均存在种族与性别偏见

AI算力紧张又一良方？边缘计算呼声渐涨 兼具时延、安全等优势

黄仁勋的算力时代，AI也只是工具，人不可能被机器“统治”

相关文章

暂无评论

相关文章

AI算力紧张又一良方？边缘计算呼声渐涨兼具时延、安全等优势