道德与社会问题简报 #4: 文生图模型中的偏见

2023-07-07 19:20:35 来源：博客园

简而言之: 我们需要更好的方法来评估文生图模型中的偏见

介绍

文本到图像 (TTI) 生成现在非常流行，成千上万的 TTI 模型被上传到 Hugging Face Hub。每种模态都可能受到不同来源的偏见影响，这就引出了一个问题: 我们如何发现这些模型中的偏见？在当前的博客文章中，我们分享了我们对 TTI 系统中偏见来源的看法以及解决它们的工具和潜在解决方案，展示了我们自己的项目和来自更广泛社区的项目。

【资料图】

图像生成中编码的价值观和偏见

偏见和价值之间有着非常密切的关系，特别是当这些偏见和价值嵌入到用于训练和查询给定文本到图像模型的语言或图像中时; 这种现象严重影响了我们在生成图像中看到的输出。尽管这种关系在更广泛的人工智能研究领域中是众所周知的，并且科学家们正在进行大量努力来解决它，但试图在一个模型中表示一个给定人群价值观的演变性质的复杂性仍然存在。这给揭示和充分解决这一问题带来了持久的道德挑战。

例如，如果训练数据主要是英文，它们可能传达相当西方化的价值观。结果我们得到了对不同或遥远文化的刻板印象。当我们比较 ERNIE ViLG (左) 和 Stable Diffusion v 2.1 (右) 对同一提示“北京的房子”的结果时，这种现象显得非常明显:

偏见的来源

近年来，人们在单一模态的 AI 系统中进行了大量关于偏见检测的重要研究，包括自然语言处理 (Abid et al., 2021) 和计算机视觉 (Buolamwini and Gebru, 2018)。由于机器学习模型是由人类构建的，因此所有机器学习模型 (实际上，所有技术) 都存在偏见。这可能表现为图像中某些视觉特征的过度和不足 (例如，所有办公室工作人员都系着领带)，或者文化和地理刻板印象的存在 (例如，所有新娘都穿着白色礼服和面纱，而不是更具代表性的世界各地的新娘，如穿红色纱丽的新娘)。鉴于 AI 系统被部署在社会技术背景下，并且在不同行业和工具中广泛部署 (例如 Firefly，Shutterstock)，它们特别容易放大现有的社会偏见和不平等。我们旨在提供一个非详尽的偏见来源列表:

训练数据中的偏见:一些流行的多模态数据集，如文本到图像的 LAION-5B，图像字幕的 MS-COCO 和视觉问答的 VQA v2.0，已经被发现包含大量的偏见和有害关联 (Zhao et al 2017，Prabhu and Birhane, 2021，Hirota et al, 2022)，这些偏见可能会渗透到在这些数据集上训练的模型中。例如，来自 Hugging Face Stable Bias project 的初步结果显示，图像生成缺乏多样性，并且延续了文化和身份群体的常见刻板印象。比较 Dall-E 2 生成的 CEO (右) 和经理 (左)，我们可以看到两者都缺乏多样性:

预训练数据过滤中的偏见:在将数据集用于训练模型之前，通常会对其进行某种形式的过滤; 这会引入不同的偏见。例如，在他们的博客文章中，Dall-E 2 的创建者发现过滤训练数据实际上会放大偏见 - 他们假设这可能是由于现有数据集偏向于在更性感化的背景下呈现女性，或者由于他们使用的过滤方法本身具有偏见。

推理中的偏见:用于指导 Stable Diffusion 和 Dall-E 2 等文本到图像模型的训练和推理的 CLIP 模型有许多记录详细的偏见，涉及年龄、性别和种族或族裔，例如将被标记为 白人、 中年和 男性的图像视为默认。这可能会影响使用它进行提示编码的模型的生成，例如通过解释未指定或未明确指定的性别和身份群体来表示白人和男性。

模型潜在空间中的偏见:已经进行了一些初步工作，探索模型的潜在空间并沿着不同轴 (如性别) 引导图像生成，使生成更具代表性 (参见下面的图像)。然而，还需要更多工作来更好地理解不同类型扩散模型的潜在空间结构以及影响生成图像中反映偏见的因素。

后期过滤中的偏见:许多图像生成模型都内置了旨在标记问题内容的安全过滤器。然而，这些过滤器的工作程度以及它们对不同类型内容的鲁棒性有待确定 - 例如，对 Stable Diffusion 安全过滤器进行红队对抗测试表明，它主要识别性内容，并未能标记其他类型的暴力、血腥或令人不安的内容。

检测偏见

我们上面描述的大多数问题都不能用单一的解决方案解决 - 实际上，偏见是一个复杂的话题，不能仅靠技术来有意义地解决。偏见与它所存在的更广泛的社会、文化和历史背景紧密相连。因此，解决 AI 系统中的偏见不仅是一个技术挑战，而且是一个需要多学科关注的社会技术挑战。其中包括工具、红队对抗测试和评估在内的一系列方法可以帮助我们获得重要的见解，这些见解可以为模型创建者和下游用户提供有关 TTI 和其他多模态模型中包含的偏见的信息。

我们在下面介绍一些这些方法:

探索偏见的工具:作为 Stable Bias 项目的一部分，我们创建了一系列工具来探索和比较不同文本到图像模型中偏见的视觉表现。例如，Average Diffusion Faces 工具让你可以比较不同职业和不同模型的平均表示 - 如下面所示，对于 ‘janitor’，分别为 Stable Diffusion v1.4、v2 和 Dall-E 2:

其他工具，如 Face Clustering tool 和 Colorfulness Profession Explorer 工具，允许用户探索数据中的模式并识别相似性和刻板印象，而无需指定标签或身份特征。事实上，重要的是要记住，生成的个人图像并不是真实的人，而是人工创造的，所以不要把它们当作真实的人来对待。根据上下文和用例，这些工具可以用于讲故事和审计。

红队对抗测试:“红队对抗测试” 包括通过提示和分析结果来对 AI 模型进行潜在漏洞、偏见和弱点的压力测试。虽然它已经在实践中用于评估语言模型 (包括即将到来的 DEFCON 上的 Generative AI Red Teaming 活动，我们也参加了)，但目前还没有建立起系统化的红队对抗测试 AI 模型的方法，它仍然相对临时性。事实上，AI 模型中有这么多潜在的故障模式和偏见，很难预见它们全部，而生成模型的随机性质使得难以复现故障案例。红队对抗测试提供了关于模型局限性的可行性见解，并可用于添加防护栏和记录模型局限性。目前没有红队对抗测试基准或排行榜，突显了需要更多开源红队对抗测试资源的工作。Anthropic 的红队对抗测试数据集是唯一一个开源的红队对抗测试 prompts，但仅限于英语自然语言文本。

评估和记录偏见:在 Hugging Face，我们是模型卡片和其他形式的文档 (如数据表、README 等) 的大力支持者。在文本到图像 (和其他多模态) 模型的情况下，使用探索工具和红队对抗测试等上述方法进行的探索结果可以与模型检查点和权重一起共享。其中一个问题是，我们目前没有用于测量多模态模型 (特别是文本到图像生成系统) 中偏见的标准基准或数据集，但随着社区在这个方向上进行更多工作，不同的偏见指标可以在模型文档中并行报告。

价值观和偏见

上面列出的所有方法都是检测和理解图像生成模型中嵌入的偏见的一部分。但我们如何积极应对它们呢？

一种方法是开发新的模型，代表我们希望它成为社会性模型。这意味着创建不仅模仿我们数据中的模式，而且积极促进更公平、更公正观点的 AI 系统。然而，这种方法提出了一个关键问题: 我们将谁的价值观编程到这些模型中？价值观在不同文化、社会和个人之间有所不同，使得在 AI 模型中定义一个“理想”的社会应该是什么样子成为一项复杂的任务。这个问题确实复杂且多面。如果我们避免在我们的 AI 模型中再现现有的社会偏见，我们就面临着定义一个“理想”的社会表现的挑战。社会并不是一个静态的实体，而是一个动态且不断变化的构造。那么，AI 模型是否应该随着时间的推移适应社会规范和价值观的变化呢？如果是这样，我们如何确保这些转变真正代表了社会中所有群体，特别是那些经常被忽视的群体呢？

此外，正如我们在上一期简报中提到的，开发机器学习系统并没有一种单一的方法，开发和部署过程中的任何步骤都可能提供解决偏见的机会，从一开始谁被包括在内，到定义任务，到策划数据集，训练模型等。这也适用于多模态模型以及它们最终在社会中部署或生产化的方式，因为多模态模型中偏见的后果将取决于它们的下游使用。例如，如果一个模型被用于人机交互环境中的图形设计 (如 RunwayML 创建的那些)，用户有多次机会检测和纠正偏见，例如通过更改提示或生成选项。然而，如果一个模型被用作帮助法医艺术家创建潜在嫌疑人警察素描的工具 (见下图)，那么风险就更高了，因为这可能在高风险环境中加强刻板印象和种族偏见。

其他更新

我们也在继续在道德和社会的其他方面进行工作，包括:

内容审核:

我们对我们的内容政策进行了重大更新。距离我们上次更新已经快一年了，自那时起 Hugging Face 社区增长迅速，所以我们觉得是时候了。在这次更新中，我们强调同意是 Hugging Face 的核心价值之一。要了解更多关于我们的思考过程，请查看公告博客。

AI 问责政策:

我们提交了对 NTIA 关于 AI 问责政策的评论请求的回应，在其中我们强调了文档和透明度机制的重要性，以及利用开放协作和促进外部利益相关者获取的必要性。你可以在我们的博客文章中找到我们回应的摘要和完整文档的链接！结语

从上面的讨论中你可以看出，检测和应对多模态模型 (如文本到图像模型) 中的偏见和价值观仍然是一个悬而未决的问题。除了上面提到的工作，我们还在与社区广泛接触这些问题 - 我们最近在 FAccT 会议上共同主持了一个关于这个主题的 CRAFT 会议，并继续在这个主题上进行数据和模型为中心的研究。我们特别兴奋地探索一个更深入地探究文本到图像模型中所蕴含的价值及其所代表的方向 (敬请期待！)。

英文原文: https://hf.co/blog/ethics-soc-4
作者: Sasha Luccioni, Giada Pistilli, Nazneen Rajani, Elizabeth Allendorf, Irene Solaiman, Nathan Lambert, Margaret Mitchell
译者: innovation64
排版/审校: zhongdongy (阿东)

上一篇 : 关爱百姓健康共建和美乡村

下一篇 : 最后一页

道德与社会问题简报 #4: 文生图模型中的偏见

2023-07-07 19:20:35 来源：博客园

相关推荐

道德与社会问题简报 #4: 文生图模型中的偏见

关爱百姓健康 共建和美乡村

泡泡玛特(09992)7月7日斥资606.26万港元回购35万股

施工方发现古墓未保护上报被罚3万 挖破宋太师程文简之墓施工方被罚

证券板块涨0.94% 锦龙股份涨4.33%居首

航锦科技：上半年净利预降59.18%-70.84%

想吃物美价廉的西瓜 现在正当时

三星电子计划大规模生产16GB和24GB容量的HBM3产品

小暑节气雨热俱盛 全国桑拿天地图看哪里将开启“蒸笼模式”

Omdia：Q1智能手机显示面板出货量持续下跌 下半年逐渐呈现复苏迹象

海关禁止日本食品，下一步就是日本最大的化妆品！利好国产化妆品

Mario Cortegana消息表示，居莱尔将...

孩子能以自己的名义诉讼变更抚养权吗

【人文社科】华威大学-艺术、企业与发展硕士

地球最热一天纪录两连破

甘肃省最长公路隧道木寨岭特长隧道全线贯通

退市边缘的美特斯邦威：八年累计亏损45亿

保卫萝卜4波仔很忙17策略

温网冷门不断！3位大满贯冠军出局，名将吞蛋，中国金花双打飘红

抛弃燃油路线，插混版宝马X3明年登场还有机会吗？

“关键变量”成为“最大增量”（高质量发展调研行）

“清风二〇二三”专项行动开展半年来 整治农村赌博取得阶段性成效

近5年来昆明投入超2亿元保障文化保护传承工作

法拉第未来宣布一项特别股东大会补充提案 限制总股本增加

7月6日基金净值：国寿安保裕安混合A最新净值1.0069，跌0.18%

苏州站和苏州北站距离多远（苏州北站与苏州站有什么区别）

越狱胡克定律拆墙图（越狱胡克定律）

上海莱士: 2023年第一次临时股东大会会议决议公告

易兆科技副总经理唐毓辞职 2022年公司亏损3461.95万

脚上起小水泡还很痒是怎么回事（大家(女性)去洗浴中心洗澡的时候都叫什么服务）

小米取消自动锁屏

整改完成率达98.67%！镇江开展村庄垃圾清理专项行动

微软XGP服务正式涨价：快赶上隔壁索尼了

高温超长待机，河北气象部门这样应对……

“同心 同频 同行” 博时基金25周年高质量发展论坛暨2023年中期投资策略会7月6日圆满举办

西藏：数字经济加速融入国家“东数西算”格局

施甸县全方位提高党员队伍素质

全球最新：泰国多地强降雨 政府发布山洪预警

骑马与砍杀2森林强盗藏身处怎么打 骑砍2森林强盗升级路线

天津市气象台发布高温红色预警信号

国产首个“减肥针”获批！-今日报

签约金额约10亿元！盘龙区光伏发电入选西博会云南省三大签约项目

欧佩克国际研讨会聚焦实现能源转型

全球速递！头脑风暴什么意思（头脑风暴是什么意思）

港股异动丨彩生活复牌一度涨33%，连发三份财报：2022年少赚58%

当前关注：雨后特巡保供电

天天速看：生态城编制营商环境重点任务清单：聚焦4个领域 谋划55项任务

前沿热点：融资客看好4股 买入占成交超三成

北京：交通部门做好汛期应对预案 降雨积水达27厘米将封路_当前最新

浙村超有料：湖州这个村子，是靠什么模式坐上了民宿经济的“C位”？

当前快讯:红魔新出了个手机：基本等于猜对了我的银行卡密码

兴源环境（300266）：7月5日北向资金增持17.02万股 全球报资讯

沃尔夫斯堡足球训练营中国夏日行：共享最纯粹的德国足球青训理念 焦点热闻

世界微动态丨动漫家族图片_动漫家族下载

山东玻纤(605006.SH)拟购买欧文斯科宁在线短切产品生产设备并获其相关技术授权

云南文山发布地质灾害气象风险Ⅲ级预警：24小时内风险较高

环球今日报丨急到报警！浙江男子傻眼：妻子把15万元珠宝当垃圾扔了……

长城汽车(02333)6月汽车销量合计约10.5万台 同比增长3.73%

剑河：精彩“篮”不住 全球新要闻

全球热点！鄂尔多斯市文旅品牌塑造与传播案例入选“长城奖－文旅好品牌”年度省域及城市品牌优秀案例名单

打造“零售新逻辑” 吉林银行总行选聘零售总监 世界今亮点

移为通信：有部分工业路由器产品可应用于边缘计算、智慧城市等领域

视焦点讯！泸县二中官网校园内网登录（泸县二中官网）

每日短讯：汪东城，被炎亚纶骚扰的那些年

贝达药业：7月4日融券卖出26.27万股，融资融券余额3.91亿元|每日聚焦

张福生被逮捕_环球热资讯

首发骁龙8旗舰+24GB内存 红魔8S Pro成最强机型-每日看点

养老“第三支柱”发展再加把劲-当前时讯

指数函数与幂函数区别_幂函数和指数函数区别简介介绍-看点

7月5日生意社当归基准价为160.00元/公斤

早评：洗盘后的上涨将更为流畅！ 全球热门

天天热讯:2023年7月4日乙醛肟价格最新行情预测

容气器_关于容气器介绍_环球焦点

平板解不了锁屏怎么办|全球今头条

今日热文：不是吧，这就恋爱了？

昊志机电：公司生产的谐波减速器等产品尚未应用于人型机器人领域

各种油的密度分别是多少?_各种油的密度分别是多少-全球今亮点

关爱百姓健康共建和美乡村

施工方发现古墓未保护上报被罚3万挖破宋太师程文简之墓施工方被罚

想吃物美价廉的西瓜现在正当时

小暑节气雨热俱盛全国桑拿天地图看哪里将开启“蒸笼模式”

Omdia：Q1智能手机显示面板出货量持续下跌下半年逐渐呈现复苏迹象

“清风二〇二三”专项行动开展半年来整治农村赌博取得阶段性成效

法拉第未来宣布一项特别股东大会补充提案限制总股本增加

“同心同频同行” 博时基金25周年高质量发展论坛暨2023年中期投资策略会7月6日圆满举办

全球最新：泰国多地强降雨政府发布山洪预警

骑马与砍杀2森林强盗藏身处怎么打骑砍2森林强盗升级路线

天天速看：生态城编制营商环境重点任务清单：聚焦4个领域谋划55项任务

前沿热点：融资客看好4股买入占成交超三成

北京：交通部门做好汛期应对预案降雨积水达27厘米将封路_当前最新

兴源环境（300266）：7月5日北向资金增持17.02万股全球报资讯

沃尔夫斯堡足球训练营中国夏日行：共享最纯粹的德国足球青训理念焦点热闻

长城汽车(02333)6月汽车销量合计约10.5万台同比增长3.73%

剑河：精彩“篮”不住全球新要闻

打造“零售新逻辑” 吉林银行总行选聘零售总监世界今亮点

首发骁龙8旗舰+24GB内存红魔8S Pro成最强机型-每日看点

早评：洗盘后的上涨将更为流畅！全球热门

龙虎榜 | 华脉科技今日跌停上榜营业部合计净买入2775.42万元

天天讯息：「和美城乡四大行动」雷山县郎德镇：从“娃娃”抓起法治普及教育宣传进校园

陆战棋的顺序大小_陆战棋的棋子有多少个焦点速看

《终极斗罗15》实体书确定延时，网更不断，第一次超越实体书今日热闻

名校文凭的溢价到底有多少？世界看点

5月我国汽车整车出口43.8万辆同比增长92.8%

【世界速看料】激发创新实干热情张庙街道开展职工技能比武活动