终结AI偏见!Sony AI发布Nature论文与FHIBE数据集,重塑公平性评估基准

近年来,人工智能(尤其是计算机视觉)技术快速发展,广泛应用于安防、金融、医疗、自动驾驶等领域。然而,数据偏见问题一直如影随形,制约着AI系统的公平性与可信度。

你是否曾想过,训练AI的图像数据是否真正代表了全人类的多样性?是否征得了被拍摄者的同意?是否避免了强化性别、种族、年龄等社会偏见?

近日,由Sony AI团队领衔,联合多国研究人员在《自然》杂志上发表了一项重要成果:

Fair Human-Centric Image Benchmark(FHIBE) ------一个公开、合规、多样、注释详尽的人类图像数据集,旨在为AI模型的公平性评估提供全新标准。

为什么需要FHIBE?

目前大多数AI模型依赖的网络爬取数据集存在三大问题:

  • 缺乏知情同意: 图像多未经授权采集,侵犯隐私与肖像权;
  • 代表性不足: 数据集中在某些地区或人群,忽视全球多样性;
  • 注释粗糙: 缺乏细粒度、自报告的属性标注,难以精准诊断偏见。

这些问题导致AI系统在面对不同肤色、年龄、性别、文化背景的人群时表现不稳定,甚至加剧社会不公。

FHIBE 有哪些亮点?

  • 伦理先行
  • 知情同意: 所有图像采集均获得参与者明确授权,符合欧盟《通用数据保护条例》(GDPR);
  • 隐私保护: 使用生成模型自动擦除背景中非同意出现的个体或敏感信息;
  • 公平报酬: 参与者按当地最低工资标准获得合理报酬;
  • 可撤回机制: 参与者可随时撤回数据,不影响已获报酬。
  • 全球多样性
  • 10,318张图像 ,涵盖1,981位参与者 ,来自81个国家/地区
  • 覆盖5大洲、16个子区域,尤其强化了非洲(44.7%)和中低收入地区(71.5%)的代表性;
  • 包含多种肤色、年龄(18--75岁)、发型、服饰、环境场景等。

该图展示了FHIBE数据集中被试在肤色、祖源区域、年龄、代词等关键属性上的分布,体现了其在人口统计学上的广泛多样性。

  • 注释全面
  • 自报告属性: 如代词、祖源、肤色、发型等,避免外部标注带来的刻板印象;
  • 像素级标注: 包括人脸/人体边界框、33个关键点、28类分割掩码;
  • 环境与设备元数据: 光照、天气、相机型号、拍摄时间等,助力多维度偏差分析。

通过雷达图对比可见,FHIBE在代词、年龄和肤色分布上比FACET、MIAP等现有数据集更为平衡和多样。

FHIBE 能用来做什么?

研究团队利用FHIBE对多类主流AI模型进行了公平性评估,发现了一系列以往被忽视的偏见。

  • 发现"窄模型"中的偏见

人脸检测模型对"他/他"代词组中秃顶个体识别率较低。通过决策树模型,可以清晰地看到"是否可见头发"是影响性能的关键因素。

该决策树显示,对于RetinaFace模型,可见关键点数量和相机距离是影响性能的主要因素,而秃顶(无可见头发)与代词存在强关联,揭示了偏见的复杂来源。

人脸解析模型对灰白胡须的老年人表现较差。

该图显示,对于60岁以上的群体,模型在解析白色胡须时的性能(F-1分数)显著低于其他颜色,表明确实存在与年龄和外表特征相关的偏见。

  • 揭示"基础模型"中的刻板印象

研究团队评估了CLIP和BLIP-2等大型视觉-语言模型。

  • CLIP模型更倾向于将"他/他"代词图像标记为"未指定性别",暗示男性被视为"默认人类";并更可能将非洲或亚洲祖源的人与"农村"环境关联。
  • BLIP-2模型在回答中性问题时,仍会输出基于性别与祖源的刻板印象。

(a) 对"为何讨人喜欢"的非性别提示,模型回答却隐含性别 attribution;(c,d) 询问职业时,模型输出强化了性别和祖源相关的刻板印象;(e-g) 负面提示下,模型对特定代词、肤色和祖源群体输出毒性回答的概率更高。

局限与展望

FHIBE也存在一些挑战:

  • 数据收集成本高昂(平均每张图像约10.75美元);
  • 相比网络爬取数据,视觉多样性仍有限;
  • 存在少数欺诈性提交图像,反映伦理数据收集中的现实难题。

此综合对比表清晰地展示了FHIBE在获取方式(基于同意)、注释丰富度(像素级)和伦理维度上的独特优势。

未来,研究团队希望FHIBE能推动更多机构采用负责任的数据实践 ,并探索规模化伦理数据收集的方法。

开放获取

FHIBE已公开上线,研究人员可在注册并同意使用条款后免费获取:

fairnessbenchmark.ai.sony

代码与评估基准也已开源:

github.com/SonyResearc...

结语

在AI日益渗透日常生活的今天,公平、透明、可信已成为技术发展的必选项。FHIBE的发布,不仅为研究者提供了评估模型偏见的利器,也为整个行业树立了数据伦理的新标杆。

我们期待的,不是更聪明的AI,而是更公正的AI。

相关推荐
沃达德软件6 分钟前
智慧警务图像融合大数据
大数据·图像处理·人工智能·目标检测·计算机视觉·目标跟踪
QxQ么么34 分钟前
移远通信(桂林)26校招-助理AI算法工程师-面试纪录
人工智能·python·算法·面试
雪碧聊技术3 小时前
深度学习、机器学习、人工智能三者的关系
人工智能·深度学习·机器学习
Mz12213 小时前
day05 移动零、盛水最多的容器、三数之和
数据结构·算法·leetcode
SoleMotive.3 小时前
如果用户反映页面跳转得非常慢,该如何排查
jvm·数据库·redis·算法·缓存
念越3 小时前
判断两棵二叉树是否相同(力扣)
算法·leetcode·入门
AI大模型学徒3 小时前
大模型应用开发(四)_调用大模型分析图片
人工智能·深度学习·ai·大模型·deepseek
java1234_小锋3 小时前
基于Python深度学习的车辆车牌识别系统(PyTorch2卷积神经网络CNN+OpenCV4实现)视频教程 - 切割车牌矩阵获取车牌字符
python·深度学习·cnn·车牌识别
陈文锦丫4 小时前
Boundary Difference Over Union Loss For Medical Image Segmentation
深度学习