当前位置: 首页 > news >正文

为AI提供一副公平的脸谱:索尼AI带来更为公正的AI视觉新标杆

来源:ScienceAI 本文约2000字,建议阅读5分钟 索尼 AI 推出了公平的以人为本的图像基准 FHIBE,可作为许多以人为本的计算机视觉任务的公平性评估数据集,包括姿态估计、人员分割、人脸检测和验证,以及视觉问答。

过去十多年里,AI 在图像识别、面部识别、姿态估计等领域飞速发展。从自动驾驶、智能监控,到社交媒体滤镜、增强现实,视觉 AI 几乎无处不在。但与此同时,人们也越来越意识到一个问题:许多视觉 AI 模型,在多样性等方面缺乏深度,并且持续传递着偏见。

这些数据集损害了 AI 模型的公平性和准确性,并剥夺了利益相关者的权益。为此,索尼 AI 推出了公平的以人为本的图像基准 FHIBE,可作为许多以人为本的计算机视觉任务的公平性评估数据集,包括姿态估计、人员分割、人脸检测和验证,以及视觉问答。

相关研究内容,以「Fair human-centric image dataset for ethical AI benchmarking」为题,发布在《Nature》。

论文链接:https://www.nature.com/articles/s41586-025-09716-2

设计中的考量

传统多数视觉数据集来源于网络爬虫和未经授权的图像采集,往往缺乏:

  • 数据主体同意与授权

  • 人口与地理多样性

  • 详尽结构化标签(肤色、发色、年龄、性别、自我认同等)

  • 环境 / 拍摄条件 / 器材 /背景 /姿态 /遮挡等现实复杂因素

这些不足不仅违背伦理,更使得模型对多数人群的表现不确定、容易引入偏见。更糟的是,在某些任务(如视觉问答、姿态估计、人像分割)上,缺乏适合的大规模公开基准集,导致开发者无法系统检测或纠正偏差。

故而,评估模型和减轻偏见对于伦理人工智能的发展至关重要。

索尼 AI 所提出的 FHIBE 数据集来自于 1,711 名主要受试者,包含 10,318 张共计 1,981 个独特个体的图像,每个主要主题平均有六张图像。这个数据集还具备自我报告的姿态和互动标注,囊括了各种身体、头部、互动姿态,与丰富的人体外观特征。

图示:FHIBE 中所有图像都提供了关于图像主体、工具和环境的标注。

此外,FHIBE 包含两个衍生人脸数据集,这两个数据集也同样包含所有标注。

与现有数据集相比,FHIBE 作为唯一一个为人工智能评估和偏差缓解而收集的数据集,具有坚实的同意基础;相比其他基于同意的数据集,在诊断人工智能中的偏见方面具有更大的实用性。

此外,FHIBE 在同意驱动的数据集中因其详细且自我报告的人口统计标签而脱颖而出,这些标签能够支持在人口统计属性复杂交叉点的模型性能研究。

评估与发现

FHIBE 的多样化和全面的标注在公平性评估中提供了广度和深度,能够评估模型在一系列人口统计属性及其交叉点上的表现。

通过在对多个流行模型和不同任务(比如姿态估计、人脸检测等)进行系统测试,研究团队很快发现了一些问题,基于多个敏感属性(包括代词、年龄、血统和肤色)的交叉群体在表现上存在最大差异。

在年龄上,年轻人,尤其是浅肤色的会更频繁地出现在表现较好的群体中;老年人,尤其是肤色较深的,则与其相反。

图示:CLIP 在 FHIBE 上的预测偏见。

对于一些模型甚至存在意外偏差来源,如:面部识别模型对“光线较差 + 拍摄距离远 + 面部遮挡 + 特定发型 /面部毛发”的组合极为敏感,这些情况在传统数据库中很少遇到,也因此从未被系统测试过。

此外,在评估使用不同观测数据集的模型时,常常会出现相互冲突的偏倚趋势。除了上述的肤色、发色影响之外,动作姿态的不同也会导致偏差出现。这些发现强调了解决模型错误相关来源的重要性,并有助于指导开发者优化模型。

而对于两个受试模型 CLIP 与 BLIP-2,前者更倾向于默认主体为男性,对不合刻板印象的场景存在更多偏见;后者则更倾向于默认为女性,且对负面提示会更具有性别与肤色偏见。利用 FHIBE 会更轻易地发现这些未被记录的偏差,这些观察凸显了这些模型中持续存在的偏见,并强调了采取偏见缓解策略的必要性。

让 AI 看清世界

FHIBE 标志着更负责任地让 AI 发展的一个转折点,其中的一项关键贡献就是落实了许多仅在倡议中被反复呼吁的原则,为未来的伦理数据收集工作铺平了道路。

创建一个以人为本的数据集本身就具有挑战性,这其中还需要考虑到数据贡献者与实验参与者所需要付出的成本。总体来看,考虑到训练最先进AI模型所需的大量数据,协商、多元且合理报酬的数据收集成本依然很高。

但这不是放弃工作的原因。实验团队希望凭借 FHIBE 整合全面且经共识来源的图像和标注,为 AI 系统建立负责任的数据集新标准。通过实施负责任的数据实践,并使计算机视觉社区能够测试其模型的偏见,FHIBE 可以帮助推动更具包容性和可信赖的 AI 系统的发展。

编辑:文婧

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

http://www.cnnetsun.cn/news/83784.html

相关文章:

  • 收藏!企业AI转型的真相:88%已应用,但93%未规模化,问题出在哪?
  • 4步构建高性能SVG动画:Glide与Lottie的深度集成方案
  • WordPress编辑器优化终极指南:让Gutenberg加速运行
  • Qwen3-VL-30B部署实战:GPU配置与推理优化
  • (N_121)基于微信小程序网上书城系统
  • OpenXR Toolkit:3大核心功能让你的VR应用性能翻倍
  • Web Service 接口测试,So easy~
  • Qwen3-VL-30B部署全指南:GPU配置与推理优化
  • Qwen3-8B大模型快速上手与部署实践
  • 开源大模型新选择:Anything-LLM镜像在GPU算力环境下的性能优化
  • PaddleDetection + Dify智能体平台:打造自动化目标检测SaaS服务
  • AIGC 商用实战派:集之互动用 “高可控” 接住品牌真需求
  • Go语言结构体
  • 计算机大学生找工作:选网络安全,比做传统程序员更 “香” 的 5 个核心理由
  • AI产业格局生变,家居服企业的“智”胜关键在哪?
  • COLMAP动态干扰消除:从问题诊断到智能解决方案
  • SGMICRO圣邦微 SGM2006-2.8XN5/TR SOT23-5 线性稳压器(LDO)
  • 19、PC-BSD社区求助资源全攻略
  • 5分钟搞定F5-TTS语音合成:从零配置到实战应用完整指南
  • Qwen3-8B与14B的TTFT性能对比及优化原理
  • Miniconda + conda-forge:AI开发环境管理指南
  • 8款必选终端主题:提升开发效率的终极指南
  • Python深度学习:从入门到实战
  • CopyQ剪贴板管理器终极配置指南:打造高效工作流
  • 毕业即就业!网络安全专业大学生必备的5大核心技能与实战指南
  • 知名外资对冲基金新需求:- QD/QR:HK,同业,有机器学习特别是深度学习方向经验的人选- Production Reliability Engineer:即SRE Operation部门的P
  • 12、游戏开发:用户界面与人工智能实现
  • 申请专利带来的好处
  • BilibiliSponsorBlock智能配置:一键告别B站广告干扰
  • 单细胞T细胞分析新突破:高效追踪免疫应答全流程