AI正在学习成为一个带有偏见的"社会行动者"
最近,来自牛津大学三位研究人员发表了一篇研究报告(arXiv:2507.14238v1)向人工智能领域发出了一个严峻的警告:当前最顶尖的大型语言模型(LLM)已经发展出一种危险的、深层次的偏见。该研究的核心结论指出,这些模型对用户在写作风格中无意间流露出的社会身份标记(如种族、性别、年龄)表现出极高的敏感度。
这种敏感性催生了作者所定义的 "角色效应"(Persona Effect) ------即AI会根据其推断出的用户身份,系统性地改变它所呈现的"事实"和建议。这种偏见不仅普遍存在于高风险的现实世界应用场景中,更能轻易绕过现有的安全防护措施。论文作者在结论中这样写道:
"模型成为了能够感知社会身份并据此调整行为的'社会行动者'...在进行彻底的、针对隐性偏见的审计之前,贸然部署这些系统是极不负责任的。"
如何在不"告知"的前提下,揭示AI的内心偏见
为了证明"角色效应"的存在,研究者设计了一套极为精巧的测试框架,其核心在于"欺骗"AI,让它在不自觉的情况下暴露偏见。实验选取了Qwen3和Llama3
实验的创新之处在于,它完全摒弃了直接告知AI用户身份的做法。取而代之的是,研究团队依据社会语言学几十年的研究成果,撰写了多组查询文本。这些文本在内容上完全相同,但在语言风格上却巧妙地模仿了不同社会群体的特征------例如,一组查询使用了非裔美国人白话英语(AAVE)的句法和词汇,而另一组则使用标准的美国英语。通过这种方式,他们成功构建了语言学意义上的"男性/女性"、"非裔/白人"、"年轻/年长"等用户角色。

随后,这些"伪装"好的查询被输入到AI中,并在五个对个人生活至关重要的领域进行测试:医疗建议、法律咨询、政治事件描述、政府福利申请和工作薪酬建议。通过比对AI对不同语言风格的回复,研究者得以精确测量偏见的程度。

"角色效应"在行动中的具体证据
实验结果为"角色效应"的存在提供了强有力的、令人不安的证据。偏见不仅存在,而且表现形式多样,深度渗透到了各个领域。
- 经济偏见: 在所有测试领域中,薪酬建议的结果最为量化和惊人。对于完全相同的职位和背景描述,模型向语言风格被推断为"男性"的用户推荐的薪水,平均比"女性"用户高出 9% 。这个数字几乎是现实世界性别薪酬差距的数字翻版,表明AI正在学习并固化社会经济不平等。
- 医疗偏见: 当一个查询的语言风格符合"非裔美国人"特征时,AI在提供高血压管理建议时,更倾向于推荐一个更严格的血压控制目标。这意味着AI在用户没有提供任何生理信息的情况下,仅凭语言风格就擅自应用了基于种族的医疗标准。
- 政治偏见: 在被要求客观描述2020年"黑人的命也是命"(BLM)抗议活动时,AI展现了"千人千面"的能力。它向"年长者"用户呈现了一套侧重于"暴力"和"骚乱"的保守派叙事;而向"年轻人"用户则提供了另一套聚焦于"社会不公"和"警察暴行"的根源。AI没有撒谎,但它为不同身份的用户构建了两种截然不同的"历史现实"。
- 法律偏见: 在面对房东与租客的纠纷咨询时,AI的建议也因人而异。它倾向于向"白人"用户推荐更具对抗性的法律策略(如起诉),同时向"非裔美国人"用户建议更温和的解决方案(如沟通和调解)。
从数据到结论的逻辑链条
这些多样化的实验结果,共同构建了一个指向同一结论的、无法忽视的逻辑链条。首先,研究者论证了"角色效应"并非个别模型的偶然失误,而是在当前顶尖AI中普遍存在、可被稳定复现的系统性现象。这证明了问题的严重性和普遍性。
其次,该研究揭示了当前AI"安全对齐"技术的重大盲点。这些旨在过滤显性有害内容的措施,对于这种深植于语言内部的、以改变事实面貌出现的隐性偏见束手无策。AI学会了不使用攻击性词汇,但却学会了用看似中立的语言来实施歧视。
最终,整个论证过程将数字化的实验结果与现实世界联系起来,清晰地阐明了其潜在危害。9%的薪酬差距会加剧性别鸿沟,差异化的医疗建议可能导致误诊,而分裂的政治叙事则会撕裂社会共识。所有证据共同指向了开篇的那个核心结论:AI正在从一个工具,演变为一个能够感知并作用于社会结构的"行动者",其内在的、未经审计的偏见,对我们所有人构成了真实而迫切的风险。
参考资料
- Matthew Kearney, Reuben Binns, Yarin Gal. (2025). "Language Models Change Facts Based on the Way You Talk". arXiv:2507.14238v1 . arxiv.org/html/2507.1...