OpenAI 发布 GPT-4o 模型安全评估报告：风险等级为“中等”｜TodayAI

OpenAI 近日发布了最新的 GPT-4o 系统卡，这是一份研究文件，详细介绍了公司在推出其最新 AI 模型之前所进行的安全措施和风险评估。根据该评估报告，GPT-4o 的总体风险等级被评定为 "中等" 。

GPT-4o 于今年 5 月首次公开发布。在其发布之前，OpenAI 邀请了一支外部的红队团队参与安全测试。这支团队由安全专家组成，负责对系统进行漏洞查找，以识别可能存在的关键风险。这样的测试在技术领域属于标准操作。红队团队的风险评估涵盖了多个方面，包括模型可能生成未经授权的声音克隆、色情及暴力内容、以及复制受版权保护的音频片段的可能性。经过详细评估，OpenAI 最终决定公开发布这些测试结果。

根据 OpenAI 自己的风险评估框架，研究人员发现 GPT-4o 的总体风险为 "中等" 。这一评级源自四个主要类别中的最高风险水平：网络安全、生物威胁、说服力和模型自主性。除了说服力风险外，其他三个类别的风险等级均被评为低风险。特别是在说服力方面，研究发现 GPT-4o 生成的一些文本样本比人类撰写的内容更具说服力，尽管总体上模型的说服能力并未显著超越人类。

OpenAI 发言人 Lindsay McCallum Rémy 在接受媒体采访时表示，此次发布的系统卡中包括了内部团队和外部测试人员的评估结果。外部测试团队列在 OpenAI 网站上，主要包括模型评估与威胁研究（METR）和 Apollo 研究，这两者都专门从事 AI 系统的风险评估。

值得注意的是，GPT-4o 系统卡并不是 OpenAI 首次发布的此类安全评估报告。此前，GPT-4、GPT-4 视觉版以及 DALL-E 3 等模型在发布前都进行了类似的安全测试，相关研究也已公开。然而，在当前时刻发布这份系统卡尤为重要。OpenAI 近来面临来自多方面的安全标准批评，尤其是来自公司内部员工和州立法者的压力。

就在 GPT-4o 系统卡发布前不久，有媒体报道了一封由参议员 Elizabeth Warren（D-MA）和众议员 Lori Trahan（D-MA）发出的公开信，信中质疑 OpenAI 如何处理内部举报者和进行安全审查。信中详细列举了多个公开的安全问题，其中包括 2023 年 OpenAI 首席执行官 Sam Altman 因董事会担忧而被短暂解职的事件，以及一位声称 "安全文化和流程已被追求产品创新所取代" 的安全主管的离职。

此外，OpenAI 在美国总统大选前夕推出这样一款功能强大的多模态模型，潜在风险不容忽视。尽管 OpenAI 强调其正在测试各种现实世界场景以防止模型被滥用，但仍然存在模型可能意外传播错误信息或被恶意行为者劫持的风险。

在这一背景下，呼吁 OpenAI 提高透明度的声音日益高涨。不仅在模型的训练数据方面（例如是否使用了 YouTube 数据进行训练），还包括在安全测试和风险评估方面。在 OpenAI 和其他主要 AI 实验室所在的加利福尼亚州，州参议员 Scott Wiener 正在推动一项旨在监管大型语言模型的法案。如果该法案通过，OpenAI 的前沿模型将在面向公众发布前，必须通过州规定的风险评估。这意味着未来的安全评估将不再仅仅依赖于 OpenAI 自身的判断。