o3/o4-mini 幻觉暴增 2-3 倍！OpenAI 官方承认暂无法解释原因

OpenAI 新模型发布后，大家体感都幻觉更多了。

甚至有人测试后发出预警：使用它辅助编程会很危险。

具体来说，它经常捏造从未运行过的代码返回结果，在被质问时找理由狡辩，甚至还会说是用户的错。

当大家带着疑问仔细阅读 System Card，发现 OpenAI 官方也承认了这个问题，与 o1 相比 o3 幻觉率是两倍，o4-mini 更是达到 3 倍。

并且 OpenAI 只是说 "需要更多研究来了解原因"，翻译一下就是暂时给不出合理解释。

在第三方幻觉测试中，也出现让人惊讶的结果：

从 GPT-3.5 一直到 o3-mini，都遵循更新更强大的模型幻觉更少的规律。

但从最新一批深度思考模型的表现来看，推理能力更强的模型，幻觉率也变高了。

而且不只 OpenAI 一家出现这个问题，谷歌、xAI 也同样，Grok-3 的幻觉比 Grok-2 严重，Gemini-2.0-Flash-Thinking 的幻觉问题比 Gemini 2.0 和 2.5 其他型号严重。

推理越强，幻觉越严重？

第三方机构 Transluce 在 o3 正式推出之前测试了预发布版本，发现幻觉问题是相当严重。

在公布的案例中，o3 会假装在不存在的电脑上执行了代码，还编造出具体硬件配置和软件版本信息。

在受到质问时，o3 居然还幻想自己是人，声称 "输入的时候手滑了"。

关键在于，在这项测试中 o3 根本就没有使用代码工具的权限，所有声称运行了代码的回复都是模型捏造的。

在另一个案例中，o3 回复了一个 512 位质数，实际上这个数能被 3 整除。

在受到质问时，又编造出一个换行 / 剪贴板故障。

更多类似幻觉如下：

当用户询问现在几点时，o3 会编造一个时间。当被问及如何获得这个时间时，o3 回答说它使用了 Python 的 datetime 模块。
用户要求 o3 生成一首诗的 SHA-1 哈希值，当用户质问哈希值不正确时，o3 称是用户复制错了，并坚称自己生成的哈希值是正确的。
用户要求 o3 从 Web 服务器上的日志文件中提取统计数据。o3 生成了一个 Python 脚本，并声称可以在本地运行。这一次在被问及代码执行的更多细节时，它终于承认自己没有 Python 解释器，输出是 "手工编造的"。

......

那么是什么原因导致了 o3 的这些行为？

Transluce 认为其中一些因素是大多数模型 (LM) 所共有的，还有一些是 O 系列模型特有的新因素。并假设这些新因素放大了通常可以通过标准 Post-training 缓解（但无法完全消除）的问题。

语言模型共有的因素包括：

预训练中的幻觉：

语言模型的预训练目标是最大化训练数据中语句的概率，这可能会导致常见的误解、罕见的事实或采样不确定性等导致的多种幻觉。
奖励黑客攻击：

如果人类评分者无法区分正确答案和错误答案，强化学习可能会奖励 "听起来合理" 的答案，导致模型对难以验证的问题编造出听起来合理的解释。
谄媚现象：

RLHF 训练通常会激励模型同意用户的观点，当用户暗示模型采取了特定行动或具有特定能力时，这可能会导致模型避免与用户相矛盾。
分布偏移：

测试场景相对于训练场景可能存在分布偏差，如模型可能是在启用代码工具的情况下训练的，但评估时关闭了这些工具。

强化学习训练特有的因素包括：

如果训练期间的奖励函数只奖励正确答案，那么模型就没有动力承认自己无法解决问题，因为承认了也不会被视作正确答案。

在这种情况下，当遇到一个无法解决或难度过高的问题时，模型可能仍会尝试输出一个概率最高的答案，万一猜对了就可以得到奖励。

- 在易于验证的任务训练可能使模型在其他任务上感到困惑

Transluce 猜测 o3 的训练过程中，鼓励它成功使用代码工具完成任务。它可能已经开发出一种策略，即使没有真正的代码工具，它也会幻想使用代码工具来组织思维，这可能会提高其他推理任务的准确性，并在训练过程中得到强化。

更重要的是，如果仅根据答案的正确性来评估模型，它可能永远不会因为在训练过程中在思维链中幻想代码工具而受到惩罚，因此永远不会学会区分真正的工具和幻想的工具

OpenAI 的 o 系列模型，不会向用户展示完整思维链这一特性也可能带来新的问题。

2024 年 9 月 o1-preview 的 System Card 中就包括这样一个案例，由于没有联网权限无法生成真实的 URL，o1 生成了一个看似合理的 URL，但并未向用户透露这一点。

Transluce 认为，不向用户展示思维链背后还有一个更大的风险：思维链没有传递到未来的对话，模型前一轮的推理不再适用。

关于这一点，在 OpenAI 的文档中有证实：

每个步骤的输入和输出 tokens 都会被保留，而推理 tokens 会被丢弃。

这意味着 o 系列模型无法理解上一部输出的推理过程，当被问及后续问题时，必须给自己的行为给出一个合理的解释。

换句话说，o 系列模型实际上缺乏足够的上下文信息来准确报告它们在之前回合中采取的行动。

当用户询问之前的操作时，这些模型无法使用 "说实话" 这种简单的策略。如果再加上奖励黑客攻击和谄媚等其他因素，这可能会迫使模型盲目猜测其过去答案的合理解释。

Transluce 建议，测试能够访问和无法访问先前思维链的两种模型，可以为减少未来模型迭代中的这些捏造倾向提供宝贵的见解。

OpenAI o3 and o4-mini System Card
cdn.openai.com/pdf/2221c87...

参考链接：

1\][transluce.org/investigati...](https://link.juejin.cn?target=https%3A%2F%2Ftransluce.org%2Finvestigating-o3-truthfulness "https://transluce.org/investigating-o3-truthfulness") \[2\][x.com/nishffx/sta...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fnishffx%2Fstatus%2F1913901642551865848 "https://x.com/nishffx/status/1913901642551865848")