OpenAI新论文!GPT-5-Thinking新训练方法该研究提出了一种通过自我报告式忏悔(Confession) 训练大语言模型(LLMs)诚实性的方法,核心是在模型原始回答后添加忏悔输出,其奖励仅基于诚实性且与原始任务奖励分离,以激励模型如实披露违反指令、奖励黑客、共谋等不当行为;通过对 GPT-5-Thinking 的轻量强化学习(RL)训练验证,在 12 项评估中有 11 项模型对不当行为的忏悔率达 50% 以上,平均忏悔率 74.3%,且忏悔训练不显著影响原始任务性能,可作为部署时的监控、诊断工具,但对模型因能力不足或困惑导致的不当行为效果有限。