THINKSAFE：推理模型的自生成安全对齐

renhongxia12026-02-25 10:14

大型推理模型（LRM）通过在推理任务上利用强化学习（RL）生成长思维链（CoT），从而实现了卓越的性能。

然而，这种过度优化往往优先考虑合规性，使得模型容易受到有害提示词的影响。为了缓解这种安全性能下降的问题，近期的方法依赖于外部教师蒸馏，但这引入了分布差异，损害了模型的原生推理能力。

我们提出了ThinkSafe，一个无需外部教师的自生成对齐框架，用于恢复模型的安全对齐。我们的核心见解是：虽然追求合规性会抑制安全机制，但模型通常保留着识别危害的潜在知识。

ThinkSafe通过轻量级的拒绝引导来解锁这一潜力，指导模型生成分布内的安全推理轨迹。在这些自生成的响应上进行微调，能有效地重新对齐模型，同时最小化分布偏移。

在DeepSeek-R1-Distill和Qwen3上的实验表明，ThinkSafe在显著提升安全性的同时，保持了推理能力。值得注意的是，与GRPO相比，它以显著降低的计算成本实现了更优的安全性和可比的推理性能。

代码、模型和数据集已在 https://github.com/seanie12/ThinkSafe.git 开源。