THINKSAFE:推理模型的自生成安全对齐

大型推理模型(LRM)通过在推理任务上利用强化学习(RL)生成长思维链(CoT),从而实现了卓越的性能。

然而,这种过度优化往往优先考虑合规性,使得模型容易受到有害提示词的影响。为了缓解这种安全性能下降的问题,近期的方法依赖于外部教师蒸馏,但这引入了分布差异,损害了模型的原生推理能力。

我们提出了ThinkSafe,一个无需外部教师的自生成对齐框架,用于恢复模型的安全对齐。我们的核心见解是:虽然追求合规性会抑制安全机制,但模型通常保留着识别危害的潜在知识。

ThinkSafe通过轻量级的拒绝引导来解锁这一潜力,指导模型生成分布内的安全推理轨迹。在这些自生成的响应上进行微调,能有效地重新对齐模型,同时最小化分布偏移。

在DeepSeek-R1-Distill和Qwen3上的实验表明,ThinkSafe在显著提升安全性的同时,保持了推理能力。值得注意的是,与GRPO相比,它以显著降低的计算成本实现了更优的安全性和可比的推理性能。

代码、模型和数据集已在 https://github.com/seanie12/ThinkSafe.git 开源。

相关推荐
阿达_优阅达1 分钟前
让合规更高效:Fin AI × Sumsub 五大智能流程优化实践
人工智能·智能客服·企业数字化转型·intercom·finai
IT_陈寒3 分钟前
JavaScript开发实战:从入门到精通
前端·人工智能·后端
编码小哥3 分钟前
OpenCV图像算术运算:加减乘除与位运算实战
人工智能·opencv·计算机视觉
前端双越老师4 分钟前
为什么说 OpenClaw 应该装在自己的电脑上
人工智能·agent·全栈
Flamingˢ4 分钟前
基于 FPGA 的帧间差分运动检测
人工智能·目标跟踪·fpga开发
小陈工4 分钟前
2026年4月5日技术资讯洞察:AI商业模式变革、知识管理革命与开源生态反击
开发语言·人工智能·python·安全·oracle·开源
QYR-分析4 分钟前
MPPT控制器行业解析:技术迭代与市场机遇前瞻
大数据·人工智能
A尘埃4 分钟前
深度学习之卷积神经网络CNN(卷积+池化)
人工智能·深度学习·cnn
pzx_0015 分钟前
【Pytorch】nn.Embedding函数详解
人工智能·pytorch·embedding
老成说AI7 分钟前
SOUNDVIEW视频翻译:SHARK吸尘器如何靠TIKTOK打破高客单魔咒?
人工智能·跨境电商·tiktok·soundview