THINKSAFE:推理模型的自生成安全对齐

大型推理模型(LRM)通过在推理任务上利用强化学习(RL)生成长思维链(CoT),从而实现了卓越的性能。

然而,这种过度优化往往优先考虑合规性,使得模型容易受到有害提示词的影响。为了缓解这种安全性能下降的问题,近期的方法依赖于外部教师蒸馏,但这引入了分布差异,损害了模型的原生推理能力。

我们提出了ThinkSafe,一个无需外部教师的自生成对齐框架,用于恢复模型的安全对齐。我们的核心见解是:虽然追求合规性会抑制安全机制,但模型通常保留着识别危害的潜在知识。

ThinkSafe通过轻量级的拒绝引导来解锁这一潜力,指导模型生成分布内的安全推理轨迹。在这些自生成的响应上进行微调,能有效地重新对齐模型,同时最小化分布偏移。

在DeepSeek-R1-Distill和Qwen3上的实验表明,ThinkSafe在显著提升安全性的同时,保持了推理能力。值得注意的是,与GRPO相比,它以显著降低的计算成本实现了更优的安全性和可比的推理性能。

代码、模型和数据集已在 https://github.com/seanie12/ThinkSafe.git 开源。

相关推荐
澄旭几秒前
一文讲清 MCP:AI 应用连接外部世界的标准协议
人工智能
机器之心8 分钟前
不只DeepSeek,阶跃等开源JetSpec:大模型解码提速近10倍
人工智能·openai
moMo34 分钟前
当LLM学会"递纸条",AI是如何调用工具的
人工智能
拾年27537 分钟前
大模型的"聪明"从哪来?聊聊 AI 数据集的那些事儿
人工智能·深度学习·机器学习
拾年2751 小时前
从 Prompt 到 Context 再到 Harness:AI 工程化的三年三级跳
人工智能
用户3090463613941 小时前
Claude 不会直接执行你的函数,它只会生成一段结构化的工具调用请求。真正执行函数、访问数据库、请求外部 API 的动作,必须由你的后端完成。
人工智能
不加辣椒1 小时前
第14章 Prompt 编排与优化技术
人工智能
Bolt1 小时前
读懂 Claude Code `/loop` 与编码 Agent 的循环革命
人工智能·程序员·agent
用户208046804561 小时前
文本分块策略与最佳实践实战指南
人工智能