THINKSAFE:推理模型的自生成安全对齐

大型推理模型(LRM)通过在推理任务上利用强化学习(RL)生成长思维链(CoT),从而实现了卓越的性能。

然而,这种过度优化往往优先考虑合规性,使得模型容易受到有害提示词的影响。为了缓解这种安全性能下降的问题,近期的方法依赖于外部教师蒸馏,但这引入了分布差异,损害了模型的原生推理能力。

我们提出了ThinkSafe,一个无需外部教师的自生成对齐框架,用于恢复模型的安全对齐。我们的核心见解是:虽然追求合规性会抑制安全机制,但模型通常保留着识别危害的潜在知识。

ThinkSafe通过轻量级的拒绝引导来解锁这一潜力,指导模型生成分布内的安全推理轨迹。在这些自生成的响应上进行微调,能有效地重新对齐模型,同时最小化分布偏移。

在DeepSeek-R1-Distill和Qwen3上的实验表明,ThinkSafe在显著提升安全性的同时,保持了推理能力。值得注意的是,与GRPO相比,它以显著降低的计算成本实现了更优的安全性和可比的推理性能。

代码、模型和数据集已在 https://github.com/seanie12/ThinkSafe.git 开源。

相关推荐
唐璜Taro1 小时前
Function Calling和LLM是怎么进行协作的
人工智能
EriccoShaanxi1 小时前
MEMS组合导航——60秒失锁不丢方向,0.01°姿态稳如磐石
人工智能·机器人·无人机
SamtecChina20231 小时前
Samtec连接器设计研究 | 载流量:温升为什么重要?
大数据·网络·人工智能·算法·计算机外设
BugShare1 小时前
阿里千问又又翻车了—生成违规图片
安全·ai
shangjian0071 小时前
AI-大语言模型LLM-LangChainV1.0学习笔记-OpenAI类和ChatOpenAI类
人工智能·学习·语言模型
virtaitech1 小时前
趋动科技 OrionX 社区版永久免费:重塑 AI 算力格局的“胜负手”
人工智能·科技·ai·gpu·池化技术
咚咚王者1 小时前
人工智能之视觉领域 计算机视觉 第十五章 简单物体识别
人工智能·计算机视觉
八角Z1 小时前
# OpenClaw 安装教程(增强版)
人工智能·深度学习·机器学习
KG_LLM图谱增强大模型1 小时前
Anthropic指控DeepSeek等中国三家AI大模型公司通过AI蒸馏窃取Claude模型能力
人工智能