THINKSAFE:推理模型的自生成安全对齐

大型推理模型(LRM)通过在推理任务上利用强化学习(RL)生成长思维链(CoT),从而实现了卓越的性能。

然而,这种过度优化往往优先考虑合规性,使得模型容易受到有害提示词的影响。为了缓解这种安全性能下降的问题,近期的方法依赖于外部教师蒸馏,但这引入了分布差异,损害了模型的原生推理能力。

我们提出了ThinkSafe,一个无需外部教师的自生成对齐框架,用于恢复模型的安全对齐。我们的核心见解是:虽然追求合规性会抑制安全机制,但模型通常保留着识别危害的潜在知识。

ThinkSafe通过轻量级的拒绝引导来解锁这一潜力,指导模型生成分布内的安全推理轨迹。在这些自生成的响应上进行微调,能有效地重新对齐模型,同时最小化分布偏移。

在DeepSeek-R1-Distill和Qwen3上的实验表明,ThinkSafe在显著提升安全性的同时,保持了推理能力。值得注意的是,与GRPO相比,它以显著降低的计算成本实现了更优的安全性和可比的推理性能。

代码、模型和数据集已在 https://github.com/seanie12/ThinkSafe.git 开源。

相关推荐
数智工坊10 小时前
【Anchor DETR论文阅读】:基于锚点查询设计的Transformer检测器,50epoch收敛且速度精度双升
论文阅读·深度学习·transformer
guslegend10 小时前
第17节:模型忽略关键实体怎么办?注意力权重分配机制引导生成拒绝重点
人工智能·大模型·rag
Deepoch10 小时前
Deepoc 具身模型开发板赋能智能轮椅自主随行与安全控制技术研究
人工智能·科技·安全·开发板·deepoc·智能轮椅
Magic-Yuan10 小时前
算力的迷雾
人工智能·算法·机器学习
Hello未来10 小时前
llamafactory 的使用和安装
python·深度学习·语言模型·自然语言处理·nlp
财迅通Ai10 小时前
德福科技2025年净利增长145.91% 高端突破引领成长新篇
大数据·人工智能·科技·德福科技
小白电脑技术10 小时前
OpenClaw的API密钥存在电脑里,远程调用安全吗?
安全·电脑·openclaw
AI医影跨模态组学10 小时前
Nature Reviews Cancer(IF=66.8)澳门科技大学张康教授等团队:人工智能推动多组学与临床数据整合在基础和转化癌症研究中的进展
人工智能·科技·深度学习·论文·医学影像
天使的翅膀202510 小时前
BM25为何精准匹配专有名词?
人工智能
gaoshengdainzi10 小时前
机器人无线共存测试系统YY 9706.102/GB 4824
机器人·医疗机器人产品检测设备·机器人无线共存测试系统