THINKSAFE:推理模型的自生成安全对齐

大型推理模型(LRM)通过在推理任务上利用强化学习(RL)生成长思维链(CoT),从而实现了卓越的性能。

然而,这种过度优化往往优先考虑合规性,使得模型容易受到有害提示词的影响。为了缓解这种安全性能下降的问题,近期的方法依赖于外部教师蒸馏,但这引入了分布差异,损害了模型的原生推理能力。

我们提出了ThinkSafe,一个无需外部教师的自生成对齐框架,用于恢复模型的安全对齐。我们的核心见解是:虽然追求合规性会抑制安全机制,但模型通常保留着识别危害的潜在知识。

ThinkSafe通过轻量级的拒绝引导来解锁这一潜力,指导模型生成分布内的安全推理轨迹。在这些自生成的响应上进行微调,能有效地重新对齐模型,同时最小化分布偏移。

在DeepSeek-R1-Distill和Qwen3上的实验表明,ThinkSafe在显著提升安全性的同时,保持了推理能力。值得注意的是,与GRPO相比,它以显著降低的计算成本实现了更优的安全性和可比的推理性能。

代码、模型和数据集已在 https://github.com/seanie12/ThinkSafe.git 开源。

相关推荐
秦ぅ时11 分钟前
Grok-3-Fast-Beta 完整解析:xAI 低延迟大模型 + 可直接运行调用代码
人工智能·gpt·microsoft
爱吃鱼的两包盐14 分钟前
3D 点云算法
深度学习
聚客AI29 分钟前
✅自托管AI网关的正确姿势:OpenClaw远程访问与安全配置
人工智能·agent·掘金·日新计划
brave and determined1 小时前
工程设计类学习(DAY25):高频PCB设计:射频布局与屏蔽腔体规范
人工智能·emc·电磁兼容·emi·屏蔽罩·电磁屏蔽·层叠设计
AI专业测评1 小时前
2026年AI写作软件底层逻辑横评:长篇网文如何破局“上下文遗忘”与“AI消痕”?
人工智能·自然语言处理·ai写作
霖大侠1 小时前
CPAL: Cross-Prompting Adapter With LoRAs forRGB+X Semantic Segmentation
人工智能·深度学习·算法·机器学习·transformer
火山引擎开发者社区2 小时前
火山 AI 生态新玩法:ArkClaw 一键生成漫剧,效率直接拉满
人工智能
一起来学吧2 小时前
【OpenClaw系列教程】第一篇:OpenClaw 完整介绍——开源 AI 智能体平台
人工智能·ai·openclaw·养龙虾
飞Link2 小时前
工业级时序异常检测利器:USAD 算法深度解析与实战
人工智能·深度学习·机器学习
飞Link2 小时前
深度拆解 Pepper 机器人开发架构与实战指南
架构·机器人