技术栈
大模型对齐
大千AI助手
1 天前
人工智能
·
神经网络
·
算法
·
机器学习
·
dpo
·
大模型对齐
·
直接偏好优化
直接偏好优化(DPO):原理、演进与大模型对齐新范式
直接偏好优化(Direct Preference Optimization, DPO) 是由斯坦福大学与 CZ Biohub 研究团队于 2023 年提出的突破性方法,用于直接基于人类偏好数据微调大语言模型(LLMs),无需显式训练奖励模型或依赖强化学习(RL)。其核心思想是将模型自身隐式转化为奖励函数,通过数学变换将复杂的强化学习问题转化为简洁的监督学习目标,显著提升训练效率与稳定性。
真·skysys
7 个月前
大模型安全
·
大模型对齐
·
安全对齐
·
权重正交化
·
激活工程
·
模型越狱
Refusal in Language Models Is Mediated by a Single Direction
会话型大语言模型针对指令遵循和安全性进行了微调,从而产生服从良性请求但拒绝有害请求的模型。虽然这种拒绝行为在聊天模型中普遍存在,但其背后的机制仍然知之甚少。在这项工作中,我们展示了拒绝是由一维子空间介导的,涉及 13 个流行的开源聊天模型,参数大小高达 72B。具体来说,对于每个模型,我们找到一个单一方向,这样从模型的残余流激活(residual stream activations)中删除该方向可以防止其拒绝有害指令,而添加该方向会导致拒绝甚至无害的指令。利用这一见解,我们提出了一种新颖的白盒越狱方法,
chencjiajy
1 年前
论文阅读
·
笔记
·
大模型对齐
大模型对齐方法笔记四:针对领域问答来进行知识对齐方法KnowPAT
KnowPAT(Knowledgeable Preference AlignmenT) 出自2023年11月的论文《Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering》,主要针对领域问答来进行知识对齐。