Refusal in Language Models Is Mediated by a Single Direction会话型大语言模型针对指令遵循和安全性进行了微调,从而产生服从良性请求但拒绝有害请求的模型。虽然这种拒绝行为在聊天模型中普遍存在,但其背后的机制仍然知之甚少。在这项工作中,我们展示了拒绝是由一维子空间介导的,涉及 13 个流行的开源聊天模型,参数大小高达 72B。具体来说,对于每个模型,我们找到一个单一方向,这样从模型的残余流激活(residual stream activations)中删除该方向可以防止其拒绝有害指令,而添加该方向会导致拒绝甚至无害的指令。利用这一见解,我们提出了一种新颖的白盒越狱方法,