模型越狱

Refusal in Language Models Is Mediated by a Single Direction会话型大语言模型针对指令遵循和安全性进行了微调，从而产生服从良性请求但拒绝有害请求的模型。虽然这种拒绝行为在聊天模型中普遍存在，但其背后的机制仍然知之甚少。在这项工作中，我们展示了拒绝是由一维子空间介导的，涉及 13 个流行的开源聊天模型，参数大小高达 72B。具体来说，对于每个模型，我们找到一个单一方向，这样从模型的残余流激活(residual stream activations)中删除该方向可以防止其拒绝有害指令，而添加该方向会导致拒绝甚至无害的指令。利用这一见解，我们提出了一种新颖的白盒越狱方法，

我是有底线的