【大语言模型】 是什么在驱动表示层操控?——关于操控模型拒绝机制的案例研究将操控向量(Steering Vectors)应用于大语言模型(LLMs)是一种高效且有效的模型对齐技术,但我们对其工作原理缺乏可解释的理解——具体来说,操控向量影响了哪些内部机制,以及这如何导致不同的模型输出。为了探究操控向量有效性背后的因果机制,我们对“拒绝”(refusal)这一概念进行了全面的案例研究。我们提出了一个多token激活修补(multi-token activation patching)框架,并发现当应用于同一层时,不同的操控方法利用了功能上可互换的电路(functionally i