【机器学习】SAE(Sparse Autoencoders)稀疏自编码器大模型一直被视为一个“黑箱”,研究人员对其内部神经元如何相互作用以实现功能的机制尚不清楚。因此研究机理可解释性(Mechanistic Interpretability)就成为了一个热门研究方向。大模型的复杂之处在于“叠加”(superposition)现象,即一个神经元的激活可能同时是多个完全不相关特征的组成部分,简单说例如“哈基狗”的特征可能需要激活一组神经元(我们称之为集合N),而表达“小黑子”,则需要激活另一组神经元(集合M);叠加现象就意味着,集合N和M之间存在交集,这就导致我们很难通过观察单个