OpenAI新研究破解GPT-4大脑，分解1600万个特征打开“黑匣子”，Ilya 、Jan Leike也参与了！

东方佑2024-06-10 5:08

https://cdn.openai.com/papers/sparse-autoencoders.pdf

这份论文探讨了稀疏自编码器（SAE）在语言模型中的应用，旨在从语言模型中提取可解释的特征。论文的主要贡献包括：
1. 训练方法：

提出了一种训练大型稀疏自编码器的新方法，该方法能够有效地控制稀疏性，并减少"死"潜在特征的数量。
使用了 TopK 激活函数，直接控制潜在特征的活跃数量，简化了模型调优，并改善了重建-稀疏性权衡。
引入了辅助损失函数，用于减少"死"潜在特征的数量。
2. 规模定律：
系统地研究了稀疏自编码器的规模定律，包括潜在特征数量、稀疏性和语言模型规模之间的关系。
发现了清晰的规模定律，并训练了一个包含 1600 万潜在特征的 SAE，用于 GPT-4 激活。
3. 特征质量评估：
引入了一系列新的指标，用于评估潜在特征的质量，包括：
- 下游损失：评估 SAE 重建的潜在特征对语言模型行为的影响。
- 探测损失：评估 SAE 是否能够恢复假设的特征。
- 可解释性：评估潜在特征的激活模式是否可以解释。
- 消融稀疏性：评估消融单个潜在特征对下游 logits 的影响是否稀疏。
发现大型稀疏自编码器通常在这些指标上表现更好。
4. TopK 激活函数：
解释了 TopK 激活函数如何避免激活收缩，并优于其他激活函数。
研究了 TopK 激活函数的渐进恢复特性，并提出了 Multi-TopK 方法来改善其泛化能力。
5. 未来方向：
讨论了稀疏自编码器的局限性，并提出了未来的改进方向，例如：
- 使用更灵活的潜在特征数量约束。
- 改进优化方法。
- 研究更有效的特征质量评估指标。
- 探索将 MoE 与自编码器结合的方法。
- 研究 GPT-4 中发现的复杂特征。
  总结：
  这份论文为训练大型稀疏自编码器并评估其特征质量提供了重要的见解和方法。稀疏自编码器在语言模型的可解释性研究中具有巨大的潜力，并为理解语言模型的内部机制提供了新的工具。