OpenAI新研究破解GPT-4大脑,分解1600万个特征打开“黑匣子”,Ilya 、Jan Leike也参与了!

https://cdn.openai.com/papers/sparse-autoencoders.pdf

这份论文探讨了稀疏自编码器(SAE)在语言模型中的应用,旨在从语言模型中提取可解释的特征。论文的主要贡献包括:
1. 训练方法

  • 提出了一种训练大型稀疏自编码器的新方法,该方法能够有效地控制稀疏性,并减少"死"潜在特征的数量。
  • 使用了 TopK 激活函数,直接控制潜在特征的活跃数量,简化了模型调优,并改善了重建-稀疏性权衡。
  • 引入了辅助损失函数,用于减少"死"潜在特征的数量。
    2. 规模定律
  • 系统地研究了稀疏自编码器的规模定律,包括潜在特征数量、稀疏性和语言模型规模之间的关系。
  • 发现了清晰的规模定律,并训练了一个包含 1600 万潜在特征的 SAE,用于 GPT-4 激活。
    3. 特征质量评估
  • 引入了一系列新的指标,用于评估潜在特征的质量,包括:
    • 下游损失:评估 SAE 重建的潜在特征对语言模型行为的影响。
    • 探测损失:评估 SAE 是否能够恢复假设的特征。
    • 可解释性:评估潜在特征的激活模式是否可以解释。
    • 消融稀疏性:评估消融单个潜在特征对下游 logits 的影响是否稀疏。
  • 发现大型稀疏自编码器通常在这些指标上表现更好。
    4. TopK 激活函数
  • 解释了 TopK 激活函数如何避免激活收缩,并优于其他激活函数。
  • 研究了 TopK 激活函数的渐进恢复特性,并提出了 Multi-TopK 方法来改善其泛化能力。
    5. 未来方向
  • 讨论了稀疏自编码器的局限性,并提出了未来的改进方向,例如:
    • 使用更灵活的潜在特征数量约束。
    • 改进优化方法。
    • 研究更有效的特征质量评估指标。
    • 探索将 MoE 与自编码器结合的方法。
    • 研究 GPT-4 中发现的复杂特征。
      总结
      这份论文为训练大型稀疏自编码器并评估其特征质量提供了重要的见解和方法。稀疏自编码器在语言模型的可解释性研究中具有巨大的潜力,并为理解语言模型的内部机制提供了新的工具。
相关推荐
朱大喜13 小时前
数据可视化工具选型:matplotlib、Plotly 与 ECharts
人工智能
动物园猫13 小时前
直升机停机坪目标检测数据集分享(适用于YOLO系列深度学习分类检测任务)
深度学习·yolo·目标检测
染指111019 小时前
26.RAG进阶(Advanced RAG)-假设性问题索引
人工智能·windows·agent·rag·advanced rag
闵孚龙19 小时前
动态图机制:为什么 PyTorch 调试起来更舒服
人工智能·pytorch·python
甲维斯20 小时前
还要啥Codex!DeepSeek接入Zcode远程连接!
人工智能
Kobebryant-Manba20 小时前
RNN从0实现
pytorch·rnn·深度学习
百胜软件@百胜软件20 小时前
百胜软件亮相“AI消费新生活”主题日活动,AI智能运营平台入选市级案例征集
人工智能·生活·零售数字化·数智中台·珠宝行业
专注搞钱21 小时前
GPT-4o写设备Recipe:从3小时到10分钟
数据库·人工智能·gpt·半导体
闻道参看21 小时前
贝芯宠AI灵兽 ELFVET 大模型聚焦临床应用,强化宠物诊疗综合能力
人工智能·宠物
MartinYeung521 小时前
[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越
人工智能·学习·语言模型