OpenAI新研究破解GPT-4大脑,分解1600万个特征打开“黑匣子”,Ilya 、Jan Leike也参与了!

https://cdn.openai.com/papers/sparse-autoencoders.pdf

这份论文探讨了稀疏自编码器(SAE)在语言模型中的应用,旨在从语言模型中提取可解释的特征。论文的主要贡献包括:
1. 训练方法

  • 提出了一种训练大型稀疏自编码器的新方法,该方法能够有效地控制稀疏性,并减少"死"潜在特征的数量。
  • 使用了 TopK 激活函数,直接控制潜在特征的活跃数量,简化了模型调优,并改善了重建-稀疏性权衡。
  • 引入了辅助损失函数,用于减少"死"潜在特征的数量。
    2. 规模定律
  • 系统地研究了稀疏自编码器的规模定律,包括潜在特征数量、稀疏性和语言模型规模之间的关系。
  • 发现了清晰的规模定律,并训练了一个包含 1600 万潜在特征的 SAE,用于 GPT-4 激活。
    3. 特征质量评估
  • 引入了一系列新的指标,用于评估潜在特征的质量,包括:
    • 下游损失:评估 SAE 重建的潜在特征对语言模型行为的影响。
    • 探测损失:评估 SAE 是否能够恢复假设的特征。
    • 可解释性:评估潜在特征的激活模式是否可以解释。
    • 消融稀疏性:评估消融单个潜在特征对下游 logits 的影响是否稀疏。
  • 发现大型稀疏自编码器通常在这些指标上表现更好。
    4. TopK 激活函数
  • 解释了 TopK 激活函数如何避免激活收缩,并优于其他激活函数。
  • 研究了 TopK 激活函数的渐进恢复特性,并提出了 Multi-TopK 方法来改善其泛化能力。
    5. 未来方向
  • 讨论了稀疏自编码器的局限性,并提出了未来的改进方向,例如:
    • 使用更灵活的潜在特征数量约束。
    • 改进优化方法。
    • 研究更有效的特征质量评估指标。
    • 探索将 MoE 与自编码器结合的方法。
    • 研究 GPT-4 中发现的复杂特征。
      总结
      这份论文为训练大型稀疏自编码器并评估其特征质量提供了重要的见解和方法。稀疏自编码器在语言模型的可解释性研究中具有巨大的潜力,并为理解语言模型的内部机制提供了新的工具。
相关推荐
战族狼魂几秒前
从零构建企业级Hermes-Agent:复杂任务拆解、工具协同与安全落地实践
开发语言·人工智能·python
o561-6o623o7鹿4 分钟前
陈,生理实验系统虚实结合型 生理学实验系统 生理学实验系统软件
人工智能
继续商行6 分钟前
Go 并发原语深度剖析:Channel 与 Mutex 的性能博弈
人工智能
yaoxiaoganggang6 分钟前
克隆 Superpowers 的规则库到你的本地(或者直接作为 Git Submodule)
人工智能·经验分享·git·ai编程
小雨青年10 分钟前
GitHub Spark:自然语言能把全栈 AI 应用做到什么程度
人工智能·github
AI袋鼠帝11 分钟前
比Codex快4倍!终于有开源模型卷本地Agent执行效率了~
人工智能
j_xxx404_14 分钟前
MySQL库操作硬核解析:字符集、校验规则、大小写比较、备份恢复与连接排查
运维·服务器·数据库·人工智能·mysql·ai·oracle
小锋java123416 分钟前
分享一套锋哥原创的基于LangChain4j的RAG医疗健康知识智能问答系统(SpringBoot4+Vue3+Ollama)
java·人工智能
陈天伟教授17 分钟前
图解人工智能(52)人工智能应用-GPT 机器作家
人工智能
AIGS00136 分钟前
探索向量空间JBoltAI:工业企业数智化升级的基础设施
java·人工智能·人工智能ai大模型应用