【DeepSeek拥抱开源】通过可扩展查找实现的条件记忆:大型语言模型稀疏性的新维度

1. 引言

本代码库包含论文《通过可扩展查找实现条件记忆:大语言模型稀疏性的新维度》的官方实现。

摘要: 虽然专家混合模型(MoE)通过条件计算扩展容量,但Transformer架构缺乏原生知识查找机制。为此,我们探索将条件记忆 作为补充性稀疏维度,通过Engram模块 实现------该模块将经典 N N N-gram嵌入现代化改造为支持 O ( 1 ) \mathcal{O}(1) O(1)复杂度查找。

核心贡献:

  • 稀疏性分配: 提出神经计算(MoE)与静态记忆(Engram)的权衡框架,发现指导最优容量分配的U型扩展规律
  • 实证验证: 在严格等参数量与等计算量约束下,Engram-27B模型在知识、推理、代码和数学领域持续超越MoE基线
  • 机制分析: 研究表明Engram能减轻浅层网络静态模式重建负担,可能为复杂推理保留有效深度
  • 系统效率: 模块采用确定性寻址机制,支持将海量嵌入表卸载到主机内存,推理开销极低

2. 架构设计

Engram模块通过检索静态 N N N-gram记忆并与动态隐状态融合来增强主干网络。架构如下图所示(提供drawio源文件):

3. 评估

Scaling Law


大规模预训练


长上下文训练

4. 印迹案例研究

5. 快速开始

我们推荐使用 Python 3.8+ 和 PyTorch 环境。

bash 复制代码
pip install torch numpy transformers sympy

我们提供了一个独立实现来展示 Engram 模块的核心逻辑:

bash 复制代码
python engram_demo_v1.py

⚠️ 注意: 提供的代码是演示版本,旨在说明数据流逻辑。其中模拟了标准组件(如 Attention/MoE/mHC)以便聚焦于 Engram 模块功能。

6. 许可协议

Engram 模型的使用需遵守模型许可协议

代码

https://github.com/deepseek-ai/Engram/blob/main/README.md

相关推荐
名不经传的养虾人3 分钟前
从0到1:企业级AI项目迭代日记 Vol.44|功能建好,和功能接通,是两件完全不同的事
人工智能·架构·agent·ai编程·企业ai
金融小师妹7 分钟前
AI因子共振模型显示:金银比突破区间上沿,白银定价逻辑进入再校准阶段
人工智能·算法·均值算法·线性回归
奶油话梅糖7 分钟前
IMA 知识库体验(内有资源分享):把资料变成可以提问的 AI 知识助手
人工智能·ai·aigc·知识图谱·知识库·学习工具·ima
老金带你玩AI10 分钟前
用ChatGPT管项目,让Codex只做Ticket
人工智能
前端不太难20 分钟前
从模型部署到智能运营:企业AI的新挑战
人工智能
ZFSS27 分钟前
VS Code + Luma MCP 使用教程
人工智能·ai·ai作画·copilot·ai编程·ai写作
某林21227 分钟前
ROS2 语音机器人实战:从 KCF 跟随失效到 RTAB-Map 建图闭环的完整排障
人工智能·机器人·语音识别·ros2·架构重构·技术复盘·c++底层排错
Tongpao_SSDHDD29 分钟前
希捷酷鹰ST6000VX008实测解析:中小安防监控高性价比存储方案
大数据·数据库·人工智能
Ricky055332 分钟前
基于作物特性的语义分割技术用于高效农业病害评估(西班牙德国2025年联合研究)
人工智能·目标检测·图像分割