技术栈
记忆机制
M宝可梦
3 小时前
深度学习
·
架构
·
transformer
·
deepseek
·
记忆机制
新一代Transformer 架构MAT: Engram-STEM-PLE
本文介绍一篇与DeepSeek颇有渊源的一片工作,来自meta; 同样使用了embedding table 来存储词向量,在FFN层作为改进,进行memory 注入;
我是有底线的