技术栈

记忆机制

M宝可梦
3 小时前
深度学习·架构·transformer·deepseek·记忆机制
新一代Transformer 架构MAT: Engram-STEM-PLE本文介绍一篇与DeepSeek颇有渊源的一片工作,来自meta; 同样使用了embedding table 来存储词向量,在FFN层作为改进,进行memory 注入;
我是有底线的