技术栈

engram

M宝可梦
20 天前
transformer·memory·hash·moe·记忆·deepseek·engram
Engram: DeepSeek最新工作解读1.从MLA,到NSA,DSA(lightning Indexer),DeepSeek做了很多稀疏化的工作,从计算层面更加高效,节省,试图压榨尽所有的硬件资源; 2.从transformer到MoE------谁来算 但是对于一些简单问题,稠密模型可能存在资源浪费的情况,因为需要不加区分的过一遍所有参数,这对于小模型或许可以接受,但是对于超大量参数的模型难以忍受,因此转为只对部分参数激活; 3.从MoE到Engram------一定程度解耦计算和记忆 过去的transformer只有显示的链接,计算,没有
山顶夕景
21 天前
llm·moe·知识检索·engram
【LLM】deepseek之Engram模型(增加条件记忆模块)【Deepseek进展】给大语言模型加了个“快速查知识的小模块”。也就是条件记忆模块,实现上,融合静态N-gram嵌入与动态隐藏状态,通过确定性寻址实现O(1)查找,以可扩展查找,作为混合专家(MoE)之外的新稀疏性维度。如此一来,原来的模型(比如MoE架构)靠“实时计算”处理信息,这个模块补了个“静态记忆库”,存着常用的短语、知识片段,后续一键调取,不用重复计算。
我是有底线的