Engram: DeepSeek最新工作解读1.从MLA,到NSA,DSA(lightning Indexer),DeepSeek做了很多稀疏化的工作,从计算层面更加高效,节省,试图压榨尽所有的硬件资源; 2.从transformer到MoE------谁来算 但是对于一些简单问题,稠密模型可能存在资源浪费的情况,因为需要不加区分的过一遍所有参数,这对于小模型或许可以接受,但是对于超大量参数的模型难以忍受,因此转为只对部分参数激活; 3.从MoE到Engram------一定程度解耦计算和记忆 过去的transformer只有显示的链接,计算,没有