sparseattention - sparseattention技术,学习,经验文章

v_JULY_v

10 个月前

一文通透NSA——动态分层下的“原生稀疏注意力”策略：将粗粒度的token压缩与细粒度的token选择相结合(含DSA的详解)今25年年初，deepseek R1(包括V3)席卷全球，引发所有大模型同仁的高度关注，我当时在博客内也解读了很多相关的论文