技术栈

sparseattention

v_JULY_v
6 小时前
dsa·nsa·原生稀疏注意力·sparseattention·deepseek稀疏注意力
一文通透NSA——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合(含DSA的详解)今25年年初,deepseek R1(包括V3)席卷全球,引发所有大模型同仁的高度关注,我当时在博客内也解读了很多相关的论文
我是有底线的