技术栈

nsa

v_JULY_v
1 个月前
dsa·nsa·原生稀疏注意力·sparseattention·deepseek稀疏注意力
一文通透NSA——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合(含DSA的详解)今25年年初,deepseek R1(包括V3)席卷全球,引发所有大模型同仁的高度关注,我当时在博客内也解读了很多相关的论文
dream清欢
5 个月前
5g·nsa
终端没有5G图标-不支持特定NSA频段组合某样机没有5G图标,而对比机有5G图标。从android日志可以看到终端工作在b28+n78的NSA双载波下
asd8705
9 个月前
人工智能·深度学习·机器学习·deepseek·nsa
Deepseek Natively Sparse Attention论文标题: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 作者团队: DeepSeek-AI, Peking University, University of Washington 核心目标: 提出一种高效、可训练的稀疏注意力机制,以提高长文本处理的计算效率,同时保持模型性能。
我是有底线的