nsa

一文通透NSA——动态分层下的“原生稀疏注意力”策略：将粗粒度的token压缩与细粒度的token选择相结合(含DSA的详解)今25年年初，deepseek R1(包括V3)席卷全球，引发所有大模型同仁的高度关注，我当时在博客内也解读了很多相关的论文

终端没有5G图标-不支持特定NSA频段组合某样机没有5G图标，而对比机有5G图标。从android日志可以看到终端工作在b28+n78的NSA双载波下

Deepseek Natively Sparse Attention论文标题： Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 作者团队： DeepSeek-AI, Peking University, University of Washington 核心目标：提出一种高效、可训练的稀疏注意力机制，以提高长文本处理的计算效率，同时保持模型性能。

我是有底线的