技术栈
nsa
asd8705
2 天前
人工智能
·
深度学习
·
机器学习
·
deepseek
·
nsa
Deepseek Natively Sparse Attention
论文标题: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 作者团队: DeepSeek-AI, Peking University, University of Washington 核心目标: 提出一种高效、可训练的稀疏注意力机制,以提高长文本处理的计算效率,同时保持模型性能。