技术栈

nsa

asd8705
3 个月前
人工智能·深度学习·机器学习·deepseek·nsa
Deepseek Natively Sparse Attention论文标题: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 作者团队: DeepSeek-AI, Peking University, University of Washington 核心目标: 提出一种高效、可训练的稀疏注意力机制,以提高长文本处理的计算效率,同时保持模型性能。