混合注意力

【LLM】DeepSeek-V4模型架构和训练流程【ds v4】混合专家（Mixture-of-Experts, MoE）语言模型：DeepSeek-V4-Pro（总参数量 1.6T，激活参数量 49B）和 DeepSeek-V4-Flash（总参数量 284B，激活参数量 13B），二者均支持百万 Token 的上下文长度。采用 MIT 许可证。

深度拆解 DeepSeek V4：混合注意力 + 流形约束超连接如何重塑万亿 MoE 架构2026 年 4 月 24 日，DeepSeek V4 预览版正式发布，同步开源了 V4-Pro（总参数 1.6 万亿，激活 490 亿）和 V4-Flash（总参数 2840 亿，激活 130 亿）两个版本。这组数据本身已经足够震撼，但更让技术圈沸腾的是它交出的成绩单：

我是有底线的