技术栈
混合注意力
山顶夕景
19 天前
agent
·
deepseek
·
推理优化
·
混合注意力
【LLM】DeepSeek-V4模型架构和训练流程
【ds v4】混合专家(Mixture-of-Experts, MoE)语言模型:DeepSeek-V4-Pro(总参数量 1.6T,激活参数量 49B)和 DeepSeek-V4-Flash(总参数量 284B,激活参数量 13B),二者均支持 百万 Token 的上下文长度。采用 MIT 许可证。
Luca_kill
23 天前
大模型
·
moe
·
deepseek
·
ai架构
·
v4
·
混合注意力
·
流形约束
深度拆解 DeepSeek V4:混合注意力 + 流形约束超连接如何重塑万亿 MoE 架构
2026 年 4 月 24 日,DeepSeek V4 预览版正式发布,同步开源了 V4-Pro(总参数 1.6 万亿,激活 490 亿)和 V4-Flash(总参数 2840 亿,激活 130 亿)两个版本。这组数据本身已经足够震撼,但更让技术圈沸腾的是它交出的成绩单:
我是有底线的