技术栈
v4
Luca_kill
19 天前
大模型
·
moe
·
deepseek
·
ai架构
·
v4
·
混合注意力
·
流形约束
深度拆解 DeepSeek V4:混合注意力 + 流形约束超连接如何重塑万亿 MoE 架构
2026 年 4 月 24 日,DeepSeek V4 预览版正式发布,同步开源了 V4-Pro(总参数 1.6 万亿,激活 490 亿)和 V4-Flash(总参数 2840 亿,激活 130 亿)两个版本。这组数据本身已经足够震撼,但更让技术圈沸腾的是它交出的成绩单:
Bruce_Liuxiaowei
21 天前
人工智能
·
华为
·
算力
·
deepseek
·
v4
DeepSeek V4 × 华为昇腾:国产AI算力推理适配的实质性进展
重要更正(2026年4月25日): 本文初稿曾使用"全流程迁移"“里程碑式跨越"等表述,后经核实,需明确以下事实:V4 及 V4-Pro 的预训练仍在英伟达 H800/H100 上完成;V4-Flash 后训练由昇腾完成;当前对外开放的 API 推理运行在昇腾上,但部分优化依赖 CUDA 生态下的算子实现,并非完整的"去 CUDA 化”。本文已据此全面修正,对初稿的不准确表述深表歉意。
我是有底线的