技术栈

v4

Luca_kill
19 天前
大模型·moe·deepseek·ai架构·v4·混合注意力·流形约束
深度拆解 DeepSeek V4:混合注意力 + 流形约束超连接如何重塑万亿 MoE 架构2026 年 4 月 24 日,DeepSeek V4 预览版正式发布,同步开源了 V4-Pro(总参数 1.6 万亿,激活 490 亿)和 V4-Flash(总参数 2840 亿,激活 130 亿)两个版本。这组数据本身已经足够震撼,但更让技术圈沸腾的是它交出的成绩单:
Bruce_Liuxiaowei
21 天前
人工智能·华为·算力·deepseek·v4
DeepSeek V4 × 华为昇腾:国产AI算力推理适配的实质性进展重要更正(2026年4月25日): 本文初稿曾使用"全流程迁移"“里程碑式跨越"等表述,后经核实,需明确以下事实:V4 及 V4-Pro 的预训练仍在英伟达 H800/H100 上完成;V4-Flash 后训练由昇腾完成;当前对外开放的 API 推理运行在昇腾上,但部分优化依赖 CUDA 生态下的算子实现,并非完整的"去 CUDA 化”。本文已据此全面修正,对初稿的不准确表述深表歉意。
我是有底线的