技术栈

流形约束

Luca_kill
4 小时前
大模型·moe·deepseek·ai架构·v4·混合注意力·流形约束
深度拆解 DeepSeek V4:混合注意力 + 流形约束超连接如何重塑万亿 MoE 架构2026 年 4 月 24 日,DeepSeek V4 预览版正式发布,同步开源了 V4-Pro(总参数 1.6 万亿,激活 490 亿)和 V4-Flash(总参数 2840 亿,激活 130 亿)两个版本。这组数据本身已经足够震撼,但更让技术圈沸腾的是它交出的成绩单:
我是有底线的