深度解析Deepseek V4：1M 上下文不是军备竞赛，是养 Agent 的人才知道的痛

【AI Agent 实战】养虾系列 · DeepSeek V4 深度拆解

字数：约 4200 字 · 阅读时长：10 分钟

作者：路易乔布斯 · 一深思 AI · 2026-05-06

一、晚上 11 点的小龙虾

上周三晚上 11 点，我的小龙虾跑到第 27 轮的时候，CodeBuddy 弹了一句："上下文已超出限制，请使用 /compact 压缩。"

这是它本周第 11 次失忆。

我盯着屏幕苦笑------这次它正在重构一个跨 8 个文件的服务，刚把前 6 个文件读完、依赖图理清楚、改造方案定好，准备动手。一个 /compact 下去，方案丢了大半，回来之后它一脸懵地问我："您之前说要先改哪一层来着？"

这不是我的 Agent 不聪明。是它的"工作记忆"撑不住一个真实任务。

第二天，DeepSeek V4 发布。1.6T 参数、49B 激活、1M 上下文。所有技术号都在讲它的架构创新有多牛------mHC、CSA、HCA、Muon、TileLang，名词一个比一个吓人。

但我盯着发布页只想到一句话：

这次终于不用让我的虾每三轮就失忆一次了。

1M 上下文，对不养 Agent 的人来说，是个无聊的军备竞赛数字；对养 Agent 的人来说，是从"勉强能用"到"真正能干活"的临界点。

这篇就讲讲------为什么这个数字对我们如此重要，以及 V4 是怎么把这件事做到可执行的。

二、之前：养 Agent 的人，每天都在跟 128k 打架

我先不讲架构，先讲三个场景。每一个都是养虾人天天遇到的真实痛点。

场景 1：30 轮 Coding Agent 任务

你让 Agent 重构一个中等复杂度的服务。它会怎么消耗 token？

单轮消耗	Token 量
用户指令	几百
读 3-4 个源文件	1.2-1.5 万
Shell 命令 + 输出	几千
模型自己的 reasoning trace	几千
单轮合计	约 1.5 万

128k 时代：8 轮就到上限。每 8 轮 /compact 一次，每次丢一波细节，Agent 要么忘了之前为什么改这一行，要么忘了用户最初想要什么。

1M 时代：60+ 轮一气呵成。它记得每一个文件、每一处改动、每一次它自己 reasoning 的来龙去脉。

这中间的差距不是"快了几倍"，是"任务能不能完成"。

场景 2：整仓库代码理解

中型 Python 项目，300 个文件、15 万行代码，整体压进上下文大约 80-120 万 token。

之前怎么做？ RAG。向量化所有文件，按相关性挑出几个塞给 Agent。

问题在哪？ 漏一个调用点就是一个 bug。你让 Agent 改一个公用函数的签名，RAG 给它看了 5 个调用点，但项目里实际有 8 个，剩下的 3 个上线之后炸了。

1M 时代怎么做？ 一口气全塞。Agent 自己看见所有调用关系。V4 在 SWE Verified 上拿到 80.6 分，靠的就是这个能力------它真的在"理解一个项目"，不是在"猜哪几个文件相关"。

场景 3：长文档推理

200 页的法律合同、四个附件的季度财报、一份完整的技术 RFC。

之前怎么做？ 切块、摘要、再合并。前后逻辑断在哪你都不知道，跨段落的矛盾抓不住。

1M 时代怎么做？ 整篇直接推理。MRCR（Multi-Round Conversation Recall）1M 评测里，大部分模型不到 50 分，V4-Pro 拿到 83.5------开源最高。

我把这三个场景拼起来想，就发现一件事------V3.2 在新用户消息进来时丢掉 thinking history，不是它不想留，是留不下。 这不是设计选择，是被迫妥协。

1M 上下文不是 prompt 写更长。它是让 Agent 真正"记得住一个完整任务"。这才是养虾人盼了一年的临界点。

三、然而：以前的 Transformer 为什么撑不到 1M

讲清楚 V4 之前，得先讲清楚------为什么 1M 这么难。

把三个学术瓶颈用养虾人能听懂的语言翻译一遍：

学术语言	养虾人能听懂的版本	比喻
Prefill 计算量 O(L²)	上下文翻 8 倍，算力要 64 倍	同事多 8 倍，开会时间多 64 倍
KV Cache 占用 ∝ L	每生成 1 个 token 都要把过去全翻一遍	你每说一句话之前要把过去 1 万次对话都过一遍脑子
残差通道单一	模型加深加宽到一定程度就训不动	100 层楼只有一部电梯，所有人挤一起

第一个瓶颈让训练成本失控；第二个瓶颈让推理速度雪崩；第三个瓶颈让万亿参数百层网络根本收不住。

任何一个解决不了，1M 都是 PPT 里的数字。

V4 的真本事，是同时解决了这三个。而且解的方式，每一个拆开看都不算颠覆性创新，但组合在一起就是工程级的优雅。

四、V4 的三招组合拳

招式 1：mHC------给 100 层大楼装"多电梯+调度系统"

这是解决第三个瓶颈（深度上限）的核心。

残差方式	对应建筑	问题
标准残差	1 部电梯所有人挤	浅层信息和深层信息互相踩踏
HC（Hyper-Connections）	多部电梯但调度无规则	数值容易发散，训练不稳定
mHC	多部电梯 + 调度装运营规范	既不撞车也不空载

mHC 比 HC 多了一个关键约束------把残差映射矩阵限制在"双随机矩阵"集合里（每行加起来=1、每列加起来=1、非负）。

听起来抽象？换个说法------它强制保证每一层的历史信息贡献系数永远在 0 到 1 之间。这样模型再深、再宽，都不会出现"某一层突然权重爆炸"或者"某一层信号消失"的情况。

更精妙的是它的非对称设计：

对连乘的高风险矩阵施加强约束（双随机矩阵）
对只参与单层的低风险矩阵保持灵活（sigmoid）

这是工程师的克制------不是越多约束越好，而是该严的地方严，该松的地方松。

养虾人能用上的启示：

Agent 的长期记忆系统也面临同样问题------多种记忆类型（事实记忆、剧情记忆、技能记忆）挤在一条上下文通路里互相踩踏。

mHC 给的解法是：给不同类型的记忆开不同通道，但调度本身要有约束。

这正是 Hermes Agent 的 ContextEngine、Claude Design 的 Memory 分层设计在做的事------只是在 V4 里，这套思想从架构层第一次跑通。

招式 2：CSA + HCA------三层"会议纪要"机制

这是解决第一、第二个瓶颈（计算量和 KV）的核心。

V4 用的不是"线性注意力"那条路（Kimi、Qwen 走的是这条），而是保留 Softmax 精度、靠"压缩+稀疏"降量。

具体怎么做？三层处理：

步骤	角色	在做什么
1. HCA	速记员	每场大会一份速览纪要 → 海选
2. CSA	记录员	相邻两场小会合并打分纪要 → 精选
3. 稀疏注意力	精读员	找最相关的几份逐字精读

把 1M 上下文里 6.5 万倍的计算量膨胀压回可执行范围，靠的就是这套"先粗筛、再精筛、再精读"的层级机制。

养虾人能用上的启示：

这不就是我们做 RAG 时的 hierarchical retrieval 吗？

但 V4 把这套机制做进了模型架构本身，而不是外挂在 RAG 层。

这意味着什么？未来 Agent 的检索能力，可能不在 RAG 框架里，而是直接长在模型里。 我们这层做的检索，会越来越像"调度",越来越少做"匹配"。

招式 3：Muon 优化器------让训练更稳定的两个细节

前两招是"能跑起来"，这一招是"能稳定跑下去"。

梯度正交化：让各个方向的更新独立进行，不互相拧魔方。比喻就是------左手画圆右手画方，两只手解耦，就不会互相拽着对方乱动。

Q/K 在 attention 前做 RMSNorm：根除注意力 Logits 爆炸。比喻就是------10 人会议每人定制一只麦克风增益，不让大嗓门的人盖过小声音的人。

这两件事单独看都不大，但放在万亿参数百层模型里，是"训得动"和"训不动"的差别。

养虾人能用上的启示：

不直接用上，但思维可借鉴------所有"加权聚合"场景都要小心权重失衡。

Multi-Agent 投票、Memory 检索打分、Tool 选择评分------任何聚合环节都要问一句：会不会有"大嗓门"？

五、Infra 层："看不见的功夫"才是真本事

讲到这里，故事只讲了一半。架构创新解决"理论上能跑"，但真正能让 V4 在用户手里"快、省、稳"的，是 Infra 层那些看不见的功夫。

四个 Infra 优化，用养虾人能感受到的语言讲：

Infra 优化	你作为用户的体感	比喻
细粒度计算通信重叠	单卡能跑更长上下文了	洗衣机和烘干机同时跑，不再等空转
TileLang	跨硬件部署变容易	同一份菜谱川菜厨师和粤菜厨师都能做
批无关性 + 计算确定性	同样的 prompt 多次跑结果一致	每杯奶茶都是 50% 糖，不能因为忙就走捷径
FP4 量化感知训练	推理速度更快、显存更省	搬家时被子能抽真空压缩，衣服只能叠

这里我特别想拎出来讲两个。

TileLang------它把"算法逻辑"和"硬件调度"解耦了。开发者写算法时不用管 GPU 是 H100 还是国产芯片，编译器自己生成对应硬件的最优 kernel。性能对齐甚至超过手写的 CUTLASS/cuBLAS。

这意味着什么？V4 不是只能跑在 NVIDIA 上的模型。 它从架构设计的第一天，就是为"多厂商硬件"准备的。这是中国大模型公司面对芯片限制时，最 elegant 的回答。

批无关性------这个特性最容易被忽略，但对养虾人来说是个奇迹。

之前用 LLM API 的人都遇到过------同样的 prompt，跑两次结果不一样。原因是 LLM 推理服务为了吞吐，会把不同用户的请求批在一起，不同的 batch 切分会导致 bit 级输出不一致。

V4 强行解决了这个问题------Attention kernel 顺序对齐 + DeepGEMM 替换 cuBLAS + 反向传播三大累加场景固定累加顺序。结果就是------同样的 prompt 跑 100 次，输出 100% 一致。

对养虾人来说这是什么？这是Agent 行为可重现性的基石。你测试通过的 prompt，明天还能跑出同样的结果；你给客户演示的 demo，下次演示不会突然失败。

六、V4 没发明新轮子，它教会我们怎么"组合"

这是这篇文章我最想讲的部分，也是 V4 给养虾人的真正启示。

mHC、CSA、HCA、Muon、TileLang、QAT------每一块拆开看原理，都似曾相识。

mHC 的多流残差思想，Kimi 的 Attn-Res 也在做
稀疏注意力，Longformer / BigBird 几年前就有
梯度正交化，Shampoo 优化器早就提过
量化感知训练，BERT 时代就在用
算子编译解耦，TVM、Triton 都是先行者

那 V4 凭什么牛？

凭它把这些"似曾相识"的东西逐一重新雕琢一次 ------mHC 加了双随机矩阵约束、CSA 加了三层处理、Muon 加了 RMSNorm、TileLang 性能对齐手写 kernel。然后组织在一起，完成从架构到工程的一次系统级闭环。

DeepSeek 官方技术博客结尾引了八个字------"率道而行，端然正己"。

我盯着这八个字想了很久。它不是诗，是工程师的座右铭：

不诱于誉------不为追逐 SOTA 而堆参数
不恐于诽------不为规避复杂度而走捷径
率道而行------从问题本质出发选解法
端然正己------严格自约束（mHC 双随机矩阵、批无关性、分模块量化，每一个都是"自约束"）

这其实是工程版的第一性原理。

而我们这些养 Agent 的人，做的不也是同一件事吗？

七、给养虾人的三个具体行动

讲这么多 V4 的牛，最后落到------你今天能做什么？

行动 1：重新审视你 Agent 的"工作记忆"

打开你正在用的 Agent，问自己三个问题：

它现在用的是哪一档上下文？128k？200k？还是已经能上 1M？
它的任务是不是经常被 /compact 切断？
如果切换到 1M 模型，能否重新设计任务粒度------把现在拆成 3 个子任务的事，合并成 1 个完整任务做？

很多养虾人现在的"任务拆分"，本质上是在适应小上下文的妥协。等你换上 1M 模型，发现根本不用拆，体验会有质变。

行动 2：从"挑 SOTA 模型"转向"挑组合最优的模型"

V4 强在系统级闭环，不在单点 SOTA。

你的 Agent 系统也是一样------单点 Skill 升级换不来体验飞跃，组合优化才会。

下一次你想给 Agent 升级，先别问"哪个模型更强"。先问------

我的 Memory 系统跟模型的上下文规模匹配吗？
我的 Tool 调用方式跟模型的并发能力匹配吗？
我的 Skill 拆分粒度跟模型的推理深度匹配吗？

这三个问题答完，你会发现------升级模型只是 1/4 的事，剩下 3/4 是匹配整个系统。

行动 3：沉淀你自己的"系统级闭环"

不要每次都从零拼。

把验证过的"Skill + Memory + Tool + Context 组合"沉淀为可复用模板。这不是为了偷懒，是为了------每一次新需求来的时候，你能站在上一次的肩膀上。

这正是 OpenClaw Skills 体系在解决的事。也是养虾系列从开篇到现在一直在讲的主线------

做 Agent 不是发明新算法，是把现成的 Skill / Memory / Tool / Context 像积木一样组合起来。组合本身，就是核心能力。

V4 在大模型层面证明了这条路。我们在 Agent 层面，要做的事是一样的。

八、回到那个晚上 11 点

V4 发布之后，我用 1M 上下文重跑了那个跨 8 文件的重构任务。

从开始到提交 PR，44 轮。全程未触发 /compact。它记得每一个文件、每一处改动、每一次它自己的 reasoning。

我突然理解了那八个字------

不诱于誉，不恐于诽，率道而行，端然正己。

这不是诗，是工程师的座右铭。我们这些养 Agent 的人，做的也是同一件事------

不为追逐风口而堆模型，不为规避麻烦而走捷径，从用户真实任务出发选方案，对每一处实现严格自约束。

1M 上下文不是终点。它只是让我们的小龙虾，终于有了一个能装下完整任务的"工作记忆"。

接下来，看我们怎么用好它。

写在最后

如果你也在养 Agent，欢迎留言告诉我------

你目前的 Agent 跑到第几轮才会被 /compact？
你最希望 1M 上下文能让你做什么之前做不到的事？

下一篇，我会拆解一个具体案例------用 1M 上下文重新设计 Agent 任务粒度，从"任务拆分思维"切换到"长任务一气呵成思维" 的全过程。

养虾路上，慢慢见真章。

路易乔布斯 · 一深思 AI · 2026-05-06
本文首发于「一深思 AI」，转载请注明出处