深度解析Deepseek V4:1M 上下文不是军备竞赛,是养 Agent 的人才知道的痛

【AI Agent 实战】养虾系列 · DeepSeek V4 深度拆解

字数:约 4200 字 · 阅读时长:10 分钟

作者:路易乔布斯 · 一深思 AI · 2026-05-06


一、晚上 11 点的小龙虾

上周三晚上 11 点,我的小龙虾跑到第 27 轮的时候,CodeBuddy 弹了一句:"上下文已超出限制,请使用 /compact 压缩。"

这是它本周第 11 次失忆。

我盯着屏幕苦笑------这次它正在重构一个跨 8 个文件的服务,刚把前 6 个文件读完、依赖图理清楚、改造方案定好,准备动手。一个 /compact 下去,方案丢了大半,回来之后它一脸懵地问我:"您之前说要先改哪一层来着?"

这不是我的 Agent 不聪明。是它的"工作记忆"撑不住一个真实任务。

第二天,DeepSeek V4 发布。1.6T 参数、49B 激活、1M 上下文。所有技术号都在讲它的架构创新有多牛------mHC、CSA、HCA、Muon、TileLang,名词一个比一个吓人。

但我盯着发布页只想到一句话:

这次终于不用让我的虾每三轮就失忆一次了。

1M 上下文,对不养 Agent 的人来说,是个无聊的军备竞赛数字;对养 Agent 的人来说,是从"勉强能用"到"真正能干活"的临界点。

这篇就讲讲------为什么这个数字对我们如此重要,以及 V4 是怎么把这件事做到可执行的。


二、之前:养 Agent 的人,每天都在跟 128k 打架

我先不讲架构,先讲三个场景。每一个都是养虾人天天遇到的真实痛点。

场景 1:30 轮 Coding Agent 任务

你让 Agent 重构一个中等复杂度的服务。它会怎么消耗 token?

单轮消耗 Token 量
用户指令 几百
读 3-4 个源文件 1.2-1.5 万
Shell 命令 + 输出 几千
模型自己的 reasoning trace 几千
单轮合计 约 1.5 万

128k 时代:8 轮就到上限。每 8 轮 /compact 一次,每次丢一波细节,Agent 要么忘了之前为什么改这一行,要么忘了用户最初想要什么。

1M 时代:60+ 轮一气呵成。它记得每一个文件、每一处改动、每一次它自己 reasoning 的来龙去脉。

这中间的差距不是"快了几倍",是"任务能不能完成"。

场景 2:整仓库代码理解

中型 Python 项目,300 个文件、15 万行代码,整体压进上下文大约 80-120 万 token。

之前怎么做? RAG。向量化所有文件,按相关性挑出几个塞给 Agent。

问题在哪? 漏一个调用点就是一个 bug。你让 Agent 改一个公用函数的签名,RAG 给它看了 5 个调用点,但项目里实际有 8 个,剩下的 3 个上线之后炸了。

1M 时代怎么做? 一口气全塞。Agent 自己看见所有调用关系。V4 在 SWE Verified 上拿到 80.6 分,靠的就是这个能力------它真的在"理解一个项目",不是在"猜哪几个文件相关"。

场景 3:长文档推理

200 页的法律合同、四个附件的季度财报、一份完整的技术 RFC。

之前怎么做? 切块、摘要、再合并。前后逻辑断在哪你都不知道,跨段落的矛盾抓不住。

1M 时代怎么做? 整篇直接推理。MRCR(Multi-Round Conversation Recall)1M 评测里,大部分模型不到 50 分,V4-Pro 拿到 83.5------开源最高。


我把这三个场景拼起来想,就发现一件事------V3.2 在新用户消息进来时丢掉 thinking history,不是它不想留,是留不下。 这不是设计选择,是被迫妥协。

1M 上下文不是 prompt 写更长。它是让 Agent 真正"记得住一个完整任务"。这才是养虾人盼了一年的临界点。


三、然而:以前的 Transformer 为什么撑不到 1M

讲清楚 V4 之前,得先讲清楚------为什么 1M 这么难。

把三个学术瓶颈用养虾人能听懂的语言翻译一遍:

学术语言 养虾人能听懂的版本 比喻
Prefill 计算量 O(L²) 上下文翻 8 倍,算力要 64 倍 同事多 8 倍,开会时间多 64 倍
KV Cache 占用 ∝ L 每生成 1 个 token 都要把过去全翻一遍 你每说一句话之前要把过去 1 万次对话都过一遍脑子
残差通道单一 模型加深加宽到一定程度就训不动 100 层楼只有一部电梯,所有人挤一起

第一个瓶颈让训练成本失控;第二个瓶颈让推理速度雪崩;第三个瓶颈让万亿参数百层网络根本收不住。

任何一个解决不了,1M 都是 PPT 里的数字。

V4 的真本事,是同时解决了这三个。而且解的方式,每一个拆开看都不算颠覆性创新,但组合在一起就是工程级的优雅。


四、V4 的三招组合拳

招式 1:mHC------给 100 层大楼装"多电梯+调度系统"

这是解决第三个瓶颈(深度上限)的核心。

残差方式 对应建筑 问题
标准残差 1 部电梯所有人挤 浅层信息和深层信息互相踩踏
HC(Hyper-Connections) 多部电梯但调度无规则 数值容易发散,训练不稳定
mHC 多部电梯 + 调度装运营规范 既不撞车也不空载

mHC 比 HC 多了一个关键约束------把残差映射矩阵限制在"双随机矩阵"集合里(每行加起来=1、每列加起来=1、非负)。

听起来抽象?换个说法------它强制保证每一层的历史信息贡献系数永远在 0 到 1 之间。这样模型再深、再宽,都不会出现"某一层突然权重爆炸"或者"某一层信号消失"的情况。

更精妙的是它的非对称设计:

  • 连乘的高风险矩阵施加强约束(双随机矩阵)
  • 只参与单层的低风险矩阵保持灵活(sigmoid)

这是工程师的克制------不是越多约束越好,而是该严的地方严,该松的地方松

养虾人能用上的启示

Agent 的长期记忆系统也面临同样问题------多种记忆类型(事实记忆、剧情记忆、技能记忆)挤在一条上下文通路里互相踩踏。

mHC 给的解法是:给不同类型的记忆开不同通道,但调度本身要有约束

这正是 Hermes Agent 的 ContextEngine、Claude Design 的 Memory 分层设计在做的事------只是在 V4 里,这套思想从架构层第一次跑通。

招式 2:CSA + HCA------三层"会议纪要"机制

这是解决第一、第二个瓶颈(计算量和 KV)的核心。

V4 用的不是"线性注意力"那条路(Kimi、Qwen 走的是这条),而是保留 Softmax 精度、靠"压缩+稀疏"降量

具体怎么做?三层处理:

步骤 角色 在做什么
1. HCA 速记员 每场大会一份速览纪要 → 海选
2. CSA 记录员 相邻两场小会合并打分纪要 → 精选
3. 稀疏注意力 精读员 找最相关的几份逐字精读

把 1M 上下文里 6.5 万倍的计算量膨胀压回可执行范围,靠的就是这套"先粗筛、再精筛、再精读"的层级机制。

养虾人能用上的启示

这不就是我们做 RAG 时的 hierarchical retrieval 吗?

但 V4 把这套机制做进了模型架构本身,而不是外挂在 RAG 层。

这意味着什么?未来 Agent 的检索能力,可能不在 RAG 框架里,而是直接长在模型里。 我们这层做的检索,会越来越像"调度",越来越少做"匹配"。

招式 3:Muon 优化器------让训练更稳定的两个细节

前两招是"能跑起来",这一招是"能稳定跑下去"。

梯度正交化:让各个方向的更新独立进行,不互相拧魔方。比喻就是------左手画圆右手画方,两只手解耦,就不会互相拽着对方乱动。

Q/K 在 attention 前做 RMSNorm:根除注意力 Logits 爆炸。比喻就是------10 人会议每人定制一只麦克风增益,不让大嗓门的人盖过小声音的人。

这两件事单独看都不大,但放在万亿参数百层模型里,是"训得动"和"训不动"的差别。

养虾人能用上的启示

不直接用上,但思维可借鉴------所有"加权聚合"场景都要小心权重失衡

Multi-Agent 投票、Memory 检索打分、Tool 选择评分------任何聚合环节都要问一句:会不会有"大嗓门"?


五、Infra 层:"看不见的功夫"才是真本事

讲到这里,故事只讲了一半。架构创新解决"理论上能跑",但真正能让 V4 在用户手里"快、省、稳"的,是 Infra 层那些看不见的功夫

四个 Infra 优化,用养虾人能感受到的语言讲:

Infra 优化 你作为用户的体感 比喻
细粒度计算通信重叠 单卡能跑更长上下文了 洗衣机和烘干机同时跑,不再等空转
TileLang 跨硬件部署变容易 同一份菜谱川菜厨师和粤菜厨师都能做
批无关性 + 计算确定性 同样的 prompt 多次跑结果一致 每杯奶茶都是 50% 糖,不能因为忙就走捷径
FP4 量化感知训练 推理速度更快、显存更省 搬家时被子能抽真空压缩,衣服只能叠

这里我特别想拎出来讲两个。

TileLang------它把"算法逻辑"和"硬件调度"解耦了。开发者写算法时不用管 GPU 是 H100 还是国产芯片,编译器自己生成对应硬件的最优 kernel。性能对齐甚至超过手写的 CUTLASS/cuBLAS。

这意味着什么?V4 不是只能跑在 NVIDIA 上的模型。 它从架构设计的第一天,就是为"多厂商硬件"准备的。这是中国大模型公司面对芯片限制时,最 elegant 的回答。

批无关性------这个特性最容易被忽略,但对养虾人来说是个奇迹。

之前用 LLM API 的人都遇到过------同样的 prompt,跑两次结果不一样。原因是 LLM 推理服务为了吞吐,会把不同用户的请求批在一起,不同的 batch 切分会导致 bit 级输出不一致

V4 强行解决了这个问题------Attention kernel 顺序对齐 + DeepGEMM 替换 cuBLAS + 反向传播三大累加场景固定累加顺序。结果就是------同样的 prompt 跑 100 次,输出 100% 一致。

对养虾人来说这是什么?这是Agent 行为可重现性的基石。你测试通过的 prompt,明天还能跑出同样的结果;你给客户演示的 demo,下次演示不会突然失败。


六、V4 没发明新轮子,它教会我们怎么"组合"

这是这篇文章我最想讲的部分,也是 V4 给养虾人的真正启示。

mHC、CSA、HCA、Muon、TileLang、QAT------每一块拆开看原理,都似曾相识。

  • mHC 的多流残差思想,Kimi 的 Attn-Res 也在做
  • 稀疏注意力,Longformer / BigBird 几年前就有
  • 梯度正交化,Shampoo 优化器早就提过
  • 量化感知训练,BERT 时代就在用
  • 算子编译解耦,TVM、Triton 都是先行者

那 V4 凭什么牛?

凭它把这些"似曾相识"的东西逐一重新雕琢一次 ------mHC 加了双随机矩阵约束、CSA 加了三层处理、Muon 加了 RMSNorm、TileLang 性能对齐手写 kernel。然后组织在一起,完成从架构到工程的一次系统级闭环。

DeepSeek 官方技术博客结尾引了八个字------"率道而行,端然正己"

我盯着这八个字想了很久。它不是诗,是工程师的座右铭:

  • 不诱于誉------不为追逐 SOTA 而堆参数
  • 不恐于诽------不为规避复杂度而走捷径
  • 率道而行------从问题本质出发选解法
  • 端然正己------严格自约束(mHC 双随机矩阵、批无关性、分模块量化,每一个都是"自约束")

这其实是工程版的第一性原理。

而我们这些养 Agent 的人,做的不也是同一件事吗?


七、给养虾人的三个具体行动

讲这么多 V4 的牛,最后落到------你今天能做什么?

行动 1:重新审视你 Agent 的"工作记忆"

打开你正在用的 Agent,问自己三个问题:

  • 它现在用的是哪一档上下文?128k?200k?还是已经能上 1M?
  • 它的任务是不是经常被 /compact 切断?
  • 如果切换到 1M 模型,能否重新设计任务粒度------把现在拆成 3 个子任务的事,合并成 1 个完整任务做?

很多养虾人现在的"任务拆分",本质上是在适应小上下文的妥协。等你换上 1M 模型,发现根本不用拆,体验会有质变。

行动 2:从"挑 SOTA 模型"转向"挑组合最优的模型"

V4 强在系统级闭环,不在单点 SOTA。

你的 Agent 系统也是一样------单点 Skill 升级换不来体验飞跃,组合优化才会

下一次你想给 Agent 升级,先别问"哪个模型更强"。先问------

  • 我的 Memory 系统跟模型的上下文规模匹配吗?
  • 我的 Tool 调用方式跟模型的并发能力匹配吗?
  • 我的 Skill 拆分粒度跟模型的推理深度匹配吗?

这三个问题答完,你会发现------升级模型只是 1/4 的事,剩下 3/4 是匹配整个系统

行动 3:沉淀你自己的"系统级闭环"

不要每次都从零拼。

把验证过的"Skill + Memory + Tool + Context 组合"沉淀为可复用模板。这不是为了偷懒,是为了------每一次新需求来的时候,你能站在上一次的肩膀上

这正是 OpenClaw Skills 体系在解决的事。也是养虾系列从开篇到现在一直在讲的主线------

做 Agent 不是发明新算法,是把现成的 Skill / Memory / Tool / Context 像积木一样组合起来。组合本身,就是核心能力。

V4 在大模型层面证明了这条路。我们在 Agent 层面,要做的事是一样的。


八、回到那个晚上 11 点

V4 发布之后,我用 1M 上下文重跑了那个跨 8 文件的重构任务。

从开始到提交 PR,44 轮。全程未触发 /compact。它记得每一个文件、每一处改动、每一次它自己的 reasoning。

我突然理解了那八个字------

不诱于誉,不恐于诽,率道而行,端然正己。

这不是诗,是工程师的座右铭。我们这些养 Agent 的人,做的也是同一件事------

不为追逐风口而堆模型,不为规避麻烦而走捷径,从用户真实任务出发选方案,对每一处实现严格自约束。

1M 上下文不是终点。它只是让我们的小龙虾,终于有了一个能装下完整任务的"工作记忆"。

接下来,看我们怎么用好它。


写在最后

如果你也在养 Agent,欢迎留言告诉我------

  • 你目前的 Agent 跑到第几轮才会被 /compact?
  • 你最希望 1M 上下文能让你做什么之前做不到的事?

下一篇,我会拆解一个具体案例------用 1M 上下文重新设计 Agent 任务粒度,从"任务拆分思维"切换到"长任务一气呵成思维" 的全过程。

养虾路上,慢慢见真章。


路易乔布斯 · 一深思 AI · 2026-05-06
本文首发于「一深思 AI」,转载请注明出处

相关推荐
小则又沐风a1 小时前
基础的开发工具(2)---Linux
java·linux·前端
小此方1 小时前
Re:思考·重建·记录 现代C++ C++11篇(六) 从 shared_ptr 到 weak_ptr:起底智能指针的引用计数与循环引用之痛
开发语言·c++·c++11·现代c++
晨非辰1 小时前
吃透C++两大默认成员函数:const成员函数、 & 取地址运算符重载
java·大数据·开发语言·c++·人工智能·后端·面试
我滴老baby1 小时前
多智能体协作系统设计当AI学会团队合作效率翻十倍
android·开发语言·人工智能
落雪寒窗-1 小时前
Python进阶核心路线(工程向)
开发语言·python
humcomm1 小时前
全栈开发技术栈的最新进展(2026年视角)
开发语言·架构
梵得儿SHI1 小时前
(第三篇)Spring AI 架构设计与优化:容器化与云原生部署,基于 K8s 的 AI 应用全生命周期管理
java·ci/cd·docker·云原生·kubernetes·容器化·spring ai
普修罗双战士1 小时前
项目设计-文章系统发布文章完整前后端设计
java·数据库·vue.js·spring boot·git·intellij-idea
程序员老邢2 小时前
《人生底稿・番外篇12》37 岁程序员的工位双生 —— 旧主机的 “开发 + 摸鱼” 效率分区
java·程序员日常·人生底稿番外·中年码农·工作效率分区