DeepSeek-V4 技术硬核解析

论文原文：DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

发布机构：DeepSeek-AI

发布时间：2026年4月24日

原文链接：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

一、核心概述

1.1 模型定位

DeepSeek-V4 是 DeepSeek AI 推出的新一代大语言模型系列，主题为 "迈向高效的百万 Token 上下文智能"。该系列首次实现了百万 token 上下文的高效处理，使长文档处理从"技术上可行"变为"经济上标配"。

1.2 模型规格

参数	DeepSeek-V4-Flash	DeepSeek-V4-Pro
总参数量	284B	1.6T (16,000亿)
激活参数	13B	49B
架构类型	MoE	MoE
训练数据量	32T tokens	33T tokens
上下文长度	1M tokens	1M tokens
Transformer 层数	43	61
隐藏维度 d	4096	7168
词表大小	128K	128K
路由专家数	256	384
每 token 激活专家	6	6
定位	高效经济型	旗舰级

1.3 核心创新一览

创新点	类型	核心价值
CSA (压缩稀疏注意力)	注意力机制	稀疏选择，降低计算量
HCA (重压缩注意力)	注意力机制	激进压缩，高效处理长序列
mHC (流形约束超连接)	架构设计	稳定深层网络训练
Muon 优化器	训练优化	加速收敛，提升稳定性
MegaMoE 内核	工程实现	推理加速 1.50~1.96×
OPD (策略蒸馏)	后训练	多专家知识统一

二、架构创新详解

2.1 整体架构

DeepSeek-V4 沿用 Transformer 架构 + Multi-Token Prediction (MTP) 模块，并引入三大关键升级：
Transformer Block
输入
Input Tokens
Embedding
Transformer Block x L
CSA/HCA 注意力层
DeepSeekMoE 前馈网络
mHC 超连接
Pre-Block Mixing
Residual Mixing
Post-Block Mixing
MTP Modules x K
Prediction Head
LM Loss + MTP Loss

2.2 多 Token 预测（MTP）

2.2.1 传统方式 vs MTP

方式	输出	特点
传统	一次预测 1 个 token	串行生成，速度慢
MTP	一次预测 K 个 token	并行生成，更快

MTP (K=3)
Token1
Token2, 3, 4
传统自回归
Token1
Token2
Token3
Token4

2.2.2 DeepSeek-V4 实现

核心设计：

共享 Embedding：所有 MTP 模块共享输入 embedding 层
独立预测头：每个 MTP 模块有独立的预测头
逐级预测：第 1 层预测 token 2~K+1，第 2 层预测 token 3~K+2，依次类推

MTP Module K
MTP Module 2
MTP Module 1
隐藏状态
预测头
预测: Token₂
隐藏状态
预测头
预测: Token₃
隐藏状态
预测头
预测: Tokenₖ₊₁
总 Loss
LM_Loss + λ×MTP_Loss

损失函数：

复制代码

总 Loss = LM_Loss + λ × MTP_Loss

Loss	全称	作用
LM_Loss	Language Model Loss	主损失，优化主模型预测下一个 token
MTP_Loss	MTP Loss	辅助损失，优化 MTP 模块预测后续 K 个 token

2.2.3 核心优势

优势	说明
训练信号更丰富	每个位置同时有 K 个预测目标
推理加速	一次生成多个 token，减少生成步数
减少重复	模型学会一次性规划多个 token 的连贯性
增强表示	多层结构提供更好的深层语义表示

💡 一句话总结：MTP 就是让模型"一次猜 K 个字"，而不是"一次猜一个字猜 K 次"

2.3 混合注意力架构（CSA + HCA）

2.3.1 设计动机

传统注意力机制在处理长序列时面临两个核心挑战：

计算复杂度：O(n²) 的注意力计算
KV Cache 存储：长序列需要巨大的显存

DeepSeek-V4 的解决方案是 用压缩换长度------通过混合使用 CSA 和 HCA 两种注意力机制，实现百万 token 上下文的高效处理。

2.2.2 压缩稀疏注意力（CSA）

概念导入：普通注意力机制

在理解 CSA 之前，先回顾标准的多头注意力机制：

复制代码

输入序列: [Token₁, Token₂, Token₃, Token₄, Token₅, ...]

每个 Token 都有三个向量:
  Q (Query): "我在找什么" - 查询向量
  K (Key):   "我是谁"    - 键向量
  V (Value): "我包含什么信息" - 值向量

注意力计算过程:
  1. Token₃ 的 Query 和所有 Token 的 Key 做点积 → 得到注意力分数
  2. Softmax 归一化分数
  3. 用分数对所有 Token 的 Value 加权求和 → 得到输出

问题所在：

问题	影响
O(n²) 复杂度	序列越长，计算量爆炸
KV Cache 巨大	1M tokens 需要存储海量 KV 向量，显存不够用 💥

遇到的问题
普通注意力机制
Query
与所有K做点积
Softmax归一化
对V加权求和
KV Cache巨大
计算量爆炸

CSA 的解决思路

核心思想：用压缩换长度

CSA 采用三步流程实现高效注意力：
原始 KV
压缩 m倍
闪电索引器稀疏选择
核心MQA注意力

Step 1: KV 压缩

将连续的 m 个 KV 条目压缩为 1 个条目，使用 Softmax 加权求和 + 可学习位置偏置：

复制代码

CComp_i = Σ(Softmax(Z_a + B_a) ⊙ C_a) + Σ(Softmax(Z_b + B_b) ⊙ C_b)

其中重叠压缩策略确保信息保留的连续性。

📖 公式通俗解读

符号含义

CComp_i 第 i 个压缩后的 KV 条目（输出）

C_a / C_b Key-Value 对的实际内容

Z_a / Z_b 可学习的查询权重（决定哪些 KV 重要）

B_a / B_b 可学习的位置偏置（考虑位置信息）

Softmax(...) 归一化权重（相加为 1）

⊙ 逐元素乘法

Σ 加权求和

即：根据内容和位置，对 m 个 KV 条目做加权平均，得到 1 个压缩后的 KV 条目

处理流程：
KV₁ KV₂ ... KVm
Softmax

计算注意力权重
加权求和

Σ权重×KV
CComp压缩结果

为什么有两套压缩器（a 和 b）？

类似残差连接，使用两套独立的参数

让模型学到更丰富的压缩模式

两者结果相加，保留更多信息
💡 通俗理解：为什么需要压缩？

对比普通注意力 CSA 压缩后

处理方式 每个 KV 都参与计算相邻 m 个 KV 打包成 1 个

比喻读完一整本书来找答案（慢）先把每章总结成一句话，再找答案（快）

效果 KV Cache 巨大，显存爆炸 KV Cache 大幅减小，支持更长上下文

压缩示例：
复制代码
普通:  [KV₁][KV₂][KV₃][KV₄][KV₅][KV₆]...  ← 100万个
              ↓ 压缩 (m=16)
CSA后: [KV₁₋₁₆][KV₁₇₋₃₂][KV₃₃₋₄₈]...     ← 6.25万个

符号	含义
`CComp_i`	第 i 个压缩后的 KV 条目（输出）
`C_a` / `C_b`	Key-Value 对的实际内容
`Z_a` / `Z_b`	可学习的查询权重（决定哪些 KV 重要）
`B_a` / `B_b`	可学习的位置偏置（考虑位置信息）
`Softmax(...)`	归一化权重（相加为 1）
`⊙`	逐元素乘法
`Σ`	加权求和

对比	普通注意力	CSA 压缩后
处理方式	每个 KV 都参与计算	相邻 m 个 KV 打包成 1 个
比喻	读完一整本书来找答案（慢）	先把每章总结成一句话，再找答案（快）
效果	KV Cache 巨大，显存爆炸	KV Cache 大幅减小，支持更长上下文

Step 2: 闪电索引器（Lightning Indexer）

技术实现思路

闪电索引器的核心目标是：从海量压缩 KV 块中，快速定位最相关的那些。

为什么需要"索引"？

压缩后的 KV 仍然有数十万个块
全量做注意力计算仍然太慢
需要一个"搜索引擎"，根据当前查询快速召回相关块

核心思路：低秩生成 + Top-k 选择

复制代码

┌─────────────────────────────────────────────────────────┐
│                    闪电索引器工作原理                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  当前token的隐藏状态 h_t                                 │
│         ↓                                               │
│  ┌─────────────────────────────────────────────┐       │
│  │ 低秩投影:  h_t → q  (降维压缩)               │       │
│  └─────────────────────────────────────────────┘       │
│         ↓                                               │
│  ┌─────────────────────────────────────────────┐       │
│  │ 生成多组查询向量: q → [q₁, q₂, ..., qₕ]      │       │
│  │ (h=64个索引头，并行计算)                      │       │
│  └─────────────────────────────────────────────┘       │
│         ↓                                               │
│  ┌─────────────────────────────────────────────┐       │
│  │ 对每个查询头，计算与所有KV块的相似度          │       │
│  │ 使用 ReLU 激活函数保留正相关                  │       │
│  └─────────────────────────────────────────────┘       │
│         ↓                                               │
│  ┌─────────────────────────────────────────────┐       │
│  │ Top-k 聚合选择: 选出得分最高的 k 个 KV 块      │       │
│  │ (Flash: k=512, Pro: k=1024)                  │       │
│  └─────────────────────────────────────────────┘       │
│         ↓                                               │
│  输出: 最相关的 k 个压缩 KV 块 → 进入注意力计算          │
│                                                         │
└─────────────────────────────────────────────────────────┘

关键技术细节

技术	作用
低秩投影	避免直接处理完整的 KV 矩阵，降低计算复杂度
多查询头（64头）	类似注意力机制，从不同角度捕捉相关性
ReLU 激活	过滤掉负相关，只保留正相关的 KV 块
Top-k 选择	稀疏注意力，只处理最相关的 k 个块

💡 类比理解：想象你在一个图书馆（压缩 KV 库）中找书：

低秩投影：把你要找的内容压缩成关键词

多查询头：用多个关键词组合从不同角度搜索

Top-k：图书馆只返回最相关的 512/1024 本书，而不是全部扫描

Step 3: 共享 KV MQA

选中的压缩 KV 条目同时充当 Key 和 Value，进行分组查询注意力。

📖 什么是 MQA（多查询注意力）？

对比普通 MHA MQA（多查询注意力）

K 和 V 每个 Query 头有独立的 K 和 V 所有 Query 头共享同一份 K 和 V

计算量 Q_heads × K_heads × V_heads 大幅减少

显存占用 多份 K/V 缓存只存一份 K/V

通俗理解：
复制代码
普通MHA:  10个人各自查10本不同的书  →  100次查询
MQA:      10个人查同一本书          →  10次查询

"共享KV"就是大家共用同一本书！
在 CSA 中的位置：
复制代码
选中的压缩KV块
      ↓
  同时充当 K 和 V  ← "共享KV"
      ↓
  多个 Query 头并行查询
      ↓
  得到注意力输出

对比	普通 MHA	MQA（多查询注意力）
K 和 V	每个 Query 头有独立的 K 和 V	所有 Query 头共享同一份 K 和 V
计算量	Q_heads × K_heads × V_heads	大幅减少
显存占用	多份 K/V 缓存	只存一份 K/V

CSA 配置参数：

参数	Flash	Pro
压缩率 m	4	4
索引器头数	64	64
索引器头维度	128	128
注意力 top-k	512	1024

2.2.3 重压缩注意力（HCA）

HCA 采用更激进的压缩策略，但不做稀疏选择：

压缩率：m' >> m（论文中 m' = 128）
策略：每 128 个 token 压缩为 1 个 KV 条目
注意力：全量密集注意力（非稀疏）

输入隐藏状态
Token级压缩器
重压缩KV条目
共享KV MQA
滑动窗口 KV条目
输出注意力结果

2.2.4 辅助设计

机制	说明
QK 归一化	核心注意力前对 QK 做 RMSNorm，防止 logit 爆炸
部分 RoPE	仅对最后 64 维施加旋转位置编码
滑动窗口注意力	附加 128 窗口的未压缩 KV，保留局部依赖
Attention Sink	可学习 sink logit，允许注意力头总分数不等于 1
分组输出投影	将 n_h 输出分成 g 组，降低投影计算量

2.2.5 效率对比

指标	相对 V3.2 GQA8 基线
1M 上下文 KV Cache	仅 2%
单 token 推理 FLOPs（Pro）	27%
KV Cache 大小（Pro）	10%

混合精度存储：

RoPE 维度：BF16
其余部分：FP8
闪电索引器：FP4

2.4 流形约束超连接（mHC）

2.4.1 设计动机

传统残差连接在深层堆叠时存在信号传播不稳定的问题：

信息可能在 skip connection 中被"淹没"
标准超连接训练中数值不稳定

2.4.2 核心创新

mHC 通过三个关键约束确保信号稳定传播：

① 双随机矩阵约束

将残差映射矩阵约束到 Birkhoff 多面体
确保谱范数 ≤ 1
数学保证：||W||_2 ≤ 1

② Sigmoid 约束

输入/输出映射约束为非负有界
避免信号相互抵消

③ 动态参数化

复制代码

映射矩阵 = 静态分量（可学习偏置）+ 动态分量（输入相关）

Sinkhorn-Knopp 迭代：

20 次迭代投影到双随机矩阵流形
确保行、列和均为 1

2.4.3 效率数据

"the additional wall-clock overhead of mHC amounts to merely 6.7% of the total time of a pipeline stage"

仅用 6.7% 的额外开销，换来深层网络训练的数值稳定性。

2.5 Muon 优化器

DeepSeek-V4 是 首个在大规模 MoE 模型上成功应用 Muon 的工作。

2.5.1 算法流程

Muon 的核心思想是：用"梯度方向的正交化"替代 AdamW 的"自适应学习率"。
步骤三：应用更新
步骤二：正交化迭代 (10步)
步骤一：累积动量
是
否
衰减系数
动量缓存
当前梯度
上一步动量
混合 Newton-Schulz 迭代
步数 < 8 ?
快速收敛系数
稳定收敛系数
正交化更新
更新动量
计算更新量
取符号 × 开方梯度
重缩放
权重衰减
参数更新

💡 Muon vs AdamW 的核心区别

方面 AdamW Muon

核心思路 自适应学习率缩放梯度方向正交化

对梯度的处理 二阶动量归一化将梯度投影到正交方向

收敛速度 中等更快（理论上）

内存开销 较多（需存二阶动量）较少

方面	AdamW	Muon
核心思路	自适应学习率缩放	梯度方向正交化
对梯度的处理	二阶动量归一化	将梯度投影到正交方向
收敛速度	中等	更快（理论上）
内存开销	较多（需存二阶动量）	较少

2.5.2 分区策略

Muon 不是万能的，部分模块仍需使用 AdamW：
小参数量

稳定性优先
大参数量

收敛加速
使用 Muon (主力)
Linear层
MoE专家
注意力参数
使用 AdamW
Embedding
预测头
RMSNorm
mHC门控/偏置
AdamW
Muon

2.5.3 MoE 高效实现

四大优化策略
ZeRO分桶
参数合并
BF16梯度同步
两阶段Reduce
padding开销<10%
减少通信量
通信量减半
避免精度误差

三、训练方法

3.1 预训练

3.1.1 数据构建

数据规模：超过 32T tokens
词表：128K
数据质量 ：
- 过滤批量自动生成内容（避免模型坍缩）
- 过滤模板化内容
- 数学与编程仍是核心
- 中期加入 agentic 数据
- 扩大多语言语料
- 增加长文档数据（科学论文、技术报告）

3.1.2 序列长度课程

4K
16K
64K
1M

渐进式扩展训练上下文长度，最终支持百万 token。

3.1.3 训练稳定性技术

① 预期路由（Anticipatory Routing）

核心思想：使用历史参数计算路由索引，避免同步更新带来的不稳定。
时刻2
时刻1
缓存
获取数据
计算路由索引
特征计算
应用路由索引

实现细节：

在 t-Δt 时刻预先获取 t 时刻的数据
"预期"计算并缓存路由索引
自动检测机制：仅在 loss spike 触发时激活
额外开销：约 20%

② SwiGLU 钳位

分量	钳位范围
线性分量	$-10, 10$
门控分量上界	10

有效消除离群值，提升训练稳定性。

3.2 后训练：两阶段范式

Base Model
各领域 SFT
各领域 GRPO
多领域专家模型
OPD蒸馏
统一模型

3.2.1 三种推理模式

模式	说明	适用场景
Standard	标准推理	快速响应
High	逻辑分析模式	复杂推理任务
Max	推理极限模式	最具挑战性任务

Max 模式特点：

更长上下文
更低长度惩罚
在最难任务上表现最优

3.2.2 生成式奖励模型（GRM）

摒弃传统标量奖励模型
单独训练的生成式奖励模型，为最终答案和推理过程提供奖励信号
支持灵活的长思维链生成

3.2.3 On-Policy Distillation (OPD)

核心创新：全词表 logit 蒸馏

对比项	传统方法	OPD
KL 损失	token 级 KL 估计	全词表 logit 蒸馏
方差	高方差	更稳定的梯度估计
知识蒸馏	部分	完整保留

教师模型：

框架支持无限数量的教师模型（effectively unbounded number of teachers）
采用 ZeRO-like 参数分片按需加载
教师权重量化到 FP4 离线存储

蒸馏目标：

复制代码

L_OPD(θ) = Σ w_i · D_KL(π_θ || π_E_i)

四、基础设施创新

4.1 MegaMoE 超级内核

特性	说明
四阶段融合	MoE 的 dispatch、All-to-All、forward、reduce 融合为单一流水线
通用推理加速	1.50~1.96×
适用场景	所有 MoE 推理任务

4.2 TileLang DSL

特性	说明
定位	高效算子开发领域特定语言
固定开销	<1μs/调用
优势	快速迭代新算子

4.3 批次不变性与确定性训练

批次不变性（Batch Invariance）：

同一 token 无论在 batch 中什么位置，输出逐位一致

确定性训练（Deterministic）：

消除所有 atomicAdd 操作
使用独立累积缓冲区
确保可复现性

4.4 FP4 量化感知训练

模块	量化精度
MoE 专家权重	FP4
CSA 索引器 QK 路径	FP4
其他	BF16/FP8

4.5 KV Cache 管理

4.5.1 异构 KV Cache 布局

类型	说明
SWA KV	滑动窗口注意力未压缩 KV
尾部未压缩 KV	HCA 尾部不完整 block
压缩 KV	CSA/HCA 核心压缩 KV

4.5.2 磁盘 KV Cache 存储

针对共享前缀复用场景，提供三种策略：

策略	存储开销	计算开销	适用场景
Full SWA Caching	高	零	存储充足、计算敏感
Periodic Checkpointing	中	中	平衡场景
Zero SWA Caching	零	高	存储受限场景

4.6 DSec 沙箱基础设施

DeepSeek Elastic Compute (DSec) 是生产级沙箱平台：
四种执行模式
DSec 核心组件
Apiserver API网关
Watcher 集群监控
Edge 每主机代理
3FS 分布式文件系统
Function Call
Container
microVM
fullVM

设计动机：

Agentic 工作负载高度异构
环境镜像大但需快速加载
高密度部署需求
沙箱生命周期需与 GPU 训练协调

五、评测结果

5.1 Base 模型评测

Table 1: Base 模型对比

Benchmark	V3.2-Base	V4-Flash-Base	V4-Pro-Base
Architecture	MoE	MoE	MoE
# Activated Params	37B	13B	49B
# Total Params	671B	284B	1.6T
World Knowledge
MMLU (5-shot)	87.8	88.7	90.1
MMLU-Pro (5-shot)	65.5	68.3	73.5
C-Eval (5-shot)	90.4	92.1	93.1
SimpleQA (25-shot)	28.3	30.1	55.2
Language & Reasoning
BBH (3-shot)	87.6	86.9	87.5
DROP (1-shot)	88.2	88.6	88.7
Code & Math
BigCodeBench (3-shot)	63.9	56.8	59.2
HumanEval (0-shot)	62.8	69.5	76.8
MATH (4-shot)	60.5	57.4	64.5
GSM8K (8-shot)	91.1	90.8	92.6
Long Context
LongBench-V2 (1-shot)	40.2	44.7	51.5

关键发现：V4-Flash 仅 13B 激活参数（远小于 V3.2 的 37B），却在多数 benchmark 上超越 V3.2。

5.2 与闭源模型对比（V4-Pro-Max）

5.2.1 知识领域

Benchmark	DeepSeek-V4-Pro-Max	Claude-Opus-4.6-Max	GPT-5.4-xHigh	Gemini-3.1-Pro-High
SimpleQA	57.9	47.2	39.8	45.3
MMLU-Pro	87.5	85.9	78.1	89.1

开源模型中大幅领先，超其他开源模型 20 个百分点

5.2.2 编程能力

Benchmark	DeepSeek-V4-Pro-Max	Claude-Opus-4.6-Max	GPT-5.4-xHigh	Gemini-3.1-Pro-High
LiveCodeBench	93.5	88.8	-	91.7
Codeforces Rating	3206	3168	3052	-
SWE Verified	80.6	80.8	75.1	68.5

Codeforces 3206：首次追平闭源模型

5.2.3 Agent 能力

Benchmark	DeepSeek-V4-Pro-Max	Claude-Sonnet-4.5	Kimi-K2.6	GLM-5.1
Terminal Bench 2.0	67.9	47.2	54.6	48.8
Toolathlon	51.8	-	47.2	-

内部评测：67% vs Sonnet 4.5 的 47%，超越 Sonnet 4.5

5.2.4 数学推理

评测	结果
Putnam-2025	120/120 满分
Frontier 排名	与 Axiom 并列第一

5.2.5 百万 Token 上下文

任务	DeepSeek-V4-Pro	Gemini-3.1-Pro	Claude Opus 4.6
MRCR 1M	83.5	~70	~90
CorpusQA 1M	62.0	~55	-

在学术基准上超越 Gemini-3.1-Pro

5.3 效率对比

配置	Single-Token FLOPs	KV Cache
DeepSeek-V3.2 (基线)	1×	1×
DeepSeek-V4-Pro	0.27×	0.10×

8.3 倍更低的 FLOPs，9.8 倍更低的 KV Cache

六、API 与开源

6.1 模型访问

渠道	地址
Hugging Face	https://huggingface.co/collections/deepseek-ai/deepseek-v4
ModelScope	https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
API 模型名	`deepseek-v4-pro` / `deepseek-v4-flash`
最大上下文	1M tokens
推理模式参数	`reasoning_effort: high / max`

6.2 定价策略

日间价格：标准定价
夜间价格：半价优惠

七、局限与未来方向

方向	说明
架构复杂度	保留了许多已验证组件，未来需精简为更优雅设计
理论理解	Anticipatory Routing 和 SwiGLU Clamping 有效但原理不清
新维度稀疏性	将探索更稀疏的 embedding 模块
低延迟架构	长上下文部署的响应速度仍需优化
多模态能力	尚未集成
数据策展	持续改进数据策略

八、技术术语表

术语	全称	说明
MoE	Mixture of Experts	混合专家架构
CSA	Compressed Sparse Attention	压缩稀疏注意力
HCA	Heavily Compressed Attention	重压缩注意力
mHC	Manifold-Constrained Hyper-Connections	流形约束超连接
MTP	Multi-Token Prediction	多 token 预测
MQA	Multi-Query Attention	多查询注意力
GQA	Grouped Query Attention	分组查询注意力
EP	Expert Parallelism	专家并行
ZeRO	Zero Redundancy Optimizer	零冗余优化器
GRPO	Group Relative Policy Optimization	群体相对策略优化
OPD	On-Policy Distillation	策略蒸馏
DSec	DeepSeek Elastic Compute	深度求索弹性计算
RoPE	Rotary Position Embedding	旋转位置编码
SWA	Sliding Window Attention	滑动窗口注意力

九、总结

DeepSeek-V4 代表了以下突破：

9.1 架构效率革新

CSA/HCA 混合注意力：百万 token 上下文 KV Cache 仅需 2%
mHC：6.7% 额外开销换训练稳定
Muon：首个大规模 MoE 成功应用

9.2 能力边界拓展

开源最强编程：Codeforces 3206，追平闭源
数学满分：Putnam-2025 120/120
Agent 超越：67% vs Sonnet 4.5 的 47%

9.3 工程落地

华为昇腾支持：首次脱离 CUDA，拥抱国产算力
MegaMoE 内核：推理加速 1.50~1.96×
DSec 平台：生产级 Agent 训练基础设施

9.4 战略意义

目标估值 200 亿美元
API 夜间半价：扩大开发者生态
为 Agent 时代奠定基础设施

本文档基于 DeepSeek-V4 原文 (58页技术报告) 整理，发布时间：2026年4月24日