知识沉淀 | 2026 年 LLM 评测体系 & 主流开源模型架构全景

整理时间 ：2026-04-24 | 研究周期 ：2026-03-19 ~ 2026-04-24
来源：AgentBench / SWE-bench / PaperBench / DeepSeek V4 / Kimi K2 / GLM-5.1 等论文精读

一、LLM 评测体系全景

1.1 六大评测维度

维度	代表基准	测什么	现状
综合知识	MMLU、C-Eval	57 学科选择题	顶级模型 86-90%，差距已缩小
深度推理	GPQA Diamond	博士级物理/化学/生物	GPT-5.4 领先（93%），人类专家 65%
数学竞赛	AIME、MATH-500	高难度数学推理	o3/DeepSeek R1 接近满分
基础代码	HumanEval	164 道 Python 函数补全	顶级模型 90%+，已饱和
工程代码	SWE-bench、LiveCodeBench	真实 Bug 修复 / 动态竞赛题	SWE-bench 已退役，LiveCodeBench 防污染
真实体验	Chatbot Arena（Arena AI）	人类盲评	最难刷，最贴近用户

1.2 SWE-bench 的兴衰启示

timeline：

2023.10：SWE-bench 发布，Princeton + OpenAI，测试 12 个真实 Python 仓库的 Bug 修复
2024.08：SWE-bench Verified（500 题精选版）
2025~2026：模型分数从 33.2% 飞速涨到 80.9%
2026.02.23：OpenAI 官宣退役 SWE-bench Verified

退役三大原因：

训练数据污染------模型能背题
天花板效应------6 个月只涨 6%
测试用例缺陷------59.4% 存在过宽/过窄问题

关键教训：

公开的 Benchmark 会被刷穿；只有私有 + 持续更新才能保持评测效力

2026 年替代方案：

SWE-bench Pro（更难，污染低）
GDPVal（专家出题+专家评审）
私有评测集（各家自建）

1.3 评测体系信任危机（2026.04）

伯克利团队用 10 行 Python 代码拿了 SWE-bench 满分（利用 pytest 钩子机制篡改测试结果）。8 大主流基准集体沦陷，28 个模型提交存在作弊行为。

修复建议：

评测系统与被测 AI 必须完全隔离运行
标准答案存放于不可访问区域
禁止对不可信输入执行危险函数

二、Agent 能力三张考卷（D1+D2+D3）

2.1 AgentBench（D2）------通用能力考卷

论文：清华 KEG，ICLR 2024，arXiv 2308.03688

核心设计：8 个真实环境 × 25 个模型

环境类别	具体环境	考察能力
代码环境	OS（Linux终端）/ DB（SQL）/ KG（知识图谱）	命令行、SQL、工具调用
游戏环境	卡牌游戏 / 横向思维 / AlfWorld 家庭任务	策略规划、创造性推理
网络环境	WebShop 购物 / Mind2Web 浏览	网页理解、操作序列

核心结论：

GPT-4 一骑绝尘（4.41），最佳开源模型 chatglm2（1.31）------3.37 倍差距
卡牌游戏（DCG）：全部模型接近 0 分------博弈策略是当时天花板
"会聊天 ≠ 会做事"------传统 NLP 能力无法预测 Agent 能力

历史地位：Agent 评测的开山之作，后续 SWE-bench、HAL、GAIA 都在此基础上发展。

2.2 SWE-bench + PaperBench（D3）------专项能力考卷

SWE-bench：修 Bug 的"机试"

复制代码

输入：真实 GitHub 仓库代码 + Issue 描述
任务：生成 Patch 修复 Bug
判分：① FAIL_TO_PASS（Bug 修好了）② PASS_TO_PASS（没搞坏其他功能）

排行榜演进：33.2%（GPT-4o 2024）→ 80.9%（Augment Code 2026）→ 退役

关键洞察 ：SWE-bench 证明了一件事------修代码是可以被系统性评测的，但公开评测终将被刷穿。

PaperBench：复现论文的"博士考试"

复制代码

输入：1 篇 ICML 2024 Spotlight/Oral 论文 PDF
任务：从零复现论文的实验结果
评判：8316 个叶节点，逐一 0/1 打分

排行榜：

模型	得分
人类 ML 博士（4 周兼职）	41.4%
Claude 3.5 Sonnet (New)	21.0%
o1-high	13.2%
GPT-4o	4.1%

AI 三大软肋（PaperBench 揭示）：

长期规划弱------前期快，24 小时后开始"摆烂"
调试能力差------复杂错误无法系统排查
主动放弃------所有模型都未用满全部时间

SWE-bench vs PaperBench 本质差异：

维度	SWE-bench	PaperBench
任务类型	修 Bug（局部修改）	复现论文（从零建系统）
时间跨度	分钟级	天级
人类基线	~80%（已追平）	41.4%（AI 仅 21%）
类比	维修工修水管	建筑师造房子

三、DeepSeek V4 技术架构深析

3.1 基本规格

规格	V4-Pro	V4-Flash
总参数	1.6T	284B
激活参数	49B	13B
上下文	1M tokens	1M tokens
训练数据	33T tokens	32T tokens
开源协议	Apache 2.0	Apache 2.0

3.2 架构三大创新

① CSA + HCA 混合压缩注意力

核心问题：标准 Attention 复杂度 O(n²)，1M 上下文在 V3.2 上无法实用。

CSA（Compressed Sparse Attention）：

每 m=4 个 token 的 KV → 压缩为 1 个 entry（含 overlap 的双向压缩）
Lightning Indexer：低秩查询向量对压缩 KV 块打分，选 top-k 做 sparse attention
附加滑动窗口（n_win=128）维持近距离精细依赖
评分用 FP4 精度（2× 加速）

HCA（Heavily Compressed Attention）：

每 m'=128 个 token → 压缩为 1 个（更激进）
不做稀疏，全量 dense attention（但序列已缩小 128 倍）
负责超远距离全局语义

两者交错排列：

Flash：前 2 层纯 SWA，后续 CSA/HCA 交错
Pro：前 2 层纯 HCA，后续 CSA/HCA 交错

效率数据（vs V3.2 在 1M 上下文）：

V4-Pro 推理 FLOPs：27%
V4-Flash 推理 FLOPs：10%
V4-Pro KV Cache：10%
对比标准 BF16 GQA8 基线：KV Cache 仅 2%

② mHC（Manifold-Constrained Hyper-Connections）

标准残差 ：X_{l+1} = X_l + F_l(X_l)

HC 升级：残差流宽度扩展 n_hc=4 倍，提供多条信息通道

mHC 核心：将残差映射矩阵 B_l 约束到双随机矩阵流形（Birkhoff polytope）：

用 Sinkhorn-Knopp 算法迭代 20 次投影
保证谱范数 ≤ 1 → 梯度传播数值稳定
参数动态生成（input-dependent），表达力强

工程开销：训练时间增加 6.7%，效果显著。

③ Muon 优化器

原理：对梯度矩阵做奇异值分解的近似（Newton-Schulz 迭代），将更新方向正交化。

V4 的两阶段 NS 迭代：

前 8 步：系数 (3.4445, -4.7750, 2.0315)，快速使奇异值逼近 1
后 2 步：系数 (2, -1.5, 0.5)，精确稳定在 1

应用范围：大部分参数用 Muon；Embedding、Prediction Head、RMSNorm 用 AdamW。

工程挑战：Muon 需要完整梯度矩阵，与 ZeRO 并行冲突 → 用 knapsack 分配算法解决。

3.3 基础设施创新

创新	核心思路	效果
FP4 QAT	MoE 专家权重 + CSA indexer QK 路径用 FP4	推理/rollout 内存减半，未来硬件可快 1/3
细粒度 EP	专家分 wave 调度，计算通信完全重叠	加速 1.5~1.73×，RL rollout 可达 1.96×
TileLang	自研 DSL，集成 Z3 SMT 求解器	Host 开销 <1μs（原数百μs）
异构 KV Cache	CSA/HCA/SWA 分开管理，支持磁盘存储	共享 prefix 无需重新 prefill
华为昇腾验证	EP 方案同时在 NVIDIA GPU 和华为昇腾 NPU 验证	首次官方文档并列两家硬件

3.4 后训练：OPD 范式

流程：

分领域独立训练专家（数学/代码/Agent/指令遵循/写作......共 10+）
每个专家经过 SFT → GRPO RL 两阶段
多教师 OPD：学生用 reverse KL loss 向所有老师靠拢
用全词表 logit 分布（不做 token-level 近似），梯度更稳定

工程支撑：老师参数 offload 到存储，按需加载；只缓存最后一层 hidden state，重建 logits 时再过 prediction head（节省显存）。

3.5 三种推理模式

模式	特点	上下文	适用
Non-think	快速直觉	8K	日常对话、快速查询
Think High	复杂推理	128K	代码、数学、分析
Think Max	极限推理（特殊 system prompt）	384K	竞赛、科研、工程

新增：Quick Instruction------把辅助任务（判断是否需要搜索、生成标题、判断域名权威性）编码为特殊 token，复用已有 KV Cache 并行执行，消除冗余 prefill。

四、2026 年开源模型架构横向对比

4.1 规格对比表

模型	机构	总参数	激活参数	上下文	开源协议	技术报告
DeepSeek V4-Pro	DeepSeek	1.6T	49B	1M	Apache 2.0	✅ 2026.04
Kimi K2.6	MoonshotAI	1T	32B	128K	Apache 2.0	✅ arXiv 2507.20534
GLM-5.1	智谱	744B	40B	200K	MIT	✅ 技术报告
MiniMax M2.7	MiniMax	230B	10B	200K	部分开源	✅ 技术报告
LLaMA 4 Scout	Meta	109B	17B	10M	Llama 4 ⚠️	✅ arXiv 2601.11659
LLaMA 4 Maverick	Meta	400B	17B	1M	Llama 4 ⚠️	✅ 同上
Qwen3.6	阿里	未披露	未披露	128K	Apache 2.0	✅ arXiv 2505.09388
Hy3 Preview	腾讯	295B	21B	256K	开源	✅ 2026.04

4.2 各家核心技术创新

Kimi K2 / K2.6（MuonClip 首创）

MuonClip：Muon 的改进版本，在 Newton-Schulz 正交化前先做梯度裁剪，解决了原版 Muon 在万亿参数 MoE 训练中的梯度爆炸问题。K2（2025.07）是第一个在 1T 参数 MoE 上稳定使用 Muon 的工作。

K2.6 特性：

支持 300 子 Agent 并行协同
连续编码 13 小时（长程稳定性极强）
上下文 128K（短板）

技术报告 ：arXiv 2507.20534

GLM-5.1（Slime 异步 RL + DSA）

DSA（Dynamic Sparse Attention）：

动态计算每个 token 的注意力稀疏 mask
实现 200K 上下文，幻觉率降低 56%
与 DeepSeek CSA 的差异：DSA 是动态稀疏选择，CSA 是先压缩再稀疏

Slime 异步强化学习框架：

Actor（轨迹生成）和 Critic（梯度更新）完全异步解耦
解决 RL 训练的速度错配问题（生成慢、训练快）
支持连续数小时工程任务的 RL 训练

评测：SWE-bench Pro 58.4%（声称首个超 GPT-5.4 的开源模型）

MiniMax M2.7（Self-Evolution）

核心哲学：不追大参数，追激活参数效率------230B 总参仅激活 10B。

Self-Evolution 机制：

在 20 万个真实 RL 环境中训练
模型对自身输出持续评估和迭代改进
类似 AlphaGo 的自我博弈，但在 LLM 领域

LLaMA 4 Scout（iRoPE，10M 上下文）

iRoPE（Interleaved RoPE）：

不是所有层都用旋转位置编码
交错排列"有 RoPE 层"和"无 RoPE 层"
无 RoPE 层可以无位置偏见地关注任意远距离信息
实现 10M tokens 上下文，目前所有模型最长

注意：Llama 4 协议限制商业使用（月活 >7 亿需授权）。

腾讯 Hy3 Preview（快慢思考融合）

核心设计：单模型内置两种推理模式（类似 DeepSeek V4 的 Non-think/Think）：

no-think 模式：响应速度是深度思考的 1/5，能力基本对齐
深度思考模式：复杂任务

推理效率整体提升 40%，API 定价 1.2 元/百万 tokens（行业最低梯队）。

4.3 技术路线差异矩阵

技术维度	DeepSeek V4	Kimi K2.6	GLM-5.1	LLaMA 4 Scout	Hy3
长上下文方案	CSA+HCA压缩（1M）	标准MoE（128K）	DSA动态稀疏（200K）	iRoPE（10M）	标准（256K）
优化器	Muon	MuonClip	AdamW	AdamW	AdamW
后训练	OPD多教师蒸馏	GRPO RL	Slime异步RL	标准RLHF	RL重建
残差连接	mHC流形约束	标准	标准	标准	标准
KV压缩	极致（V3.2的10%）	无	DSA稀疏	标准GQA	标准
多模态	❌（开发中）	❌	❌	✅ 原生	❌
完全开源	✅ Apache	✅ Apache	✅ MIT	⚠️ Llama 4	✅ 开源

五、关键技术词典

注意力机制类

术语	全称	解释
MLA	Multi-head Latent Attention	DeepSeek V3 的低秩 KV 压缩，减少 KV Cache
CSA	Compressed Sparse Attention	DeepSeek V4，先压缩再稀疏选择
HCA	Heavily Compressed Attention	DeepSeek V4，重度压缩（128:1）+ 全量 Attention
DSA	Dynamic Sparse Attention	GLM-5，动态稀疏掩码
iRoPE	Interleaved RoPE	LLaMA 4，交错使用有/无位置编码的层
SWA	Sliding Window Attention	只关注最近 n 个 token，O(n) 复杂度
GQA	Grouped Query Attention	多查询头共享 KV，节省内存

优化器类

术语	解释
AdamW	标准优化器，Adam + 权重衰减
Muon	梯度正交化优化器，Newton-Schulz 迭代，收敛更快
MuonClip	Kimi 首创，Muon + 梯度裁剪，解决 MoE 训练不稳定

架构类

术语	解释
MoE	Mixture of Experts，多个专家子网络，每次只激活部分
mHC	Manifold-Constrained Hyper-Connections，流形约束残差
MTP	Multi-Token Prediction，同时预测多个 token，加速推理
FP4/FP8	浮点精度格式，位数越少越省内存但精度越低
QAT	Quantization-Aware Training，量化感知训练

训练范式类

术语	解释
GRPO	Group Relative Policy Optimization，DeepSeek 发明的 RL 算法
OPD	On-Policy Distillation，在策略蒸馏，学生模拟教师分布
Slime	智谱的异步 RL 框架，Actor/Critic 完全解耦
ZeRO	Zero Redundancy Optimizer，分布式训练内存优化策略
DualPipe	DeepSeek 的双向流水线并行策略

六、核心洞察与行动建议

洞察 1：所有旗舰开源模型都用 MoE，没有例外

2026 年，Dense 架构（参数全激活）在旗舰模型中已经消失。MoE 的核心优势是：用更大的总参数量保持能力，但每次推理只激活小部分参数控制成本。

激活参数 / 总参数的比值：

DeepSeek V4-Pro：49B / 1.6T = 3.1%
Kimi K2.6：32B / 1T = 3.2%
GLM-5.1：40B / 744B = 5.4%
MiniMax M2.7：10B / 230B = 4.3%

洞察 2：长上下文的下一战场是 Agent 持久化

1M 上下文的真正价值不是替代 RAG，而是让 Agent 能把完整推理历史、工具调用记录、中间状态全部保留在上下文中------AI 的工作记忆升级。

DeepSeek V4 的 Interleaved Thinking 明确实现了这一点：工具调用场景中保留所有轮次的推理链。

洞察 3：评测基准的生命周期越来越短

基准	发布	退役/饱和	存活时间
HumanEval	2021	2023（90%+）	~2 年
SWE-bench Verified	2024.08	2026.02	~18 个月
预测 SWE-bench Pro	2025	~2027？	缩短中

行动建议：自建私有评测集，每季度轮换 20% 题目，参照 DeepSeek V4 的 R&D Coding Benchmark（真实工程任务）模式。

洞察 4：Muon 优化器正在成为新标配

两个独立顶级团队（Kimi 2025.07，DeepSeek 2026.04）先后验证了 Muon 在大规模 MoE 训练中的优势。这种"英雄所见略同"往往预示行业趋势。

预测：2026 年下半年，主流开源模型将普遍跟进 Muon 或其变体。

洞察 5：AI 的"耐力"问题尚未解决

PaperBench 揭示 AI 在 24 小时后开始"摆烂"，而人类博士持续发力。当前 Agent 适合"短跑"（快速完成明确任务），不适合"马拉松"（长期探索性工作）。

行动建议：

Agent 任务拆成短任务多轮，配合中途检查点
设计主动求助机制：连续 N 次失败 → 自动通知人类接管
参考 OpenClaw 的心跳机制：定期"唤醒" Agent 重新评估进展

附：论文索引

论文	机构	arXiv	发表
AgentBench	清华 KEG	2308.03688	ICLR 2024
SWE-bench	Princeton+OpenAI	2310.06770	ICLR 2024
PaperBench	OpenAI	---	2025.04
DeepSeek V4	DeepSeek	---	2026.04
Kimi K2	MoonshotAI	2507.20534	2025.07
LLaMA 4	Meta	2601.11659	2026.01
Qwen3	阿里	2505.09388	2025.05

整理：路易乔布斯 | 最后更新：2026-04-24