知识沉淀 | 2026 年 LLM 评测体系 & 主流开源模型架构全景

整理时间 :2026-04-24 | 研究周期 :2026-03-19 ~ 2026-04-24
来源:AgentBench / SWE-bench / PaperBench / DeepSeek V4 / Kimi K2 / GLM-5.1 等论文精读


目录

  1. [LLM 评测体系全景](#LLM 评测体系全景)
  2. [Agent 能力三张考卷](#Agent 能力三张考卷)
  3. [DeepSeek V4 技术架构深析](#DeepSeek V4 技术架构深析)
  4. [2026 年开源模型架构横向对比](#2026 年开源模型架构横向对比)
  5. 关键技术词典
  6. 核心洞察与行动建议

一、LLM 评测体系全景

1.1 六大评测维度

维度 代表基准 测什么 现状
综合知识 MMLU、C-Eval 57 学科选择题 顶级模型 86-90%,差距已缩小
深度推理 GPQA Diamond 博士级物理/化学/生物 GPT-5.4 领先(93%),人类专家 65%
数学竞赛 AIME、MATH-500 高难度数学推理 o3/DeepSeek R1 接近满分
基础代码 HumanEval 164 道 Python 函数补全 顶级模型 90%+,已饱和
工程代码 SWE-bench、LiveCodeBench 真实 Bug 修复 / 动态竞赛题 SWE-bench 已退役,LiveCodeBench 防污染
真实体验 Chatbot Arena(Arena AI) 人类盲评 最难刷,最贴近用户

1.2 SWE-bench 的兴衰启示

timeline

  • 2023.10:SWE-bench 发布,Princeton + OpenAI,测试 12 个真实 Python 仓库的 Bug 修复
  • 2024.08:SWE-bench Verified(500 题精选版)
  • 2025~2026:模型分数从 33.2% 飞速涨到 80.9%
  • 2026.02.23:OpenAI 官宣退役 SWE-bench Verified

退役三大原因

  1. 训练数据污染------模型能背题
  2. 天花板效应------6 个月只涨 6%
  3. 测试用例缺陷------59.4% 存在过宽/过窄问题

关键教训

公开的 Benchmark 会被刷穿;只有私有 + 持续更新才能保持评测效力

2026 年替代方案

  • SWE-bench Pro(更难,污染低)
  • GDPVal(专家出题+专家评审)
  • 私有评测集(各家自建)

1.3 评测体系信任危机(2026.04)

伯克利团队用 10 行 Python 代码拿了 SWE-bench 满分(利用 pytest 钩子机制篡改测试结果)。8 大主流基准集体沦陷,28 个模型提交存在作弊行为。

修复建议

  • 评测系统与被测 AI 必须完全隔离运行
  • 标准答案存放于不可访问区域
  • 禁止对不可信输入执行危险函数

二、Agent 能力三张考卷(D1+D2+D3)

2.1 AgentBench(D2)------通用能力考卷

论文:清华 KEG,ICLR 2024,arXiv 2308.03688

核心设计:8 个真实环境 × 25 个模型

环境类别 具体环境 考察能力
代码环境 OS(Linux终端)/ DB(SQL)/ KG(知识图谱) 命令行、SQL、工具调用
游戏环境 卡牌游戏 / 横向思维 / AlfWorld 家庭任务 策略规划、创造性推理
网络环境 WebShop 购物 / Mind2Web 浏览 网页理解、操作序列

核心结论

  • GPT-4 一骑绝尘(4.41),最佳开源模型 chatglm2(1.31)------3.37 倍差距
  • 卡牌游戏(DCG):全部模型接近 0 分------博弈策略是当时天花板
  • "会聊天 ≠ 会做事"------传统 NLP 能力无法预测 Agent 能力

历史地位:Agent 评测的开山之作,后续 SWE-bench、HAL、GAIA 都在此基础上发展。


2.2 SWE-bench + PaperBench(D3)------专项能力考卷

SWE-bench:修 Bug 的"机试"
复制代码
输入:真实 GitHub 仓库代码 + Issue 描述
任务:生成 Patch 修复 Bug
判分:① FAIL_TO_PASS(Bug 修好了)② PASS_TO_PASS(没搞坏其他功能)

排行榜演进:33.2%(GPT-4o 2024)→ 80.9%(Augment Code 2026)→ 退役

关键洞察 :SWE-bench 证明了一件事------修代码是可以被系统性评测的,但公开评测终将被刷穿。

PaperBench:复现论文的"博士考试"
复制代码
输入:1 篇 ICML 2024 Spotlight/Oral 论文 PDF
任务:从零复现论文的实验结果
评判:8316 个叶节点,逐一 0/1 打分

排行榜

模型 得分
人类 ML 博士(4 周兼职) 41.4%
Claude 3.5 Sonnet (New) 21.0%
o1-high 13.2%
GPT-4o 4.1%

AI 三大软肋(PaperBench 揭示):

  1. 长期规划弱------前期快,24 小时后开始"摆烂"
  2. 调试能力差------复杂错误无法系统排查
  3. 主动放弃------所有模型都未用满全部时间

SWE-bench vs PaperBench 本质差异

维度 SWE-bench PaperBench
任务类型 修 Bug(局部修改) 复现论文(从零建系统)
时间跨度 分钟级 天级
人类基线 ~80%(已追平) 41.4%(AI 仅 21%)
类比 维修工修水管 建筑师造房子

三、DeepSeek V4 技术架构深析

3.1 基本规格

规格 V4-Pro V4-Flash
总参数 1.6T 284B
激活参数 49B 13B
上下文 1M tokens 1M tokens
训练数据 33T tokens 32T tokens
开源协议 Apache 2.0 Apache 2.0

3.2 架构三大创新

① CSA + HCA 混合压缩注意力

核心问题:标准 Attention 复杂度 O(n²),1M 上下文在 V3.2 上无法实用。

CSA(Compressed Sparse Attention)

  • 每 m=4 个 token 的 KV → 压缩为 1 个 entry(含 overlap 的双向压缩)
  • Lightning Indexer:低秩查询向量对压缩 KV 块打分,选 top-k 做 sparse attention
  • 附加滑动窗口(n_win=128)维持近距离精细依赖
  • 评分用 FP4 精度(2× 加速)

HCA(Heavily Compressed Attention)

  • 每 m'=128 个 token → 压缩为 1 个(更激进)
  • 不做稀疏,全量 dense attention(但序列已缩小 128 倍)
  • 负责超远距离全局语义

两者交错排列

  • Flash:前 2 层纯 SWA,后续 CSA/HCA 交错
  • Pro:前 2 层纯 HCA,后续 CSA/HCA 交错

效率数据(vs V3.2 在 1M 上下文)

  • V4-Pro 推理 FLOPs:27%
  • V4-Flash 推理 FLOPs:10%
  • V4-Pro KV Cache:10%
  • 对比标准 BF16 GQA8 基线:KV Cache 仅 2%
② mHC(Manifold-Constrained Hyper-Connections)

标准残差X_{l+1} = X_l + F_l(X_l)

HC 升级:残差流宽度扩展 n_hc=4 倍,提供多条信息通道

mHC 核心:将残差映射矩阵 B_l 约束到双随机矩阵流形(Birkhoff polytope):

  • 用 Sinkhorn-Knopp 算法迭代 20 次投影
  • 保证谱范数 ≤ 1 → 梯度传播数值稳定
  • 参数动态生成(input-dependent),表达力强

工程开销:训练时间增加 6.7%,效果显著。

③ Muon 优化器

原理:对梯度矩阵做奇异值分解的近似(Newton-Schulz 迭代),将更新方向正交化。

V4 的两阶段 NS 迭代

  • 前 8 步:系数 (3.4445, -4.7750, 2.0315),快速使奇异值逼近 1
  • 后 2 步:系数 (2, -1.5, 0.5),精确稳定在 1

应用范围:大部分参数用 Muon;Embedding、Prediction Head、RMSNorm 用 AdamW。

工程挑战:Muon 需要完整梯度矩阵,与 ZeRO 并行冲突 → 用 knapsack 分配算法解决。

3.3 基础设施创新

创新 核心思路 效果
FP4 QAT MoE 专家权重 + CSA indexer QK 路径用 FP4 推理/rollout 内存减半,未来硬件可快 1/3
细粒度 EP 专家分 wave 调度,计算通信完全重叠 加速 1.5~1.73×,RL rollout 可达 1.96×
TileLang 自研 DSL,集成 Z3 SMT 求解器 Host 开销 <1μs(原数百μs)
异构 KV Cache CSA/HCA/SWA 分开管理,支持磁盘存储 共享 prefix 无需重新 prefill
华为昇腾验证 EP 方案同时在 NVIDIA GPU 和华为昇腾 NPU 验证 首次官方文档并列两家硬件

3.4 后训练:OPD 范式

流程

  1. 分领域独立训练专家(数学/代码/Agent/指令遵循/写作......共 10+)
  2. 每个专家经过 SFT → GRPO RL 两阶段
  3. 多教师 OPD:学生用 reverse KL loss 向所有老师靠拢
  4. 用全词表 logit 分布(不做 token-level 近似),梯度更稳定

工程支撑:老师参数 offload 到存储,按需加载;只缓存最后一层 hidden state,重建 logits 时再过 prediction head(节省显存)。

3.5 三种推理模式

模式 特点 上下文 适用
Non-think 快速直觉 8K 日常对话、快速查询
Think High 复杂推理 128K 代码、数学、分析
Think Max 极限推理(特殊 system prompt) 384K 竞赛、科研、工程

新增:Quick Instruction------把辅助任务(判断是否需要搜索、生成标题、判断域名权威性)编码为特殊 token,复用已有 KV Cache 并行执行,消除冗余 prefill。


四、2026 年开源模型架构横向对比

4.1 规格对比表

模型 机构 总参数 激活参数 上下文 开源协议 技术报告
DeepSeek V4-Pro DeepSeek 1.6T 49B 1M Apache 2.0 ✅ 2026.04
Kimi K2.6 MoonshotAI 1T 32B 128K Apache 2.0 ✅ arXiv 2507.20534
GLM-5.1 智谱 744B 40B 200K MIT ✅ 技术报告
MiniMax M2.7 MiniMax 230B 10B 200K 部分开源 ✅ 技术报告
LLaMA 4 Scout Meta 109B 17B 10M Llama 4 ⚠️ ✅ arXiv 2601.11659
LLaMA 4 Maverick Meta 400B 17B 1M Llama 4 ⚠️ ✅ 同上
Qwen3.6 阿里 未披露 未披露 128K Apache 2.0 ✅ arXiv 2505.09388
Hy3 Preview 腾讯 295B 21B 256K 开源 ✅ 2026.04

4.2 各家核心技术创新

Kimi K2 / K2.6(MuonClip 首创)

MuonClip:Muon 的改进版本,在 Newton-Schulz 正交化前先做梯度裁剪,解决了原版 Muon 在万亿参数 MoE 训练中的梯度爆炸问题。K2(2025.07)是第一个在 1T 参数 MoE 上稳定使用 Muon 的工作。

K2.6 特性

  • 支持 300 子 Agent 并行协同
  • 连续编码 13 小时(长程稳定性极强)
  • 上下文 128K(短板)

技术报告arXiv 2507.20534


GLM-5.1(Slime 异步 RL + DSA)

DSA(Dynamic Sparse Attention)

  • 动态计算每个 token 的注意力稀疏 mask
  • 实现 200K 上下文,幻觉率降低 56%
  • 与 DeepSeek CSA 的差异:DSA 是动态稀疏选择,CSA 是先压缩再稀疏

Slime 异步强化学习框架

  • Actor(轨迹生成)和 Critic(梯度更新)完全异步解耦
  • 解决 RL 训练的速度错配问题(生成慢、训练快)
  • 支持连续数小时工程任务的 RL 训练

评测:SWE-bench Pro 58.4%(声称首个超 GPT-5.4 的开源模型)


MiniMax M2.7(Self-Evolution)

核心哲学:不追大参数,追激活参数效率------230B 总参仅激活 10B。

Self-Evolution 机制

  • 在 20 万个真实 RL 环境中训练
  • 模型对自身输出持续评估和迭代改进
  • 类似 AlphaGo 的自我博弈,但在 LLM 领域

LLaMA 4 Scout(iRoPE,10M 上下文)

iRoPE(Interleaved RoPE)

  • 不是所有层都用旋转位置编码
  • 交错排列"有 RoPE 层"和"无 RoPE 层"
  • 无 RoPE 层可以无位置偏见地关注任意远距离信息
  • 实现 10M tokens 上下文,目前所有模型最长

注意:Llama 4 协议限制商业使用(月活 >7 亿需授权)。


腾讯 Hy3 Preview(快慢思考融合)

核心设计:单模型内置两种推理模式(类似 DeepSeek V4 的 Non-think/Think):

  • no-think 模式:响应速度是深度思考的 1/5,能力基本对齐
  • 深度思考模式:复杂任务

推理效率整体提升 40%,API 定价 1.2 元/百万 tokens(行业最低梯队)。

4.3 技术路线差异矩阵

技术维度 DeepSeek V4 Kimi K2.6 GLM-5.1 LLaMA 4 Scout Hy3
长上下文方案 CSA+HCA压缩(1M) 标准MoE(128K) DSA动态稀疏(200K) iRoPE(10M 标准(256K)
优化器 Muon MuonClip AdamW AdamW AdamW
后训练 OPD多教师蒸馏 GRPO RL Slime异步RL 标准RLHF RL重建
残差连接 mHC流形约束 标准 标准 标准 标准
KV压缩 极致(V3.2的10%) DSA稀疏 标准GQA 标准
多模态 ❌(开发中) ✅ 原生
完全开源 ✅ Apache ✅ Apache ✅ MIT ⚠️ Llama 4 ✅ 开源

五、关键技术词典

注意力机制类

术语 全称 解释
MLA Multi-head Latent Attention DeepSeek V3 的低秩 KV 压缩,减少 KV Cache
CSA Compressed Sparse Attention DeepSeek V4,先压缩再稀疏选择
HCA Heavily Compressed Attention DeepSeek V4,重度压缩(128:1)+ 全量 Attention
DSA Dynamic Sparse Attention GLM-5,动态稀疏掩码
iRoPE Interleaved RoPE LLaMA 4,交错使用有/无位置编码的层
SWA Sliding Window Attention 只关注最近 n 个 token,O(n) 复杂度
GQA Grouped Query Attention 多查询头共享 KV,节省内存

优化器类

术语 解释
AdamW 标准优化器,Adam + 权重衰减
Muon 梯度正交化优化器,Newton-Schulz 迭代,收敛更快
MuonClip Kimi 首创,Muon + 梯度裁剪,解决 MoE 训练不稳定

架构类

术语 解释
MoE Mixture of Experts,多个专家子网络,每次只激活部分
mHC Manifold-Constrained Hyper-Connections,流形约束残差
MTP Multi-Token Prediction,同时预测多个 token,加速推理
FP4/FP8 浮点精度格式,位数越少越省内存但精度越低
QAT Quantization-Aware Training,量化感知训练

训练范式类

术语 解释
GRPO Group Relative Policy Optimization,DeepSeek 发明的 RL 算法
OPD On-Policy Distillation,在策略蒸馏,学生模拟教师分布
Slime 智谱的异步 RL 框架,Actor/Critic 完全解耦
ZeRO Zero Redundancy Optimizer,分布式训练内存优化策略
DualPipe DeepSeek 的双向流水线并行策略

六、核心洞察与行动建议

洞察 1:所有旗舰开源模型都用 MoE,没有例外

2026 年,Dense 架构(参数全激活)在旗舰模型中已经消失。MoE 的核心优势是:用更大的总参数量保持能力,但每次推理只激活小部分参数控制成本

激活参数 / 总参数的比值:

  • DeepSeek V4-Pro:49B / 1.6T = 3.1%
  • Kimi K2.6:32B / 1T = 3.2%
  • GLM-5.1:40B / 744B = 5.4%
  • MiniMax M2.7:10B / 230B = 4.3%

洞察 2:长上下文的下一战场是 Agent 持久化

1M 上下文的真正价值不是替代 RAG,而是让 Agent 能把完整推理历史、工具调用记录、中间状态全部保留在上下文中------AI 的工作记忆升级

DeepSeek V4 的 Interleaved Thinking 明确实现了这一点:工具调用场景中保留所有轮次的推理链。

洞察 3:评测基准的生命周期越来越短

基准 发布 退役/饱和 存活时间
HumanEval 2021 2023(90%+) ~2 年
SWE-bench Verified 2024.08 2026.02 ~18 个月
预测 SWE-bench Pro 2025 ~2027? 缩短中

行动建议:自建私有评测集,每季度轮换 20% 题目,参照 DeepSeek V4 的 R&D Coding Benchmark(真实工程任务)模式。

洞察 4:Muon 优化器正在成为新标配

两个独立顶级团队(Kimi 2025.07,DeepSeek 2026.04)先后验证了 Muon 在大规模 MoE 训练中的优势。这种"英雄所见略同"往往预示行业趋势。

预测:2026 年下半年,主流开源模型将普遍跟进 Muon 或其变体。

洞察 5:AI 的"耐力"问题尚未解决

PaperBench 揭示 AI 在 24 小时后开始"摆烂",而人类博士持续发力。当前 Agent 适合"短跑"(快速完成明确任务),不适合"马拉松"(长期探索性工作)。

行动建议

  • Agent 任务拆成短任务多轮,配合中途检查点
  • 设计主动求助机制:连续 N 次失败 → 自动通知人类接管
  • 参考 OpenClaw 的心跳机制:定期"唤醒" Agent 重新评估进展

附:论文索引

论文 机构 arXiv 发表
AgentBench 清华 KEG 2308.03688 ICLR 2024
SWE-bench Princeton+OpenAI 2310.06770 ICLR 2024
PaperBench OpenAI --- 2025.04
DeepSeek V4 DeepSeek --- 2026.04
Kimi K2 MoonshotAI 2507.20534 2025.07
LLaMA 4 Meta 2601.11659 2026.01
Qwen3 阿里 2505.09388 2025.05

整理:路易乔布斯 | 最后更新:2026-04-24

相关推荐
2603_954708312 小时前
微电网混合控制架构:主从与对等控制的优势融合
分布式·安全·架构·能源·需求分析
许愿OvO2 小时前
MySQL 8.3.0 运维与集群架构实战
运维·mysql·架构
凌云拓界2 小时前
青创赛终评手记:最后的成功
运维·科技·职场和发展·架构·创业创新
heimeiyingwang2 小时前
【架构实战】BFF架构:Backend For Frontends
架构
X54先生(人文科技)2 小时前
ELR核心文明支柱的超长期推演报告
人工智能·开源·ai写作·零知识证明
码点滴2 小时前
上下文压缩不是“丢数据“:Context Compressor 的血缘追踪与 Prefix Cache 保护
人工智能·python·架构·prompt·ai编程
Hello__77773 小时前
开源鸿蒙 Flutter 实战|关于页面完善全流程实现
flutter·开源·harmonyos
会开花的二叉树3 小时前
项目架构与业务逻辑全解
架构
SmartBrain4 小时前
AI技术演进与实战路径洞察
人工智能·架构·aigc