论文精读：大语言模型 (Large Language Models, LLM) —— 一项调查

论文精读：大语言模型 (Large Language Models, LLM) ------ 一项调查

Minaee, Shervin et al. "Large Language Models: A Survey." ArXiv abs/2402.06196 (2024): n. pag.

0. 全文结构导览与阅读路线

论文用一张结构图把全篇组织为"模型谱系---构建方法---使用与增强---数据集---评测---挑战与未来"的闭环：先回答"有什么模型"，再回答"怎么训练/对齐/部署"，最后回答"如何衡量与未来怎么走"。这图是一条工程流水线：数据与架构给出能力上限，对齐与解码决定可用性与风格，RAG/工具/Agent 把模型从静态文本生成推进到可行动系统。

图2解读：这是一张流程式结构图，按章节将论文分成若干块：II 综述 LLM 家族与代表模型，III 讲构建（数据、tokenization、预训练、对齐等），IV 讲使用与增强（prompt、RAG、工具、Agent），V--VI 讲数据集与基准评测，VII 总结挑战与未来方向。

1. LLM 的能力谱系：基础能力、涌现能力与增强能力

论文在引言处用"能力分层"的方式定义 LLM 的关键特征：相比早期预训练语言模型（PLM），LLM 不只是参数更大，而是出现了小模型不明显的涌现能力（in-context learning、指令跟随、多步推理等），并且可以通过外部知识与工具进一步增强，形成面向真实世界的 agent 系统。

图1解读：图像以"能力类别"为骨架，把 LLM 的能力组织成层级结构：底层是语言理解与生成、知识与推理等基础能力；中间强调涌现（例如 ICL 与 CoT 推理）；上层是增强能力（外部知识、工具调用、交互学习），最终指向 AI Agent（感知环境、决策、执行与反馈）。图像的隐含观点是：LLM 的"智能表现"往往来自训练目标与系统增强的叠加，而非单一模型结构。

2. 语言建模的概率基础：从链式分解到神经语言模型

无论是统计语言模型还是大语言模型，其数学核心都是为序列 x1:T=(x1,...,xT)x_{1:T}=(x_1,\dots,x_T)x1:T=(x1,...,xT) 建立概率分布。最基本的链式法则是：

p(x1:T)=∏t=1Tp(xt∣x<t). p(x_{1:T}) = \prod_{t=1}^{T} p(x_t \mid x_{<t}). p(x1:T)=t=1∏Tp(xt∣x<t).

统计语言模型（如 nnn-gram）通过马尔可夫假设缩短条件依赖：

p(xt∣x<t)≈p(xt∣xt−n:t−1). p(x_t \mid x_{<t}) \approx p(x_t \mid x_{t-n:t-1}). p(xt∣x<t)≈p(xt∣xt−n:t−1).

而神经语言模型把离散 token 映射到连续向量空间，用可微函数近似条件分布（例如 softmax 输出）。论文在引言中强调了从"任务特定的早期神经语言模型"走向"任务无关的预训练语言模型（PLM）"的范式跃迁：PLM 先在大规模无标注文本上用自监督目标学习通用表征，再用少量标注数据对齐到具体任务。

3. PLM 到 LLM：三类架构与自监督目标的演化

3.1 编码器模型：BERT 与"掩码重建"的统计含义

BERT 是典型的 encoder-only 结构。论文用图3展示其"预训练---微调"两阶段：预训练用 MLM 与 NSP；微调时在顶层接分类/抽取等任务头。

图3解读：图左侧是预训练：输入句对 A/B，部分 token 被 mask，模型同时做 Mask LM 与 Next Sentence Prediction；图右侧是微调：同一 BERT 主体被复用，通过不同任务头适配 MNLI/NER/SQuAD 等。它强调了一个关键工程事实：通用表示来自预训练目标，而迁移来自"冻结主体 + 少量任务特定参数"。

从数学上看，MLM 可写为在被 mask 的位置集合 MMM 上最大化条件似然：

max⁡θ∑i∈Mlog⁡pθ(xi∣x∖M), \max_\theta \sum_{i\in M}\log p_\theta(x_i\mid x_{\setminus M}), θmaxi∈M∑logpθ(xi∣x∖M),

等价地最小化损失：

L∗MLM(θ)=−∑∗i∈Mlog⁡pθ(xi∣x∖M). \mathcal{L}*{\text{MLM}}(\theta)= -\sum*{i\in M}\log p_\theta(x_i\mid x_{\setminus M}). L∗MLM(θ)=−∑∗i∈Mlogpθ(xi∣x∖M).

这类目标的关键区别在于"可见上下文"是双向的，因此 encoder-only 模型天然擅长理解类任务（分类、抽取、匹配）。论文也据此概括了后续改进（RoBERTa、ALBERT、DeBERTa 等）的主线：更大规模训练、更合理的目标/结构偏置、更高效的参数使用。

3.2 ELECTRA：用 RTD 提高样本效率

论文用图4强调 RTD（replaced token detection）相较 MLM 的"监督密度优势"：MLM 只在少量 mask 位置产生梯度，而 RTD 对每个位置都进行真假判别，从而更样本高效。

图4解读：图像以"预训练 FLOPs"为横轴，"GLUE 分数"为纵轴，用点与曲线对比两类预训练策略。红色（RTD）在较低 FLOPs 下即可达到较高分数，蓝色（MLM）则需要更多计算。右侧子图像是在更细尺度上比较不同步数的 RoBERTa/XLNet 等点位。图像传递的核心信息是：在同等计算预算下，目标函数设计会显著影响效率。

3.3 跨语言与统一预训练：XLM 与 UniLM

论文用图5说明 XLM 的两类目标：单语 MLM 与结合平行语料的 TLM（translation language modeling），其直觉是在预测被 mask 的词时允许跨语言互相对齐，从而学到共享表征。

图5解读：图上半展示单语 MLM：同一语言序列中插入 [MASK]，模型在 Transformer 上下文中恢复 token；下半展示 TLM：把英法平行句拼接，mask 后预测时可同时 attend 两种语言，从而促使表示对齐。

论文用图6说明 UniLM 的统一思想：通过不同 self-attention mask，在同一 Transformer 中模拟双向 LM、左到右 LM 与 seq2seq LM，从而用一套参数覆盖理解与生成。

图6解读：图左是共享参数的统一 LM；图中三块展示三种 attention mask：双向 LM 允许全局可见，左到右 LM 只看左侧，seq2seq 在源段全局可见而目标段因果可见。右侧对应不同任务输入形式（两段文本、单段文本等）。

3.4 解码器模型：GPT 的自回归预训练与迁移

论文在 II-A 中强调 GPT-1/2 为后续 LLM（GPT-3/4）奠基，其关键范式是 decoder-only Transformer 的"生成式预训练 + 任务微调"。

图7解读：左侧是 GPT 结构块（mask self-attention + FFN + LayerNorm 等堆叠），右侧展示把不同任务"拼接成序列"后用同一模型处理：分类、蕴含、相似度、多选题等都被转写为"输入 + 特殊分隔符 + 输出候选"的形式。它体现了自回归模型通过 prompt 统一任务接口的可能性。

自回归预训练目标在原文中以 log-likelihood 形式出现，其标准写法是：

max⁡θlog⁡pθ(x1:T)=max⁡θ∑t=1Tlog⁡pθ(xt∣x<t). \max_\theta \log p_\theta(x_{1:T}) = \max_\theta \sum_{t=1}^{T}\log p_\theta(x_t\mid x_{<t}). θmaxlogpθ(x1:T)=θmaxt=1∑Tlogpθ(xt∣x<t).

令 zt∈R∣V∣z_t\in\mathbb{R}^{|V|}zt∈R∣V∣ 为位置 ttt 的 logits，则

pθ(xt=v∣x<t)=exp⁡(zt,v)∑u∈Vexp⁡(zt,u), p_\theta(x_t=v\mid x_{<t})=\frac{\exp(z_{t,v})}{\sum_{u\in V}\exp(z_{t,u})}, pθ(xt=v∣x<t)=∑u∈Vexp(zt,u)exp(zt,v),

从而最常用的 token 级交叉熵损失为

L∗CLM(θ)=−∑∗t=1Tlog⁡pθ(xt∣x<t). \mathcal{L}*{\text{CLM}}(\theta)= -\sum*{t=1}^{T}\log p_\theta(x_t\mid x_{<t}). L∗CLM(θ)=−∑∗t=1Tlogpθ(xt∣x<t).

（这正是"下一 token 预测"的数学化表达，也是论文在预训练部分强调的 decoder-only 主线。）

4. 三大 LLM 家族与代表模型：从"模型谱系"看关键技术路线

论文在 II-B 以 GPT、LLaMA、PaLM 三条主线组织"最具代表性的 LLM 家族"，并用图8把它们的谱系关系可视化；同时在 II-C 以若干代表模型说明重要技术支线（指令微调、检索增强、MoE、开源权重、对话对齐等）。

图8解读：图像把三大阵营并排画成"族谱树"。左侧是 OpenAI 的 GPT 系列（GPT-1/2/3/4 与 InstructGPT、ChatGPT、CodeX 等分支），中间是 Meta 的 LLaMA 生态（LLaMA、LLaMA-2 及大量衍生指令/对话模型），右侧是 Google 的 PaLM 系列（PaLM、PaLM2、Med-PaLM、Flan-PaLM 等）。该图的重点并非穷举，而是突出"预训练基座 + 对齐/领域适配分支"的演化模式。

4.1 GPT 家族：从规模到涌现，再到 RLHF 驱动的对齐

论文把 GPT-3 视为 LLM 关键节点之一，并特别强调 in-context learning（ICL）：模型在不更新参数的情况下，通过上下文示例"像是在学习"。图9用曲线把这一现象的规模效应展示得很直观：示例数 KKK 增大时准确率上升，且大模型（175B）上升更显著。

图9解读 ：横轴是上下文示例数 KKK（从 zero-shot、one-shot 到 few-shot），纵轴是准确率；同一任务下有"Natural Language Prompt"与"No Prompt"的曲线对比，并分别画出 1.3B/13B/175B 的模型曲线。图像传达的实质结论是：提示不仅提供任务描述，更提供"输入---输出映射"的条件化结构，而大模型更能利用这种条件信息。

对齐方面，论文用图10概括 RLHF 三阶段：先收集示范数据做监督微调（SFT），再收集比较数据训练奖励模型（RM），最后用强化学习（如 PPO）优化策略模型，使输出符合偏好。

图10解读 ：三列分别标注 Step 1/2/3。Step 1 展示标注者给出理想回答用于 SFT；Step 2 展示对同一 prompt 采样多个回答并排序用于训练 RM；Step 3 展示 PPO 迭代：策略生成输出，RM 给出奖励 rkr_krk，用奖励更新策略。该图强调"偏好信号"是对齐的核心数据源。

GPT-4 的能力提升在论文中通过考试型基准的分布图展示（图11）。需要强调的是，这类图更像"可量化的能力剖面"，它证明的是"在这些基准上，系统性能整体右移"，而非宣称模型具有人类式理解。

图11解读：柱状条按"GPT-3.5 表现排序"的考试类别排列，蓝色代表 GPT-3.5，绿色代表 GPT-4（无视觉）。多数条形绿色部分显著高于蓝色，表示 GPT-4 在多个考试上分位数更高。

4.2 LLaMA 家族：开放权重、生态扩散与对话对齐流水线

论文强调 LLaMA 系列的重要性在于"开源/开放权重推动研究与应用生态"。图12给出 LLaMA-2 Chat 的训练管线：预训练得到 base 模型，再经 SFT 与 RLHF 形成 chat 模型，并区分 helpful 与 safety reward 的建模。

图12解读：图左下角是预训练数据到 Llama 2；右侧是 fine-tuning 区，包含 supervised fine-tuning 与 RLHF 环路，RLHF 中又出现 rejection sampling 与 PPO。左上角的人类偏好数据被分流到 Safety RM 与 Helpful RM，说明对齐既包括"有用性"也包括"安全性"。

开源对话模型的可用性对比在图13中被直观展示（以 GPT-4 作为评估者的相对分数为例）：Vicuna-13B 的柱形明显高于早期 Alpaca/LLaMA-13B，接近闭源对话系统的体验层级。

4.3 PaLM 家族：Pathways 规模化训练与大规模指令微调

论文介绍 PaLM 的规模化训练背景（Pathways + TPU）以及后续 U-PaLM、Flan-PaLM 的"持续训练 + 指令微调 + CoT 数据"路线，并用图14展示 Flan-PaLM 微调任务的覆盖面：473 个数据集被归入多个任务组。

图14解读：图中把微调任务分成多个大盒子（如自然指令、CoT 推理、不同任务集合），并把 held-out tasks（如 MMLU、BBH、TyDiQA、MGSM）列在底部，强调"训练任务多样性"与"泛化评测"之间的对应关系。

4.4 其他代表模型：把"关键技术分支"显式化

论文在 II-C 选择了一组代表模型，用来说明 LLM 发展中最重要的技术分支：指令微调范式（FLAN/T0）、规模与超参系统研究（Gopher/Chinchilla）、知识增强与检索增强（ERNIE/RETRO）、稀疏专家模型（GLaM）、开源大模型与长上下文（OPT/BLOOM）、对话安全闭环（Sparrow）、统一预训练目标（UL2）等。

图15用"预训练-微调""提示""指令微调"三种范式并列，指出 instruction tuning 的核心优势在于：同一模型通过多任务指令数据获得更强的零样本/泛化能力。

图17强调 ERNIE 3.0 把大规模文本与知识图谱纳入统一框架，并在结构上融合 auto-regressive 与 auto-encoding 网络，以兼顾理解与生成。

图18展示 RETRO 的检索增强架构：冻结的检索器（如 BERT）在外部库中检索邻居片段，编码后通过 chunked cross-attention（CCA）注入到生成过程，从而在不等比例增加参数的情况下"引入更大外部记忆"。

图19展示 GLaM 的 MoE 层：通过 gating 选择少数专家 FFN 激活，使"参数容量"与"计算量"解耦。

图20给出 OPT 不同规模模型的结构超参（层数、头数、dmodeld_{\text{model}}dmodel、学习率、batch 等），其意义在于把"可复现的开源训练配方"显式化。

图21把 Sparrow 的对齐框架画成"人类参与的持续闭环"：偏好奖励与规则奖励共同驱动强化学习，目标是更 helpful、correct、harmless。

图22展示 UL2 的 mixture-of-denoisers：不同"去噪器"对应不同腐蚀方式与跨度，从而统一多种学习范式与任务范式。

图23展示 BLOOM 的 decoder-only 架构与注意力细节，并在右侧显式标出 ALiBi mask 等长上下文相关机制。

最后，图24给出"代表模型与关键工作"的时间线式概览，强调 LLM 的演进是多条技术线并进：规模化、对齐、检索、MoE、开源、长上下文与系统增强在不同时间点交汇。

5. 如何构建 LLM：从"组件图"到可落地的数学与工程细节（III）

5.1 构建流程的系统视角：数据→分词→预训练→指令微调→对齐

论文在 III 章用图25把构建流程拆为多个可控模块：数据准备（收集、清洗、去重）、tokenization、预训练、指令微调与对齐。

图25解读：图像像"工程流程图"，把训练 LLM 的关键部件串成链条：从数据到 tokenization，再到预训练目标与对齐方法，并暗示后续还要接解码策略与效率优化。它隐含的指导原则是：能力与错误往往可以回溯到流程中的具体环节。

5.2 Transformer：注意力的数学形式与多头机制

论文在 III-A 回顾 Transformer，并用图26给出其上层结构。

图26解读：图像展示 encoder/decoder 堆叠结构，核心模块是 multi-head attention 与 position-wise FFN，并通过残差与归一化稳定训练。它把 Transformer 的"并行可扩展性"显式呈现出来：自注意力在一个层内可以对所有位置同时计算。

注意力机制可用标准的 scaled dot-product 形式写为：

Att(Q,K,V)=softmax!(QK⊤dk)V, \mathrm{Att}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V, Att(Q,K,V)=softmax!(dk QK⊤)V,

其中 Q=XWQ, K=XWK, V=XWVQ=XW_Q,\ K=XW_K,\ V=XW_VQ=XWQ, K=XWK, V=XWV，dkd_kdk 是 key 的维度。多头注意力把表示空间拆成 hhh 个子空间并并行计算：

MHA(X)=Concat(Att1,...,Atth)WO. \mathrm{MHA}(X)=\mathrm{Concat}(\mathrm{Att}_1,\dots,\mathrm{Att}_h)W_O. MHA(X)=Concat(Att1,...,Atth)WO.

从概率视角，softmax 输出可被理解为对"把信息从哪个位置取回来"的离散分布；从优化视角，dk\sqrt{d_k}dk 的缩放用于避免 QK⊤QK^\topQK⊤ 随维度增大而数值爆炸，从而让 softmax 梯度更稳定。

5.3 数据清洗：改变训练分布的"漏斗效应"

论文在 III-B 强调数据质量与过滤、去重对性能的决定性影响，并以 Falcon40B 的 RefinedWeb 过滤流程为例说明：大规模网页数据经过多阶段过滤会被大幅削减，但留下的数据更高质量、更一致。

图27解读 ：这是一个多级漏斗图，展示 CommonCrawl 文档在若干过滤器（规则、模型判别、去重等）后保留比例急剧下降，最终得到高质量子集。图像传达的要点是：训练分布 ptrain(x)p_{\text{train}}(x)ptrain(x) 并非"原始互联网分布"，而是被工程化重塑后的分布，这会直接改变模型学到的先验偏好。

5.4 Tokenization：BPE/WordPiece/SentencePiece 的共同目标

论文在 tokenization 小节强调子词方法的核心作用：在控制词表规模的同时处理 OOV、提升跨域/跨语言泛化。

以 BPE 的"频繁对合并"为例，其迭代可抽象为：在当前符号表 V\mathcal{V}V 与语料统计 C(⋅)C(\cdot)C(⋅) 下选取频数最大的相邻对 (a,b)(a,b)(a,b) 合并为新符号 ababab。若用极简形式表示：

(a∗,b∗)=arg⁡max⁡(a,b)C(a,b),V←V∪ab. (a^*,b^*)=\arg\max_{(a,b)} C(a,b),\qquad \mathcal{V}\leftarrow \mathcal{V}\cup{ab}. (a∗,b∗)=arg(a,b)maxC(a,b),V←V∪ab.

这种机制的统计意义在于：把高频字符串"凝结"为稳定 token，使模型更容易学习词形与语义，而把低频词拆为可复用的子结构，降低稀疏性。

5.5 位置编码：把"顺序"注入注意力相似度（图28）

论文并列介绍绝对位置嵌入、相对位置嵌入、RoPE 与相对位置偏置（如 ALiBi），并用图28把四者放在同一张图中对比。

图28解读：四张子图分别对应四种把位置信息引入注意力的方式。APE 是把位置向量直接加到 token embedding；RPE 是在注意力打分中显式加入相对距离项；RoPE 用旋转变换把位置编码到 query/key 的几何结构里；ALiBi 则以线性偏置惩罚远距离注意力。整体信息是：长上下文能力不仅取决于模型规模，也高度取决于位置机制的"外推性"。

在数学上，正弦位置编码（经典 Transformer 版本）常写为：

PE(pos,2i)=sin⁡!(pos100002i/d),PE(pos,2i+1)=cos⁡!(pos100002i/d). \mathrm{PE}(pos,2i)=\sin!\left(\frac{pos}{10000^{2i/d}}\right),\qquad \mathrm{PE}(pos,2i+1)=\cos!\left(\frac{pos}{10000^{2i/d}}\right). PE(pos,2i)=sin!(100002i/dpos),PE(pos,2i+1)=cos!(100002i/dpos).

ALiBi 的思想可概括为：对注意力分数加入与距离成比例的偏置，设 sij=qi⊤kjdks_{ij}=\frac{q_i^\top k_j}{\sqrt{d_k}}sij=dk qi⊤kj，则

s~∗ij=s∗ij−m⋅(i−j), \tilde{s}*{ij}=s*{ij}-m\cdot (i-j), s~∗ij=s∗ij−m⋅(i−j),

其中 m>0m>0m>0（可按 head 设定），使得越远的历史位置越难被关注，从而在长长度上更稳健外推。

5.6 稀疏专家模型：MoE 把"参数容量"与"计算量"解耦（图29）

论文在预训练技术中强调 MoE，并用图29（Switch Transformer）展示把 dense FFN 替换为 switch FFN 的方式。

图29解读：图中把标准 Transformer block 与含 MoE 的 block 并列，突出差异发生在 FFN：MoE 有多个"专家 FFN"，路由器（router）为每个 token 选择少数专家激活。图像直观表达了"稀疏激活"的节省：参数多，但每步只算一小部分。

MoE 的路由可写为：

p(e∣h)=softmax(Wrh)e, p(e\mid h)=\mathrm{softmax}(W_r h)_e, p(e∣h)=softmax(Wrh)e,

Top-kkk 激活的输出：

MoE(h)=∑e∈Top-kp(e∣h),fe(h). \mathrm{MoE}(h)=\sum_{e\in \text{Top-}k} p(e\mid h), f_e(h). MoE(h)=e∈Top-k∑p(e∣h),fe(h).

实际系统中还常加入负载均衡项，防止路由塌缩到少数专家（附录将给出一种常见形式）。

5.7 对齐新趋势：DPO 与 KTO（图30、图31）

论文在对齐部分指出 RLHF 的有效性与复杂性并存，近年来出现了更直接的偏好优化方法；并用图30、图31分别展示 DPO 与 KTO 的动机与流程。

图30解读：图像把 RLHF 管线（需要奖励模型与 RL 优化）与 DPO（直接用偏好对做目标优化）对比，强调 DPO 试图减少系统组件，使训练更稳定、更易实现。

图31解读：图像呈现 KTO 的思路：相较需要"成对偏好"（chosen vs rejected）的 DPO/RLHF，KTO 强调用更易获得的单样本反馈信号进行对齐，从而降低数据采集成本。

正文中我们将给出 DPO 的标准数学形式（源自偏好建模），并在附录把"从偏好概率模型到 DPO 损失"的推导补全，使其与图30的直觉对应。

5.8 解码策略：温度 softmax 与采样控制

论文在解码部分给出温度 softmax 形式（用于控制输出随机性）。其标准写法为：

softmaxT(zi)=ezi/T∑jezj/T. \mathrm{softmax}_T(z_i)=\frac{e^{z_i/T}}{\sum_j e^{z_j/T}}. softmaxT(zi)=∑jezj/Tezi/T.

当 T→0+T\to 0^+T→0+，分布趋于 arg⁡max⁡\arg\maxargmax（近似贪心）；当 TTT 变大，分布更平坦、熵更高。论文同时讨论了 top-kkk 与 top-ppp（nucleus sampling）等截断采样策略，这可被理解为在集合 S\mathcal{S}S 上做条件化重归一：

pS(v)=p(v∣v∈S)=p(v)∑u∈Sp(u). p_{\mathcal{S}}(v)=p(v\mid v\in\mathcal{S})=\frac{p(v)}{\sum_{u\in\mathcal{S}}p(u)}. pS(v)=p(v∣v∈S)=∑u∈Sp(u)p(v).

5.9 成本优化：RWKV、复杂度对比、LoRA 与蒸馏（图32--图35）

论文在效率章节提到非 Transformer 的 LLM（如 RWKV）以及复杂度对比，并给出 LoRA 与蒸馏的示意图。

图32--33解读 ：图32强调 RWKV 试图在序列建模中融合 RNN 风格的递推与 Transformer 的表达优势；图33则以表格/坐标形式对比不同架构对序列长度 TTT 的复杂度（典型自注意力为 O(T2)O(T^2)O(T2)），突出长上下文场景下"复杂度结构"本身就是性能与成本的瓶颈。

论文重点介绍 LoRA（低秩适配）并在图34形象说明"冻结大模型权重，仅训练低秩增量"。

在数学上，设预训练权重为 W0∈Rd×kW_0\in\mathbb{R}^{d\times k}W0∈Rd×k，LoRA 将微调增量约束为秩 rrr 的分解：

W=W0+ΔW,ΔW=BA,B∈Rd×r, A∈Rr×k, r≪min⁡(d,k). W = W_0+\Delta W,\qquad \Delta W = BA,\quad B\in\mathbb{R}^{d\times r},\ A\in\mathbb{R}^{r\times k},\ r\ll \min(d,k). W=W0+ΔW,ΔW=BA,B∈Rd×r, A∈Rr×k, r≪min(d,k).

对输入 x∈Rkx\in\mathbb{R}^{k}x∈Rk，前向为：

h=Wx=W0x+BAx. h = W x = W_0x + BAx. h=Wx=W0x+BAx.

其新增参数量为 r(d+k)r(d+k)r(d+k)，远小于原始 dkdkdk，解释了论文强调的"参数高效微调"。

蒸馏框架在图35中被总结为 teacher--student：teacher 输出软目标，student 学习模仿以获得更小模型。

6. 如何使用与增强：Prompt、RAG、工具与 Agent（IV）

论文在 IV 章的核心观点是：LLM 本质上是静态的条件生成模型，而现实系统需要动态信息、可控性与可验证性；因此必须用 prompt 工程、检索增强（RAG）、外部工具与 agent 框架把模型嵌入闭环。总览图36把这些主题整合到同一张系统图中。

图36解读：图像把四类内容并列：其一是 LLM 局限与幻觉评估；其二是提示工程方法簇（CoT/ToT/自一致性/反思/自动提示生成等）；其三是 RAG（检索---增强---生成）及其工具链；其四是外部工具与 agent 系统（规划、执行、记忆、反馈）。图像隐含一个实践准则：可靠系统往往是"模型 + 结构化外部组件"的组合。

6.1 提示工程：把"任务条件"显式注入 pθ(y∣x)p_\theta(y\mid x)pθ(y∣x)

论文在提示工程部分提到 CoT（chain-of-thought）、ToT（tree-of-thought）、self-consistency、reflection、APE（automatic prompt engineering）等方法，其共同点是：不改变参数，而是通过改变条件输入 xxx 的结构，让模型在条件分布 pθ(y∣x)p_\theta(y\mid x)pθ(y∣x) 上落入更可控/更具推理性的区域。

用一个统一表述可以把提示工程理解为"条件化重写"：设原始输入为 xxx，经提示模板 π(⋅)\pi(\cdot)π(⋅) 变为 x′=π(x)x'=\pi(x)x′=π(x)，则生成分布从 pθ(y∣x)p_\theta(y\mid x)pθ(y∣x) 变为 pθ(y∣x′)p_\theta(y\mid x')pθ(y∣x′)。CoT/ToT 的核心是让 x′x'x′ 强制包含中间推理结构，从而提高最终答案的可解释性与正确率（尽管中间文本并不等价于真实思维过程）。

6.2 RAG：把"外部知识"作为隐变量注入生成（图37、图38）

论文指出 LLM 的一个根本限制是知识可能过时或缺乏私域信息，RAG 因此成为关键增强范式。图37用问答场景画出了 RAG 的基本环路：从输入抽取 query，到外部知识源检索，再把检索结果拼到增强上下文中交给 LLM 生成。

图37解读：图中用编号 1--5 标注步骤：1 输入 prompt+query；2 抽取 query；3 在知识源（文档库/数据库）检索相关信息；4 把检索片段加入增强上下文；5 LLM endpoint 生成最终回答。它强调检索不是一次性"查资料"，而是生成过程的显式条件。

论文同时给出知识图谱作为 retriever 的示例（图38），说明"检索"不局限于文本库，也可以是结构化知识。

从概率角度，RAG 可以写成带隐变量 ddd（检索到的文档/证据）的条件生成：

p(y∣x)=∑dp(y∣x,d),p(d∣x). p(y\mid x)=\sum_{d} p(y\mid x,d),p(d\mid x). p(y∣x)=d∑p(y∣x,d),p(d∣x).

实际系统通常用 top-KKK 近似：

p(y∣x)≈∑d∈TopK(x)p(y∣x,d),p(d∣x), p(y\mid x)\approx \sum_{d\in \mathrm{TopK}(x)} p(y\mid x,d),p(d\mid x), p(y∣x)≈d∈TopK(x)∑p(y∣x,d),p(d∣x),

并且常进一步采用"拼接上下文"把 ddd 直接并入输入，从而用单次解码近似实现 p(y∣x,d)p(y\mid x,d)p(y∣x,d).（附录将对这一近似的统计含义做进一步解释。）

6.3 工具调用与 Agent：从"生成文本"走向"行动闭环"（图39、图40）

论文把工具（tools）视为 RAG 的一般化：不仅能检索信息，还能调用任意外部 API/函数，实现计算、执行、购买、控制等行动。进一步，把 LLM 放在包含记忆、策略、执行器、评估器的系统中，就得到 agent。

图39展示 HuggingGPT 的 agent 式工具编排：LLM 负责规划与调度，外部模型/工具完成具体子任务。

图40展示对话式信息检索 agent：工作记忆跟踪对话状态，policy 选择行动，executor 执行检索/生成，utility 模块评估对齐程度并反馈改进。

6.4 幻觉：定义、类型与评估困难

论文沿用主流定义，把幻觉视为"生成内容不忠于来源或不可证实"，并区分内在幻觉（与给定来源冲突）与外在幻觉（无法核验）。同时，论文指出传统文本相似度指标（ROUGE、BLEU）更偏向表面匹配，难以覆盖事实一致性；模型判别式指标（如 BERTScore、NLI/QA-based 指标）虽然更语义化，但引入"用模型评估模型"的误差链。

7. 数据集与评测：能力导向的基准组织（V--VI）

7.1 数据集的"应用分布"与"许可证分布"（图41、图42）

论文在 V 章强调：LLM 的应用已从传统 NLP 扩展到代码、金融等多领域，因此数据集也应按能力/应用维度分类。图41与图42分别从"应用类别"和"许可证"角度对数据集进行统计式概览。

图41--42解读：图41用分类统计展示数据集覆盖的应用面（例如通用语言任务、推理、工具/对话等）；图42则统计不同许可协议下的数据集比例，暗示"可用数据"不仅受技术约束，也受法律与合规约束。

7.2 评测指标：从分类指标到生成指标，再到对话指标

论文在 VI-A 概括了指标谱系：选择式任务可用 accuracy、precision、recall、F1；生成式任务常用 ROUGE、BLEU，但这些多是基于 nnn-gram 的表面相似，难以评估事实性；对话/阅读理解场景出现 HEQ（human equivalence score）等指标，用"是否超过人类平均 F1"定义等价性。

把 accuracy 与 F1 写成数学形式有助于理解其差异。设二分类下 TP/FP/FN 分别为真阳/假阳/假阴，则

Precision=TPTP+FP,Recall=TPTP+FN,F1=2⋅Precision⋅RecallPrecision+Recall. \mathrm{Precision}=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}},\quad \mathrm{Recall}=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}},\quad \mathrm{F1}=\frac{2\cdot \mathrm{Precision}\cdot \mathrm{Recall}}{\mathrm{Precision}+\mathrm{Recall}}. Precision=TP+FPTP,Recall=TP+FNTP,F1=Precision+Recall2⋅Precision⋅Recall.

生成指标 BLEU（简化理解）以 nnn-gram 精确率乘以 brevity penalty 表征相似度；ROUGE 更偏召回视角。论文的态度很明确：这些指标在"有参考答案"的场景有用，但对开放生成与事实一致性不充分。

7.3 代表模型在基准上的表现：差异来自"数据+对齐+规模+系统增强"的组合

论文在 VI-B 以多张表格汇总不同能力维度的代表性结果，并提醒读者：各模型并未在所有基准上完整报告，横向比较要谨慎。

从这些汇总可以抽象出一条更稳定的解释框架：

模型性能并非只由参数规模决定，而是由训练 token 数与数据质量、对齐方法（SFT/RLHF/DPO/KTO 等）、推理策略（解码与自一致性）、以及是否引入检索/工具增强共同决定。就这一点而言，论文把"LLM 表现"从单模型研究转向系统工程研究，具有方法论意义。

7.4 LLM 分类体系（图43）与表格定义

论文在 VI-A 给出 LLM 的分类维度（规模、类型、来源、可用性等），并用图43做可视化总结。

图43解读：图中把模型按多个维度分桶，例如参数规模（small/medium/large/very large）、类型（foundation/instruction/chat）、可用性（公开/非公开）、来源（原始/微调）。其价值在于给"模型名混乱"提供统一坐标系：同名不同版本（base vs chat）在行为上可能完全不同。

附录：原文数学推导补全

A. 从极大似然到交叉熵与困惑度：为何自回归预训练等价于最小化 KL

设真实数据分布为 pdata(x1:T)p_{\text{data}}(x_{1:T})pdata(x1:T)，模型分布为 pθ(x1:T)p_\theta(x_{1:T})pθ(x1:T)。最大化期望对数似然：

max⁡θ E∗x∼p∗data[log⁡pθ(x)]. \max_\theta\ \mathbb{E}*{x\sim p*{\text{data}}}\big[\log p_\theta(x)\big]. θmax E∗x∼p∗data[logpθ(x)].

注意 KL 散度：

KL!(pdata∣pθ)=E∗x∼p∗data![log⁡pdata(x)pθ(x)]=E∗x∼p∗data[log⁡pdata(x)]−E∗x∼p∗data[log⁡pθ(x)]. \mathrm{KL}!\left(p_{\text{data}}|p_\theta\right) =\mathbb{E}*{x\sim p*{\text{data}}}!\left[\log\frac{p_{\text{data}}(x)}{p_\theta(x)}\right] =\mathbb{E}*{x\sim p*{\text{data}}}[\log p_{\text{data}}(x)]-\mathbb{E}*{x\sim p*{\text{data}}}[\log p_\theta(x)]. KL!(pdata∣pθ)=E∗x∼p∗data![logpθ(x)pdata(x)]=E∗x∼p∗data[logpdata(x)]−E∗x∼p∗data[logpθ(x)].

其中第一项与 θ\thetaθ 无关，因此

max⁡θ E∗x∼p∗data[log⁡pθ(x)]⟺min⁡θ KL(pdata∣pθ). \max_\theta\ \mathbb{E}*{x\sim p*{\text{data}}}[\log p_\theta(x)] \quad\Longleftrightarrow\quad \min_\theta\ \mathrm{KL}(p_{\text{data}}|p_\theta). θmax E∗x∼p∗data[logpθ(x)]⟺θmin KL(pdata∣pθ).

对自回归分解 pθ(x)=∏tpθ(xt∣x<t)p_\theta(x)=\prod_t p_\theta(x_t\mid x_{<t})pθ(x)=∏tpθ(xt∣x<t)，负对数似然为：

−log⁡pθ(x)=∑t=1T−log⁡pθ(xt∣x<t), -\log p_\theta(x)=\sum_{t=1}^{T} -\log p_\theta(x_t\mid x_{<t}), −logpθ(x)=t=1∑T−logpθ(xt∣x<t),

这就是 token 级交叉熵损失。困惑度（perplexity）定义为平均负对数似然的指数：

PPL=exp⁡(1T∑t=1T−log⁡pθ(xt∣x<t)). \mathrm{PPL}=\exp\left(\frac{1}{T}\sum_{t=1}^{T}-\log p_\theta(x_t\mid x_{<t})\right). PPL=exp(T1t=1∑T−logpθ(xt∣x<t)).

因此"降低困惑度"与"提高对数似然"完全等价；更深层地，它等价于让模型分布在 KL 意义上逼近数据分布。

B. MLM 目标的统计本质：伪似然（pseudo-likelihood）与信息利用差异

MLM 的目标是最大化被 mask token 的条件概率：

L∗MLM(θ)=−∑∗i∈Mlog⁡pθ(xi∣x∖M). \mathcal{L}*{\text{MLM}}(\theta)= -\sum*{i\in M}\log p_\theta(x_i\mid x_{\setminus M}). L∗MLM(θ)=−∑∗i∈Mlogpθ(xi∣x∖M).

与自回归不同，MLM 并非对 pθ(x1:T)p_\theta(x_{1:T})pθ(x1:T) 的严格似然最大化（因为它不对应一个唯一的、可直接写出的联合分布分解），更接近一种伪似然思想：用一组条件分布的乘积近似联合分布。经典伪似然可写为：

log⁡p~∗θ(x)=∑∗t=1Tlog⁡pθ(xt∣x∖t). \log \tilde{p}*\theta(x)=\sum*{t=1}^{T}\log p_\theta(x_t\mid x_{\setminus t}). logp~∗θ(x)=∑∗t=1Tlogpθ(xt∣x∖t).

MLM 是在随机子集 MMM 上对该目标做稀疏采样估计。它的优势是利用双向上下文的信息量更大；劣势是生成时需要额外机制（如把 MLM 模型改成 seq2seq 或结合其他目标），因此在"开放式生成"上通常不如纯自回归自然。

C. 温度缩放的熵与"Boltzmann 分布"解释：为何 TTT 控制随机性

给定 logits zzz，温度采样分布：

pT(i)=ezi/T∑jezj/T. p_T(i)=\frac{e^{z_i/T}}{\sum_j e^{z_j/T}}. pT(i)=∑jezj/Tezi/T.

这与统计物理的 Boltzmann 分布同构，其中"能量"可视作 Ei=−ziE_i=-z_iEi=−zi，"温度"就是 TTT。当 TTT 增大，分布更接近均匀，熵 H(pT)H(p_T)H(pT) 增大；当 TTT 变小，概率质量集中到最大 logit，熵下降。可用一个定性结论表达：

T1<T2 ⇒ pT1 更尖锐（更低熵）,pT2 更平坦（更高熵）. T_1<T_2\ \Rightarrow\ p_{T_1}\ \text{更尖锐（更低熵）},\quad p_{T_2}\ \text{更平坦（更高熵）}. T1<T2 ⇒ pT1 更尖锐（更低熵）,pT2 更平坦（更高熵）.

因此温度不是"让模型更聪明"，而是改变采样分布的探索程度；在事实性任务中常取更低 TTT，在创作任务中常取更高 TTT。

D. 从偏好概率模型推导 DPO：把对齐化为"带参考策略的成对对数似然"

设给定输入 xxx，人类对两个回答 y+y^+y+（偏好）与 y−y^-y−（不偏好）给出比较。常用 Bradley--Terry/Luce 型偏好模型：

P(y+≻y−∣x)=σ(r(x,y+)−r(x,y−)), \mathbb{P}(y^+\succ y^-\mid x) =\sigma\big(r(x,y^+)-r(x,y^-)\big), P(y+≻y−∣x)=σ(r(x,y+)−r(x,y−)),

其中 σ(u)=11+e−u\sigma(u)=\frac{1}{1+e^{-u}}σ(u)=1+e−u1，r(x,y)r(x,y)r(x,y) 是"潜在奖励"。RLHF 的做法是先拟合 rrr 再做 RL。DPO 的关键在于把"奖励差"与"策略对数比"联系起来：假设存在参考策略 πref\pi_{\text{ref}}πref，并定义优化目标策略 πθ\pi_\thetaπθ。在一类最大熵/相对熵约束的设定下，可得到奖励与策略比值的关系（直观上：更高奖励的输出在目标策略下相对参考策略更常见）：

r(x,y)∝βlog⁡πθ(y∣x)πref(y∣x), r(x,y)\propto \beta \log\frac{\pi_\theta(y\mid x)}{\pi_{\text{ref}}(y\mid x)}, r(x,y)∝βlogπref(y∣x)πθ(y∣x),

于是奖励差：

r(x,y+)−r(x,y−)∝β[log⁡πθ(y+∣x)πref(y+∣x)−log⁡πθ(y−∣x)πref(y−∣x)]. r(x,y^+)-r(x,y^-)\propto \beta\left[ \log\frac{\pi_\theta(y^+\mid x)}{\pi_{\text{ref}}(y^+\mid x)} -\log\frac{\pi_\theta(y^-\mid x)}{\pi_{\text{ref}}(y^-\mid x)} \right]. r(x,y+)−r(x,y−)∝β[logπref(y+∣x)πθ(y+∣x)−logπref(y−∣x)πθ(y−∣x)].

代回偏好概率并对数据最大化对数似然，得到 DPO 损失（常见写法）：

L∗DPO(θ)=−E∗(x,y+,y−)[log⁡σ(β(log⁡πθ(y+∣x)πref(y+∣x)−log⁡πθ(y−∣x)πref(y−∣x)))]. \mathcal{L}*{\text{DPO}}(\theta)= -\mathbb{E}*{(x,y^+,y^-)}\left[ \log \sigma\left( \beta\left( \log\frac{\pi_\theta(y^+\mid x)}{\pi_{\text{ref}}(y^+\mid x)} -\log\frac{\pi_\theta(y^-\mid x)}{\pi_{\text{ref}}(y^-\mid x)} \right)\right) \right]. L∗DPO(θ)=−E∗(x,y+,y−)[logσ(β(logπref(y+∣x)πθ(y+∣x)−logπref(y−∣x)πθ(y−∣x)))].

这解释了图30的流程对比：DPO 不需要显式训练奖励模型并跑 PPO，而是把偏好学习直接变成"成对对数似然"的监督优化；β\betaβ 起到"对齐强度/温度"的作用，控制偏好信号对策略更新的影响。

E. KTO 的一种统一理解：从成对偏好到单样本"可接受性"反馈

若偏好数据更容易以"单个回答是否可接受（good/bad）"形式获得，可设标签 s∈+1,−1s\in{+1,-1}s∈+1,−1 表示接受/拒绝。一个与 DPO 兼容的写法是：仍然用参考策略 πref\pi_{\text{ref}}πref 作为基准，把目标策略相对参考策略的对数优势定义为：

Δθ(x,y)=log⁡πθ(y∣x)πref(y∣x). \Delta_\theta(x,y)=\log\frac{\pi_\theta(y\mid x)}{\pi_{\text{ref}}(y\mid x)}. Δθ(x,y)=logπref(y∣x)πθ(y∣x).

则可用 logistic 回归式目标学习 sss：

L∗KTO(θ)=−E∗(x,y,s)[log⁡σ(s⋅βΔθ(x,y))]. \mathcal{L}*{\text{KTO}}(\theta)= -\mathbb{E}*{(x,y,s)}\left[\log \sigma\big(s\cdot \beta \Delta_\theta(x,y)\big)\right]. L∗KTO(θ)=−E∗(x,y,s)[logσ(s⋅βΔθ(x,y))].

当 s=+1s=+1s=+1（好回答），目标倾向于让 πθ\pi_\thetaπθ 相对 πref\pi_{\text{ref}}πref 提高该回答概率；当 s=−1s=-1s=−1（坏回答），则相反。与 DPO 相比，它不需要 (y+,y−)(y^+,y^-)(y+,y−) 成对结构，因而更贴近图31强调的"低成本反馈对齐"。

F. LoRA 的低秩约束为何有效：子空间适配与参数/显存节省的定量关系

LoRA 将权重更新限制为 ΔW=BA\Delta W=BAΔW=BA，其中 rank(ΔW)≤r\mathrm{rank}(\Delta W)\le rrank(ΔW)≤r。这等价于假设"下游任务的最优更新方向"落在一个 rrr 维子空间中。更直观地，令 u=Ax∈Rru=Ax\in\mathbb{R}^ru=Ax∈Rr，则

ΔWx=B(Ax)=Bu, \Delta W x = B(Ax)=Bu, ΔWx=B(Ax)=Bu,

意味着更新后的表示只能通过 rrr 维瓶颈向量 uuu 影响输出，rrr 控制了适配自由度。参数量对比：

dk⏟∗全量微调vsr(d+k)⏟∗LoRA 新增. \underbrace{dk}*{\text{全量微调}} \quad \text{vs}\quad \underbrace{r(d+k)}*{\text{LoRA 新增}}. dk∗全量微调vs r(d+k)∗LoRA 新增.

当 d≈kd\approx kd≈k 且 r≪dr\ll dr≪d 时，LoRA 参数占比约为 2rd\frac{2r}{d}d2r，例如 d=4096, r=16d=4096,\ r=16d=4096, r=16 时占比约 0.780.78%0.78，这解释了其在大模型微调中的显著优势。图34中常出现缩放 α/r\alpha/rα/r，其作用可理解为把有效更新幅度与秩 rrr 解耦，避免 rrr 改变时更新尺度剧烈波动。

G. MoE 的负载均衡：为何需要额外正则项

MoE 的风险是路由塌缩：大多数 token 被分到少数专家，导致这些专家过载且训练不稳定。常见做法是加入负载均衡损失。设 batch 内 token 路由到专家 eee 的概率均值为 pˉe\bar{p}_epˉe，实际分配比例为 fˉe\bar{f}_efˉe，则一种典型正则是鼓励两者接近均匀分布，例如：

L∗lb=∣E∣∑∗e=1∣E∣pˉefˉe, \mathcal{L}*{\text{lb}}=|E|\sum*{e=1}^{|E|}\bar{p}_e\bar{f}_e, L∗lb=∣E∣∑∗e=1∣E∣pˉefˉe,

或使用熵/方差形式鼓励均匀。其本质是把"稀疏激活带来的效率"与"训练稳定性"同时纳入目标。

H. RAG 的隐变量视角与 top-KKK 近似误差：何时会"检索噪声放大"

在

p(y∣x)=∑dp(y∣x,d),p(d∣x) p(y\mid x)=\sum_d p(y\mid x,d),p(d\mid x) p(y∣x)=d∑p(y∣x,d),p(d∣x)

中，若检索分布 p(d∣x)p(d\mid x)p(d∣x) 的质量不高（召回不足或噪声高），top-KKK 近似会出现两类误差：

其一是截断误差：正确证据 d∗d^*d∗ 不在 top-KKK；其二是条件漂移：拼接噪声证据使 p(y∣x,d)p(y\mid x,d)p(y∣x,d) 的生成分布偏离真实意图。形式上，若定义截断集合 DK\mathcal{D}_KDK，则误差上界与 p(d∗∉DK∣x)p(d^*\notin\mathcal{D}_K\mid x)p(d∗∈/DK∣x) 强相关；而条件漂移可通过比较

KL!(pθ(⋅∣x) ∣ pθ(⋅∣x,DK)) \mathrm{KL}!\left(p_\theta(\cdot\mid x)\ |\ p_\theta(\cdot\mid x,\mathcal{D}_K)\right) KL!(pθ(⋅∣x) ∣ pθ(⋅∣x,DK))

来量化。实践中"检索增强反而变差"的常见原因，正是噪声证据导致模型把注意力分配到错误片段上。

I. 后注意力范式的一个数学入口：结构化状态空间模型（SSM）的离散递推

论文在挑战部分提到 SSM（S4、Mamba、Hyena 等）。一个经典线性 SSM 可写为连续时间形式：

s˙(t)=As(t)+Bu(t),y(t)=Cs(t)+Du(t), \dot{s}(t)=As(t)+Bu(t),\qquad y(t)=Cs(t)+Du(t), s˙(t)=As(t)+Bu(t),y(t)=Cs(t)+Du(t),

离散化（步长 Δt\Delta tΔt）后可得递推：

st+1=Aˉst+Bˉut,yt=Cˉst+Dˉut. s_{t+1}=\bar{A}s_t+\bar{B}u_t,\qquad y_t=\bar{C}s_t+\bar{D}u_t. st+1=Aˉst+Bˉut,yt=Cˉst+Dˉut.

其中 Aˉ,Bˉ\bar{A},\bar{B}Aˉ,Bˉ 由 A,BA,BA,B 的离散化方案决定。与注意力不同，这类模型通过状态递推实现长程依赖，理论上可实现接近线性的序列计算复杂度，从而成为论文所说"post-attention"候选路线之一。