【AI大模型春招面试题9】大模型预训练的核心目标函数（如MLM、NSP、Causal LM）分别是什么？

🎪 摸鱼匠：个人主页

🎒 个人专栏：《大模型岗位面试题》

🥇 没有好的理念，只有脚踏实地！

文章目录

- - 一、核心考点解析
  - 二、深度解析：三大核心目标函数
  - - [1. MLM (Masked Language Modeling) ------ 掩码语言模型](#1. MLM (Masked Language Modeling) —— 掩码语言模型)
    - [2. NSP (Next Sentence Prediction) ------ 下一句预测](#2. NSP (Next Sentence Prediction) —— 下一句预测)
    - [3. Causal LM (Causal Language Modeling) ------ 因果语言模型](#3. Causal LM (Causal Language Modeling) —— 因果语言模型)
  - [三、面试回答案例](#三、面试回答案例)
  - 四、易错点与避坑指南（加分项）
  - 五、进阶思考（杀手锏）

你好！咱们直接切入正题。这道题在大模型算法岗面试中属于"基石级 "考题。面试官问这个，表面是考你知不知道这几个缩写，实则是考察你对模型架构设计哲学、注意力机制差异以及预训练与下游任务对齐的深度理解。

很多候选人容易把这几个概念背得滚瓜烂熟，但一旦问到"为什么GPT不用MLM？"或者"NSP到底有没有用？"，就容易卡壳。

下面我用口语化 + 专业深度的方式，为你拆解这道题的满分回答策略。

一、核心考点解析

面试官想听到的不仅仅是定义，而是：

架构与目标的匹配性：为什么Encoder架构配MLM，Decoder架构配Causal LM？
信息流向的本质：双向上下文（Bidirectional）vs 单向因果（Unidirectional）。
演进逻辑：从BERT到RoBERTa再到LLaMA/GPT-4，目标函数是如何演变的？为什么有的被抛弃了（如NSP）？
工程细节：比如MLM中的Mask策略，Causal LM中的损失计算范围。

二、深度解析：三大核心目标函数

1. MLM (Masked Language Modeling) ------ 掩码语言模型

代表模型：BERT, RoBERTa, ALBERT, ELECTRA (判别式部分)
核心原理 ：
- 做法：随机掩盖输入序列中约15%的Token（其中80%替换为[MASK]，10%随机替换，10%保持不变），让模型根据双向上下文（左边+右边）预测被掩盖的词。
- 数学本质 ：最大化 P ( x m a s k e d ∣ x u n m a s k e d ) P(x_{masked} | x_{unmasked}) P(xmasked∣xunmasked)。
- 架构依赖 ：必须基于Transformer Encoder，因为需要全向注意力机制（Full Attention）。
优势：极大地提升了模型对语义的理解能力，特别适合抽取类任务（如NER、分类、问答）。
劣势/易错点 ：
- 预训练-微调不一致（Pretrain-Finetune Discrepancy） ：预训练时用了[MASK]标记，但微调或推理时没有，导致分布偏移。
- 无法用于生成：因为预测时需要看到未来信息，不能自回归地生成文本。
- 计算效率：只能预测被Mask的部分，虽然RoBERTa去掉了NSP并动态Masking，但相比Causal LM，其并行度在生成场景下为零。

2. NSP (Next Sentence Prediction) ------ 下一句预测

代表模型：原始 BERT
核心原理 ：
- 做法：输入句子对 ( A , B ) (A, B) (A,B)，50%概率 B B B 是 A A A 的下一句（标签IsNext），50%概率 B B B 是随机句子（标签NotNext）。让模型判断两句是否连续。
- 初衷：让模型学习句子间的逻辑关系和篇章结构。
现状与争议（高频考点！） ：
- 太简单了：后续研究（如RoBERTa论文）发现，模型只需要通过主题一致性（Topic Consistency）就能轻松判断，根本学不到深层的逻辑连贯性。
- 结局：被抛弃。RoBERTa直接去掉了NSP，效果反而更好。
- 继任者 ：ALBERT提出了SOP (Sentence Order Prediction)，预测两句的顺序是否颠倒，这比NSP难得多，迫使模型理解逻辑流。
易错点：千万别再说"NSP是大模型标配"。在2026年的今天，主流基座模型（如LLaMA系列）早已不再使用NSP。

3. Causal LM (Causal Language Modeling) ------ 因果语言模型

代表模型：GPT系列, LLaMA, Qwen, PaLM
核心原理 ：
- 做法：标准的**自回归（Auto-regressive）**任务。根据前 t t t 个词预测第 t + 1 t+1 t+1 个词。
- 注意力机制 ：使用Causal Mask（三角掩码） ，确保位置 i i i 只能看到 0 ∼ i 0 \sim i 0∼i 的信息，看不到未来。
- 数学本质 ：最大化似然估计 ∏ t = 1 T P ( x t ∣ x < t ) \prod_{t=1}^{T} P(x_t | x_{<t}) ∏t=1TP(xt∣x<t)。
- 架构依赖 ：基于Transformer Decoder（或Decoder-only）。
优势：
- 天然适配生成：预训练目标和推理过程完全一致，无分布偏移。
- 扩展性强：随着数据量和参数量的增加，效果呈Scale Law线性提升，是目前千亿/万亿参数模型的唯一选择。
易错点 ：
- 损失函数计算范围：在计算Loss时，通常只计算预测部分的Loss（有些实现会忽略Padding或特殊Token），要注意不要算上Shift后的第一个无效位置。
- 双向信息缺失：纯Causal LM在理解"全局语义"上理论上不如BERT，但通过海量数据堆叠，其涌现出的理解能力已弥补了这一短板。

三、面试回答案例

面试官：请讲讲大模型预训练的核心目标函数，比如MLM、NSP和Causal LM的区别，以及它们的适用场景。

候选人（你） ：

"好的，这个问题其实触及了大模型架构设计的核心分水岭。我们可以从信息流向 和任务目标两个维度来看。

首先，MLM（掩码语言模型）是BERT时代的标志。它的核心是'完形填空'，通过随机Mask掉一部分词，利用双向上下文 来预测。这让它成为了最强的'理解者'，非常适合做分类、NER这种需要全局语义的任务。但它有个硬伤，就是预训练时用了[MASK] token，而推理时没有，存在预训练-微调的不一致问题，而且它没法做自回归生成。

其次是NSP（下一句预测） ，这是BERT当初为了学句子关系加的辅助任务。但实话实说，后来的研究（比如RoBERTa）证明它太简单了 ，模型靠猜主题就能做对，学不到真正的逻辑。所以现在的主流模型，像LLaMA、Qwen这些，早就弃用NSP了。如果非要学句子顺序，现在的做法更多是用更难的SOP任务，或者直接靠海量数据的长上下文隐式学习。

最后是目前绝对主流的Causal LM（因果语言模型） ，也就是GPT和LLaMA系列用的。它是单向的 ，只能看左边猜右边。虽然看起来'视野'不如MLM宽，但它的优势在于预训练和推理完全一致，天生适合生成。更重要的是，在大规模数据下，Causal LM展现出了惊人的Scale Law，只要数据够多、模型够大，它的理解能力也能通过'下一个词预测'这个简单任务涌现出来。

总结一下我的观点 ：

如果是做传统的判别式任务且数据量有限，BERT式的MLM 依然有优势；但在当今的**基座大模型（Foundation Model）**时代，Causal LM是绝对的首选，因为它兼顾了生成与理解，且架构最简单、扩展性最好。至于NSP，已经属于历史尘埃了。"

四、易错点与避坑指南（加分项）

别混淆架构 ：
- ❌ 错误：说"GPT使用了MLM"。
- ✅ 正确：GPT使用Causal LM，BERT使用MLM。
NSP的现状 ：
- ❌ 错误：认为所有Transformer预训练都要加NSP。
- ✅ 正确：明确指出NSP已被现代模型（RoBERTa及之后）淘汰，提及SOP作为替代方案会显得你很懂行。
Mask策略细节 ：
- 如果面试官追问MLM细节，要能说出80/10/10原则（80%换MASK，10%随机换词，10%不变），这是为了缓解预训练与微调的分布差异。
损失函数计算 ：
- 对于Causal LM，要清楚Loss是对所有位置（除了第一个）计算的交叉熵之和，而在某些指令微调（SFT）阶段，我们可能只计算Label部分的Loss，忽略Prompt部分的Loss，这是一个很实际的工程点。

五、进阶思考（杀手锏）

如果面试氛围很好，可以顺带提一句：

"其实现在还有一些混合架构的尝试，比如Prefix LM（像GLM那样），前半段双向，后半段单向，试图结合MLM的理解能力和Causal LM的生成能力。但在超大规模模型上，纯粹的Decoder-only (Causal LM) 依然是工程效率和效果的最佳平衡点。"

这样回答，既展示了基础知识的扎实，又体现了对前沿动态的追踪，绝对能拿下高分！