AI-大语言模型LLM-概念术语-Causal LM

目的

为避免一学就会、一用就废,这里做下笔记

内容

Causal LM(因果语言模型)

核心定义

Causal LM ,也称为自回归语言模型 ,是一种只关注单向上下文 的语言模型。在预测下一个词时,它只能看到前面的词 ,不能看到后面的词

技术特点

复制代码
输入: "今天天气很"
预测下一个词时,只能看到: [今天][天气][很]
不能看到后面的任何信息
输出预测: "好"、"晴朗"、"糟糕"等

数学表示

对于序列 ( x 1 , x 2 , . . . , x T ( x_1, x_2, ..., x_T (x1,x2,...,xT):
P ( x t ∣ x 1 , x 2 , . . . , x t − 1 ) P(x_t | x_1, x_2, ..., x_{t-1}) P(xt∣x1,x2,...,xt−1)
只依赖前面所有词的条件概率。

与Causal LM互斥的概念

1. Masked LM(掩码语言模型)

这是最直接、最核心的互斥概念。

特性 Causal LM Masked LM
关注方向 单向(前向) 双向上下文
训练目标 预测下一个词 预测被遮盖的词
典型代表 GPT系列 BERT, RoBERTa
可否用于生成 (核心用途) 不适合直接生成
可否用于分类 可以但非最优 (核心用途)

示例对比

python 复制代码
# Causal LM(GPT风格)
输入: "今天天气很[MASK]"  # 模型不知道后面有什么
训练: 预测"好"只能基于"今天天气很"

# Masked LM(BERT风格)  
输入: "今天天气很[MASK],适合出去玩"
训练: 预测"好"可以同时看到前面和后面的信息

2. Seq2Seq LM(序列到序列语言模型)

特性 Causal LM Seq2Seq LM
架构 单一Transformer解码器 编码器-解码器双结构
上下文 只关注源序列前缀 编码器看全部源序列,解码器自回归
典型代表 GPT, LLaMA T5, BART, 原始Transformer
训练目标 语言建模 条件文本生成

具体技术细节对比

注意力掩码的区别

python 复制代码
# Causal LM的注意力掩码(下三角矩阵)
[[1, 0, 0, 0],  # 第一个词只能看自己
 [1, 1, 0, 0],  # 第二个词能看到前两个
 [1, 1, 1, 0],  # 第三个词能看到前三个
 [1, 1, 1, 1]]  # 第四个词能看到全部前面

# Masked LM的注意力掩码(全连接,除了MASK位置)
[[1, 1, 1, 1, 1, 1],
 [1, 1, 1, 1, 1, 1], 
 [1, 1, 1, 0, 1, 1],  # MASK位置不能看自己,但能看其他所有
 [1, 1, 1, 1, 1, 1],
 [1, 1, 1, 1, 1, 1],
 [1, 1, 1, 1, 1, 1]]

训练目标函数

Causal LM损失(下一个词预测)
l o s s = − ∑ l o g P ( x t ∣ x < t ) loss = -∑ log P(x_t | x_{<t}) loss=−∑logP(xt∣x<t)

Masked LM损失(完形填空)
l o s s = − ∑ l o g P ( x m a s k e d ∣ x v i s i b l e ) loss = -∑ log P(x_{masked} | x_{visible}) loss=−∑logP(xmasked∣xvisible)

只计算被遮盖位置的损失


实际应用场景

适合Causal LM的任务

  1. 文本生成:故事创作、代码生成、对话生成
  2. 文本补全:IDE代码补全、邮件补全
  3. 开放式问答:需要连贯、创造性回答
  4. 语音识别后处理:语言模型重打分

不适合Causal LM的任务 ❌(更适合Masked LM或Seq2Seq)

  1. 文本分类:情感分析、主题分类(更适合BERT)
  2. 命名实体识别:需要全局上下文理解
  3. 文本相似度:需要双向编码
  4. 信息抽取:需要理解全文关系

大模型发展趋势

1. 统一架构趋势

现代大模型趋向于多功能统一

  • GPT-3/4, LLaMA:纯Causal LM,但通过指令微调获得多种能力
  • T5:将所有任务转化为Seq2Seq格式
  • UniLM, GLM:混合架构,训练时支持多种注意力模式

2. 从预训练到微调

python 复制代码
# 现代典型流程
预训练阶段:Causal LM(在大规模文本上) → 获得通用语言能力
微调阶段:指令微调/对齐 → 获得遵循指令和多任务能力

3. 前沿模型的混合策略

python 复制代码
# 如GPT-4的技术报告暗示
训练时:可能使用多种训练目标混合
推理时:表现为纯Causal LM,但内部有复杂机制

关键结论

  1. Causal LM的核心单向自回归 ,这是与Masked LM(双向) 最根本的互斥点

  2. 不是绝对的互斥:现代模型可以通过微调获得对方的一些能力

  3. 选择依据

    • 如果需要生成文本:选择Causal LM架构(GPT, LLaMA)
    • 如果需要理解/分类文本:选择Masked LM架构(BERT)
    • 如果需要翻译/摘要:选择Seq2Seq架构(T5, BART)
  4. 大模型的现状 :主流大语言模型(GPT, LLaMA, PaLM)都是基于Causal LM预训练的,然后通过指令微调获得通用能力,这已经成为行业标准范式。

简单说:Causal LM ≈ 生成模型,Masked LM ≈ 理解模型,两者在预训练阶段是互斥的设计选择,但在应用阶段可以通过技巧互相借鉴。

相关推荐
100个铜锣烧5 小时前
高级提示技术:Chain-of-Thought与ReAct——让大模型学会“思考”和“行动”
人工智能·大模型·提示词工程
JackHCC6 小时前
快手OneRetrieval:可编辑生成式电商召回
人工智能·机器学习
前端之虎陈随易6 小时前
编程语言级别的Skill市场,AI Agent 的未来形态
前端·vue.js·人工智能·typescript·node.js
QiLinkOS6 小时前
第三视觉理解徐玉生与他的商业活动(30)
大数据·c++·人工智能·算法·开源协议
武汉唯众智创6 小时前
当汉字成为心理CT:AI汉字联想投射分析的技术实现与心理评估价值
人工智能·ai心理健康·ai心理评估·本土化心理测评·校园心理健康解决方案·ai心理监测·多模态情绪模型
Longvox7 小时前
Agent为什么会死循环?
人工智能·ai编程
陈天伟教授7 小时前
FreeCAD 启动后小窗口闪现即退的解决思路
人工智能·机器人·工业设计
酒旅Agent开发实战7 小时前
AI 旅行规划助手如何接入真实酒旅数据:从自然语言到酒店预订的全流程 MCP 实战
人工智能·ai·旅游·skill·酒店api·机票api
workflower7 小时前
设备单元级(L1)实施路径
人工智能·线性代数·矩阵·机器人·开源
Dragon Wu7 小时前
ComfyUI Desktop 实例进入后一直loading的问题解决
人工智能·ai