文章目录
- LLM基础学习(一)
-
- 一、大语言模型(LLMs)的简单介绍
- [二、大语言模型(LLMs)名称后 "175B""60B""540B" 等数字的含义](#二、大语言模型(LLMs)名称后 “175B”“60B”“540B” 等数字的含义)
- 三、分析大语言模型(LLMs)的优点和缺点
- 四、大语言模型(LLMs)的分类
- [五、主流 LLMs 开源模型体系对应的架构](#五、主流 LLMs 开源模型体系对应的架构)
-
- Encoder-Decoder
-
- [Encoder(编码器)与 Decoder(解码器)区别](#Encoder(编码器)与 Decoder(解码器)区别)
- 简易图示(以文本处理为例):
- [Causal Decoder(因果解码器)](#Causal Decoder(因果解码器))
- [Prefix Decoder(前缀解码器)](#Prefix Decoder(前缀解码器))
- 三种架构的核心区别
- 六、预训练任务
LLM基础学习(一)
一、大语言模型(LLMs)的简单介绍
定义与基本信息
大语言模型是针对语言设计的大型模型,通常以 "亿级以上参数" 为特征(尽管该标准不绝对,如今已出现万亿参数模型,如 Megatron-Turing LM MoE 1.3B)。
核心特点
- 大规模参数 :参数数量庞大(如 GPT-3 的 1750 亿、PaLM 的 5400 亿),参数越多,模型对语言的理解、文本处理及生成流畅内容的能力越强。
- 多任务处理 :经训练后,LLMs 能在文本摘要、情感分析、机器翻译等多种语言任务中表现优异,因其从海量数据中学习到了语言模式与规律。
- 上下文理解:处理长文本时,可保持内容的一致性与逻辑性,尤其擅长对话和内容创作,能 "记忆" 对话历史,理解上下文关联。
- 自监督学习 :主要依赖自监督学习,利用未标注数据,通过预测下一个词、填空补全、匹配句子等方式学习语言结构。
- 通用性与扩展性:可迁移至多种任务和领域,通过少量微调,即可在医疗文本分析、法律文件摘要等专门任务中发挥作用。
局限性
尽管能力突出,LLMs 仍存在生成错误信息("幻觉")、隐含偏见,以及训练需高计算资源等问题。
参考的模型
BLOOM、gpt-4o、百度文心一言、阿里通义千问、讯飞星火、商汤 SenseChat 等)
二、大语言模型(LLMs)名称后 "175B""60B""540B" 等数字的含义
数字代表模型参数数量
这些数字表示大语言模型的参数数量,单位 "B" 是 "billion"(十亿)的缩写。参数是模型训练中学习的权重系数,直接影响模型复杂度与计算能力。
具体示例
- 175B:指模型包含 1750 亿个参数,如 OpenAI 的 GPT-3。
- 60B:代表 600 亿参数,例如 Meta(原 Facebook)的 LLM 版本之一。
- 540B:表示 5400 亿参数,典型如 Google 的 Pathways Language Model(PaLM)较大版本。
参数数量的影响与局限
- 优势 :参数越多,模型学习和捕捉语言模式、语义信息的能力越强,处理复杂任务或生成高质量文本的性能更优。
- 局限 :参数数量不直接等同于效果,还依赖模型优化、数据质量、训练方法等。例如,过多参数可能增加计算资源消耗,且若训练数据或方法不足,模型效果未必提升。
三、分析大语言模型(LLMs)的优点和缺点
优点
- 语言理解与生成能力强 :
基于海量文本数据训练,对自然语言的理解和生成表现优异,能创作连贯文章、回答问题、模拟对话,广泛用于聊天交互、写作辅助等场景。 - 跨领域知识广泛 :
在医学、法律、工程等多领域提供知识支持。因训练数据覆盖海量内容,积累了跨领域知识,用户可咨询专业或非专业问题。 - 支持多语言 :
具备处理多种语言的能力,如 GPT-3、GPT-4 支持英语、中文、法语等,在跨国服务或多语言客户场景中实用性高。 - 快速部署和适应性 :
通过微调预训练模型,可适配不同任务需求。例如针对法律、医疗等领域微调,使其适用于法律助理、医疗咨询等具体场景。
缺点
- 缺乏事实准确性 :
回答可能出现 "看似合理但不准确" 的信息,因模型基于模式匹配和概率分布生成内容,并非真正理解事实,且知识更新易滞后。 - 计算资源消耗大 :
训练和运行需大量计算资源,如 GPT-3 训练耗费高额电力和硬件资源,实际应用中成本高,推理速度也可能受硬件限制。 - 可能产生偏见 :
若训练数据含性别、种族、地域等偏见,模型输出会反映这些偏见,影响其公正性和适用性。 - 隐私安全风险 :
训练数据可能包含敏感个人信息,若生成内容不慎暴露相关信息,会引发隐私泄露问题 。
大模型(LMs)的分类方式,具体内容如下:
四、大语言模型(LLMs)的分类
按输入内容分类
-
语言大模型(NLP)
- 定义与特点:聚焦自然语言处理(NLP)领域,通过大规模语料库训练,学习自然语言的语法、语义、语境规则,用于文本处理与语言理解。
- 典型示例 :GPT 系列(OpenAI)、Bard(Google)、百度文心一言、阿里云 Qwen 等。
-
视觉大模型(CV)
- 定义与特点 :应用于计算机视觉(CV)领域,基于大规模图像数据训练,实现图像处理与分析,涵盖图像分类、目标检测、图像分割、姿态估计、人脸识别等任务。
- 典型示例 :Google 的 VIT 系列、百度文心 UFO、华为盘古 CV、商汤 - 书生 INTERN 等。
-
多模态大模型
- 定义与特点 :处理文本、图像、音频等多种类型数据,融合 NLP 和 CV 能力,综合理解多模态信息,应对复杂数据场景。
- 典型示例:OpenAI 的 DALL-E(图像生成)、midjourney(图文交互生成)等。
按预训练任务分类
-
自回归语言模型
- 原理与应用 :通过前文内容预测下一个词 ,擅长生成任务,如 GPT 系列模型,常用于文本生成、对话模拟等场景。
-
自编码语言模型
- 原理与应用 :通过掩码语言建模(masked language modeling)预测被遮挡的词,侧重语言理解与分类任务,典型如 BERT,用于文本分类、情感分析等。
-
序列到序列语言模型
- 原理与应用 :将一个序列转换为另一个序列,可完成理解与生成任务,在机器翻译、文本生成等领域广泛应用,如 T5、BART 等模型。
按模型规模分类
- 小规模模型
- 定义与参数范围:参数数量通常在数千万到几亿之间。
- 典型示例:如 BERT Base、GPT-2 Small 等。
- 适用场景:适合资源有限的设备或边缘计算场景。因参数量较少,对计算资源要求较低,可在硬件条件有限的环境中运行,满足基础任务需求。
- 中等规模模型
- 定义与参数范围:参数数量一般在几亿到几十亿之间。
- 典型示例:如 BERT Large、GPT-2 Medium 等。
- 特点:平衡性能和计算开销,既具备一定的复杂任务处理能力,又不会过度消耗计算资源,适用于对性能有一定要求但需控制成本的场景。
- 大规模模型
- 定义与参数范围:参数数量可到达百亿到上万亿之间。
- 典型示例:如 GPT-3、PaLM、LLaMA 等。
- 特点:具备更强的复杂任务处理能力(如复杂推理、高难度生成任务),但对计算资源要求极高,常用于对性能要求严苛的场景(如前沿科研、工业级复杂应用)。
五、主流 LLMs 开源模型体系对应的架构
在自然语言处理的 预训练 + 微调范式 中,形成了三类主流架构:
- Encoder-only(编码器架构) :以 BERT 为代表,仅使用编码器处理文本,擅长文本理解任务(如文本分类、语义匹配),通过掩码语言模型(MLM)学习双向语义信息。
- Decoder-only(解码器架构) :以 GPT 为代表,仅使用解码器,采用自回归方式(根据前文预测下一个词),适合生成任务(如文本生成、对话),是当前生成式大语言模型的主流架构。
- Encoder-Decoder(编码器 - 解码器架构):以 T5 为代表,结合编码器和解码器,编码器处理输入文本,解码器生成输出,适用于序列到序列任务(如机器翻译、问答系统),兼顾理解与生成能力。

图片通过可视化表格对比了 Causal Decoder 、Prefix Decoder 、Encoder-Decoder:
- Causal Decoder :仅解码器,按顺序处理,生成依赖前文。
- Prefix Decoder :解码器部分支持前置信息(Prefix),生成时结合前缀与实时内容。
- Encoder-Decoder :包含独立的编码器和解码器,编码器处理输入,解码器基于编码器输出生成,适合双向信息交互的任务(如翻译)。
Encoder-Decoder

- 定义:Encoder-Decoder 是自然语言处理领域的经典模型架构,广泛应用于机器翻译等序列到序列任务。原始的 Transformer 模型即采用这一架构,通过组合两个分别担任编码器(Encoder)和解码器(Decoder)的 Transformer 模块实现功能。
- 应用场景:适用于需要同时处理输入理解与输出生成的任务,如机器翻译、文本摘要、问答系统等。
- 编码器(Encoder):采用双向自注意力机制,对输入信息进行编码处理,捕捉输入文本的全局语义信息。
- 解码器(Decoder):使用交叉注意力(结合编码器输出与自身输入)和掩码自注意力机制,通过自回归方式(逐步生成下一个词)输出目标序列(如翻译后的文本)。
- 基于 Encoder-Decoder 设计的预训练语言模型,在 自然语言理解与生成任务 中表现优异。但目前仅有少数大语言模型(如 FLAN-T5)基于该架构构建,可能因训练复杂度、生成效率等因素,未成为主流大语言模型的首选架构。
Encoder(编码器)与 Decoder(解码器)区别
维度 | Encoder(编码器) | Decoder(解码器) |
---|---|---|
核心功能 | 编码:将输入(文本 / 图像等)转为模型可处理的特征表示。 | 解码:将编码后的特征还原为目标输出(如文本生成)。 |
典型应用 | 文本分类(提取文本特征)、图像压缩(编码图像数据)。 | 机器翻译(生成目标语言)、文本生成(输出完整句子)。 |
工作逻辑 | 分析输入,提取关键信息,关注 "理解"。 | 基于编码信息,逐步生成结果,关注 "输出"。 |
简易图示(以文本处理为例):
plaintext
输入文本 → [Encoder] → 编码特征 → [Decoder] → 生成目标文本
(如"我爱自然语言") (语义向量) (如"I love NLP")
Causal Decoder(因果解码器)
- 定义:Causal Decoder 是因果语言模型(Causal LM)的核心架构,当前主流的大语言模型(如 GPT 系列、LLaMA 等)均采用该结构。
- 典型代表:最具代表性的是 OpenAI 的 GPT 系列模型。随着 GPT-3 的成功,因果解码器被广泛应用于 BLOOM、LLaMA(Meta)等大语言模型中。
- 单向注意力掩码 :
- Causal Decoder 使用单向注意力掩码,确保每个输入的 token(文本单元)只能关注过去的 token 和自身,无法看到后续内容。例如,在处理文本 "A Survey of" 时,"Survey" 能看到前面的 "A",但看不到后面的 "of"。
- 其序列掩码矩阵是典型的下三角矩阵(图示中灰色单元表示对应 token 间无法相互关注),以此实现自回归生成(按顺序依前文生成后续内容)。
- 输入输出处理:输入和输出的 token 均通过 Decoder 以相同方式处理,遵循 "基于前文预测下一个词" 的逻辑,适合文本生成任务。

示意图直观展示了 Causal Decoder 的掩码机制:
- 纵向和横向的 token 排列中,灰色单元表示对应位置的 token 无法相互关注,仅能看到左侧(过去)的内容,体现了单向注意力的约束,与下三角掩码矩阵的原理一致。
- 该架构因适配自然语言的顺序生成特性,成为生成式大语言模型的主流选择,尤其擅长文本续写、对话生成等任务。
Prefix Decoder(前缀解码器)
- 非因果解码器属性:Prefix Decoder 又称非因果解码器架构,是对因果解码器掩码机制的改进。与因果解码器一样,仅使用解码器组件,但在处理逻辑上有显著差异。
- 区别于 Encoder-Decoder :不划分独立的编码器和解码器,而是在单一解码器流程中完成编码和解码,简化了架构设计。
- 输入输出处理:
- 输入(前缀部分):采用双向注意力机制编码,允许模型在处理输入前缀时关注前后文信息,充分捕捉语义。
- 输出部分:利用单向掩码注意力,仅基于当前词元及前面的词元进行自回归预测,确保生成逻辑的连贯性。
- 掩码机制调整:通过修改掩码规则,平衡了输入信息的全面理解与输出生成的顺序性,既参考了 Encoder-Decoder 的双向编码优势,又保留了解码器生成的特性。

图示通过可视化矩阵展示了 Prefix Decoder 的注意力机制:输入前缀部分(如 "A Survey of")允许双向关注(蓝色单元相互可见),而输出生成部分遵循单向掩码规则(绿色、黄色单元仅能关注前文),直观体现了其架构特点。
当前基于前缀解码器架构的大语言模型包括:
- GLM-130B:由中国团队开发,结合前缀解码特性,优化了长文本处理与生成能力。
- U-PaLM(Google):谷歌推出的模型,借助前缀解码器架构实现高效的文本生成与理解任务。
三种架构的核心区别
重点体现在 注意力掩码(attention mask)机制 及对应特性上,具体如下:
- Encoder-Decoder
- 注意力特点:输入采用双向注意力,对问题的编码理解更充分。
- 适用场景:在偏理解的 NLP 任务(如机器翻译、文本摘要)中效果好。
- 局限性:长文本生成任务效果差,训练效率较低。
- Causal Decoder(代表:GPT 系列)
- 注意力规则:严格遵循自回归语言模型逻辑,仅后面的 token 能看到前面的 token,输出与预训练的注意力规则完全一致。
- 优势:
- 训练效率高,零样本(zero-shot)能力强,具备涌现能力(处理复杂任务时展现出预训练阶段未明确学习的能力)。
- 擅长文本生成任务(如对话、文章续写)。
- Prefix Decoder(代表:GLM)
- 注意力特点:prefix(前缀)部分的 token 可互相看见,打破单向注意力限制。
- 适用场景:在文本生成任务中,结合前缀信息实现更灵活的生成效果,平衡输入理解与输出生成。
总结来看,三者的核心差异源于注意力掩码机制的不同,进而影响模型在理解、生成任务上的表现及训练效率。
六、预训练任务
在大规模预训练中,通过设计自监督预训练任务,让模型从海量无标注数据中学习语义知识与世界知识,为后续下游任务奠定基础。
三类常见预训练任务
- 语言建模(Language Modeling, LM)
- 核心逻辑:基于上下文预测单词,分为自回归(如 GPT、LLaMA,按顺序预测下一词)和自编码(如 BERT,通过掩码预测被遮词)。
- 图示示例:输入 "今天的天气很不错。",模型学习预测后续内容,聚焦文本生成的连贯性。
- 去噪自编码(Denosing Autoencoding, DAE)
- 核心逻辑:修复被破坏的输入(如添加掩码、删除或替换部分内容),还原原始文本,侧重理解与恢复能力。
- 图示示例:输入 "今 天 的 [MASK] [MASK] 不 错。",模型输出 "天气很不错",典型模型如 T5、GLM。
- 混合去噪器(Mixture-of-Denosers, MoD)
- 融合多种去噪方式(如同时使用掩码、删除等操作),提升模型对复杂数据的处理鲁棒性。

训练目标
通过这些预训练任务,模型学习语言结构、语义关联及世界知识,获得强大的泛化能力,以适配翻译、问答、文本生成等多样化下游任务。图片通过图示直观对比语言建模和去噪自编码的输入输出,展现不同任务的训练逻辑差异。
语言建模(Language Modeling, LM)
-
任务核心
- 以 "预测下一个词元" 为目标,广泛应用于基于解码器的大语言模型(如 GPT-3、PaLM)。模型通过学习文本序列的概率分布,根据前文内容预测后续词元。
-
形式化表达
-
给定词元序列 ( u = u 1 , ... , u T ) (\mathbf{u} = u_1, \dots, u_T) (u=u1,...,uT) ,语言建模任务通过自回归方式,基于当前位置之前的词元序列 ( u < t ) (u_{<t}) (u<t) 预测目标词元 ( u t ) (u_t) (ut)。
-
优化的损失函数为:
( L LM ( u ) = ∑ t = 1 T log P ( u t ∣ u < t ) ) (\mathcal{L}{\text{LM}}(\mathbf{u}) = \sum{t=1}^T \log P(u_t | u_{<t})) (LLM(u)=∑t=1TlogP(ut∣u<t))- ( L LM ( u ) ) (\mathcal{L}_{\text{LM}}(\mathbf{u})) (LLM(u)):语言模型对句子的损失函数。
- ( P ( u t ∣ u < t ) ) (P(u_t | u_{<t})) (P(ut∣u<t)):已知前 ( t − 1 ) (t-1) (t−1) 个词元时,第 t 个词元出现的概率。
- 通过最大化对数概率总和,训练模型捕捉文本序列的语义依赖。
-
-
本质与扩展
- 本质是多任务学习,例如预测句子中 "好看" 时,模型学习情感分析的语义;预测 "一块糖" 时,学习数学算术相关语义。
- 不同解码器训练差异:
- Causal Decoder:在所有词元上计算损失(如 GPT 系列,每个位置都参与预测训练)。
- Prefix Decoder:仅在输出部分计算损失(如 GLM,区分输入前缀和输出生成的训练逻辑)。
去噪自编码(Denosing Autoencoding, DAE)
-
任务核心
- 输入文本经随机替换、删除等操作形成损坏版本 ( u ~ ) (\tilde{\mathbf{u}}) (u~),模型目标是根据损坏文本恢复原始词元片段 ( u ^ ) (\hat{\mathbf{u}}) (u^)。广泛应用于 BERT、T5 等模型。
-
形式化表达
-
目标函数: ( L DAE ( u ) = log P ( u ^ ∣ u ~ ) ) (\mathcal{L}_{\text{DAE}}(\mathbf{u}) = \log P(\hat{\mathbf{u}} | \tilde{\mathbf{u}})) (LDAE(u)=logP(u^∣u~))
- 模型需学习从损坏文本 ( u ~ ) (\tilde{\mathbf{u}}) (u~) 到原始文本 ( u ^ ) (\hat{\mathbf{u}}) (u^) 的映射关系。
-
-
优化策略与局限
- 需设定额外策略(如词元替换策略、替换片段长度、替换词元比例),这些策略直接影响模型训练效果。
- 虽应用广泛,但预训练大语言模型能力仍有限(相比语言建模任务),代表性模型如 FLAN-T5 尝试改进。
总结对比
任务类型 | 核心逻辑 | 典型模型 | 训练目标 |
---|---|---|---|
语言建模(LM) | 基于前文预测下一词元 | GPT-3、PaLM | 捕捉序列依赖,优化生成连贯性 |
去噪自编码(DAE) | 修复损坏文本,恢复原始内容 | BERT、T5 | 学习文本鲁棒表示,理解语义结构 |