LLMs基础学习(一)概念、模型分类、主流开源框架介绍以及模型的预训练任务

文章目录

LLM基础学习(一)

原视频链接

一、大语言模型(LLMs)的简单介绍

定义与基本信息

大语言模型是针对语言设计的大型模型,通常以 "亿级以上参数" 为特征(尽管该标准不绝对,如今已出现万亿参数模型,如 Megatron-Turing LM MoE 1.3B)。

核心特点

  • 大规模参数 :参数数量庞大(如 GPT-3 的 1750 亿、PaLM 的 5400 亿),参数越多,模型对语言的理解、文本处理及生成流畅内容的能力越强
  • 多任务处理 :经训练后,LLMs 能在文本摘要、情感分析、机器翻译等多种语言任务中表现优异,因其从海量数据中学习到了语言模式与规律。
  • 上下文理解:处理长文本时,可保持内容的一致性与逻辑性,尤其擅长对话和内容创作,能 "记忆" 对话历史,理解上下文关联。
  • 自监督学习 :主要依赖自监督学习,利用未标注数据,通过预测下一个词、填空补全、匹配句子等方式学习语言结构
  • 通用性与扩展性:可迁移至多种任务和领域,通过少量微调,即可在医疗文本分析、法律文件摘要等专门任务中发挥作用。

局限性

尽管能力突出,LLMs 仍存在生成错误信息("幻觉")、隐含偏见,以及训练需高计算资源等问题。

参考的模型

BLOOM、gpt-4o、百度文心一言、阿里通义千问、讯飞星火、商汤 SenseChat 等)

二、大语言模型(LLMs)名称后 "175B""60B""540B" 等数字的含义

数字代表模型参数数量

这些数字表示大语言模型的参数数量,单位 "B" 是 "billion"(十亿)的缩写。参数是模型训练中学习的权重系数,直接影响模型复杂度与计算能力。

具体示例

  • 175B:指模型包含 1750 亿个参数,如 OpenAI 的 GPT-3。
  • 60B:代表 600 亿参数,例如 Meta(原 Facebook)的 LLM 版本之一。
  • 540B:表示 5400 亿参数,典型如 Google 的 Pathways Language Model(PaLM)较大版本。

参数数量的影响与局限

  • 优势参数越多,模型学习和捕捉语言模式、语义信息的能力越强,处理复杂任务或生成高质量文本的性能更优
  • 局限参数数量不直接等同于效果,还依赖模型优化、数据质量、训练方法等。例如,过多参数可能增加计算资源消耗,且若训练数据或方法不足,模型效果未必提升。

三、分析大语言模型(LLMs)的优点和缺点

优点

  1. 语言理解与生成能力强
    基于海量文本数据训练,对自然语言的理解和生成表现优异,能创作连贯文章、回答问题、模拟对话,广泛用于聊天交互、写作辅助等场景。
  2. 跨领域知识广泛
    在医学、法律、工程等多领域提供知识支持。因训练数据覆盖海量内容,积累了跨领域知识,用户可咨询专业或非专业问题。
  3. 支持多语言
    具备处理多种语言的能力,如 GPT-3、GPT-4 支持英语、中文、法语等,在跨国服务或多语言客户场景中实用性高。
  4. 快速部署和适应性
    通过微调预训练模型,可适配不同任务需求。例如针对法律、医疗等领域微调,使其适用于法律助理、医疗咨询等具体场景。

缺点

  1. 缺乏事实准确性
    回答可能出现 "看似合理但不准确" 的信息,因模型基于模式匹配和概率分布生成内容,并非真正理解事实,且知识更新易滞后。
  2. 计算资源消耗大
    训练和运行需大量计算资源,如 GPT-3 训练耗费高额电力和硬件资源,实际应用中成本高,推理速度也可能受硬件限制
  3. 可能产生偏见
    训练数据含性别、种族、地域等偏见,模型输出会反映这些偏见,影响其公正性和适用性。
  4. 隐私安全风险
    训练数据可能包含敏感个人信息,若生成内容不慎暴露相关信息,会引发隐私泄露问题
    大模型(LMs)的分类方式,具体内容如下:

四、大语言模型(LLMs)的分类

按输入内容分类

  1. 语言大模型(NLP)

    • 定义与特点:聚焦自然语言处理(NLP)领域,通过大规模语料库训练,学习自然语言的语法、语义、语境规则,用于文本处理与语言理解。
    • 典型示例GPT 系列(OpenAI)、Bard(Google)、百度文心一言、阿里云 Qwen 等。
  2. 视觉大模型(CV)

    • 定义与特点 :应用于计算机视觉(CV)领域,基于大规模图像数据训练,实现图像处理与分析,涵盖图像分类、目标检测、图像分割、姿态估计、人脸识别等任务。
    • 典型示例Google 的 VIT 系列、百度文心 UFO、华为盘古 CV、商汤 - 书生 INTERN 等。
  3. 多模态大模型

    • 定义与特点 :处理文本、图像、音频等多种类型数据,融合 NLP 和 CV 能力,综合理解多模态信息,应对复杂数据场景。
    • 典型示例:OpenAI 的 DALL-E(图像生成)、midjourney(图文交互生成)等。

按预训练任务分类

  1. 自回归语言模型

    • 原理与应用 :通过前文内容预测下一个词 ,擅长生成任务,如 GPT 系列模型,常用于文本生成、对话模拟等场景。
  2. 自编码语言模型

    • 原理与应用 :通过掩码语言建模(masked language modeling)预测被遮挡的词,侧重语言理解与分类任务,典型如 BERT,用于文本分类、情感分析等。
  3. 序列到序列语言模型

    • 原理与应用 :将一个序列转换为另一个序列,可完成理解与生成任务,在机器翻译、文本生成等领域广泛应用,如 T5、BART 等模型。

按模型规模分类

  1. 小规模模型
  • 定义与参数范围:参数数量通常在数千万到几亿之间。
  • 典型示例:如 BERT Base、GPT-2 Small 等。
  • 适用场景:适合资源有限的设备或边缘计算场景。因参数量较少,对计算资源要求较低,可在硬件条件有限的环境中运行,满足基础任务需求。
  1. 中等规模模型
  • 定义与参数范围:参数数量一般在几亿到几十亿之间。
  • 典型示例:如 BERT Large、GPT-2 Medium 等。
  • 特点:平衡性能和计算开销,既具备一定的复杂任务处理能力,又不会过度消耗计算资源,适用于对性能有一定要求但需控制成本的场景。
  1. 大规模模型
  • 定义与参数范围:参数数量可到达百亿到上万亿之间。
  • 典型示例:如 GPT-3、PaLM、LLaMA 等。
  • 特点:具备更强的复杂任务处理能力(如复杂推理、高难度生成任务),但对计算资源要求极高,常用于对性能要求严苛的场景(如前沿科研、工业级复杂应用)。

五、主流 LLMs 开源模型体系对应的架构

在自然语言处理的 预训练 + 微调范式 中,形成了三类主流架构:

  • Encoder-only(编码器架构) :以 BERT 为代表,仅使用编码器处理文本,擅长文本理解任务(如文本分类、语义匹配),通过掩码语言模型(MLM)学习双向语义信息。
  • Decoder-only(解码器架构) :以 GPT 为代表,仅使用解码器,采用自回归方式(根据前文预测下一个词),适合生成任务(如文本生成、对话),是当前生成式大语言模型的主流架构。
  • Encoder-Decoder(编码器 - 解码器架构):以 T5 为代表,结合编码器和解码器,编码器处理输入文本,解码器生成输出,适用于序列到序列任务(如机器翻译、问答系统),兼顾理解与生成能力。

图片通过可视化表格对比了 Causal DecoderPrefix DecoderEncoder-Decoder

  • Causal Decoder :仅解码器,按顺序处理,生成依赖前文。
  • Prefix Decoder :解码器部分支持前置信息(Prefix),生成时结合前缀与实时内容
  • Encoder-Decoder :包含独立的编码器和解码器,编码器处理输入,解码器基于编码器输出生成,适合双向信息交互的任务(如翻译)。

Encoder-Decoder

  • 定义:Encoder-Decoder 是自然语言处理领域的经典模型架构,广泛应用于机器翻译等序列到序列任务。原始的 Transformer 模型即采用这一架构,通过组合两个分别担任编码器(Encoder)和解码器(Decoder)的 Transformer 模块实现功能。
  • 应用场景:适用于需要同时处理输入理解与输出生成的任务,如机器翻译、文本摘要、问答系统等。
  • 编码器(Encoder):采用双向自注意力机制,对输入信息进行编码处理,捕捉输入文本的全局语义信息。
  • 解码器(Decoder):使用交叉注意力(结合编码器输出与自身输入)和掩码自注意力机制,通过自回归方式(逐步生成下一个词)输出目标序列(如翻译后的文本)。
  • 基于 Encoder-Decoder 设计的预训练语言模型,在 自然语言理解与生成任务 中表现优异。但目前仅有少数大语言模型(如 FLAN-T5)基于该架构构建,可能因训练复杂度、生成效率等因素,未成为主流大语言模型的首选架构
Encoder(编码器)与 Decoder(解码器)区别
维度 Encoder(编码器) Decoder(解码器)
核心功能 编码:将输入(文本 / 图像等)转为模型可处理的特征表示。 解码:将编码后的特征还原为目标输出(如文本生成)。
典型应用 文本分类(提取文本特征)、图像压缩(编码图像数据)。 机器翻译(生成目标语言)、文本生成(输出完整句子)。
工作逻辑 分析输入,提取关键信息,关注 "理解"。 基于编码信息,逐步生成结果,关注 "输出"。
简易图示(以文本处理为例):
plaintext 复制代码
输入文本 → [Encoder] → 编码特征 → [Decoder] → 生成目标文本  
(如"我爱自然语言")   (语义向量)          (如"I love NLP")  

Causal Decoder(因果解码器)

  • 定义:Causal Decoder 是因果语言模型(Causal LM)的核心架构,当前主流的大语言模型(如 GPT 系列、LLaMA 等)均采用该结构。
  • 典型代表:最具代表性的是 OpenAI 的 GPT 系列模型。随着 GPT-3 的成功,因果解码器被广泛应用于 BLOOM、LLaMA(Meta)等大语言模型中。
  • 单向注意力掩码
    • Causal Decoder 使用单向注意力掩码,确保每个输入的 token(文本单元)只能关注过去的 token 和自身,无法看到后续内容。例如,在处理文本 "A Survey of" 时,"Survey" 能看到前面的 "A",但看不到后面的 "of"。
    • 其序列掩码矩阵是典型的下三角矩阵(图示中灰色单元表示对应 token 间无法相互关注),以此实现自回归生成(按顺序依前文生成后续内容)。
  • 输入输出处理:输入和输出的 token 均通过 Decoder 以相同方式处理,遵循 "基于前文预测下一个词" 的逻辑,适合文本生成任务。

示意图直观展示了 Causal Decoder 的掩码机制:

  • 纵向和横向的 token 排列中,灰色单元表示对应位置的 token 无法相互关注,仅能看到左侧(过去)的内容,体现了单向注意力的约束,与下三角掩码矩阵的原理一致。
  • 该架构因适配自然语言的顺序生成特性,成为生成式大语言模型的主流选择,尤其擅长文本续写、对话生成等任务。

Prefix Decoder(前缀解码器)

  • 非因果解码器属性:Prefix Decoder 又称非因果解码器架构,是对因果解码器掩码机制的改进。与因果解码器一样,仅使用解码器组件,但在处理逻辑上有显著差异。
  • 区别于 Encoder-Decoder不划分独立的编码器和解码器,而是在单一解码器流程中完成编码和解码,简化了架构设计。
  • 输入输出处理:
    • 输入(前缀部分):采用双向注意力机制编码,允许模型在处理输入前缀时关注前后文信息,充分捕捉语义。
    • 输出部分:利用单向掩码注意力,仅基于当前词元及前面的词元进行自回归预测,确保生成逻辑的连贯性。
  • 掩码机制调整:通过修改掩码规则,平衡了输入信息的全面理解与输出生成的顺序性,既参考了 Encoder-Decoder 的双向编码优势,又保留了解码器生成的特性。

图示通过可视化矩阵展示了 Prefix Decoder 的注意力机制:输入前缀部分(如 "A Survey of")允许双向关注(蓝色单元相互可见),而输出生成部分遵循单向掩码规则(绿色、黄色单元仅能关注前文),直观体现了其架构特点。

当前基于前缀解码器架构的大语言模型包括:

  • GLM-130B:由中国团队开发,结合前缀解码特性,优化了长文本处理与生成能力。
  • U-PaLM(Google):谷歌推出的模型,借助前缀解码器架构实现高效的文本生成与理解任务。

三种架构的核心区别

重点体现在 注意力掩码(attention mask)机制 及对应特性上,具体如下:

  1. Encoder-Decoder
  • 注意力特点:输入采用双向注意力,对问题的编码理解更充分。
  • 适用场景:在偏理解的 NLP 任务(如机器翻译、文本摘要)中效果好。
  • 局限性:长文本生成任务效果差,训练效率较低。
  1. Causal Decoder(代表:GPT 系列)
  • 注意力规则:严格遵循自回归语言模型逻辑,仅后面的 token 能看到前面的 token,输出与预训练的注意力规则完全一致。
  • 优势:
    • 训练效率高,零样本(zero-shot)能力强,具备涌现能力(处理复杂任务时展现出预训练阶段未明确学习的能力)。
    • 擅长文本生成任务(如对话、文章续写)。
  1. Prefix Decoder(代表:GLM)
  • 注意力特点:prefix(前缀)部分的 token 可互相看见,打破单向注意力限制。
  • 适用场景:在文本生成任务中,结合前缀信息实现更灵活的生成效果,平衡输入理解与输出生成。

总结来看,三者的核心差异源于注意力掩码机制的不同,进而影响模型在理解、生成任务上的表现及训练效率。

六、预训练任务

在大规模预训练中,通过设计自监督预训练任务,让模型从海量无标注数据中学习语义知识与世界知识,为后续下游任务奠定基础。

三类常见预训练任务

  1. 语言建模(Language Modeling, LM)
    • 核心逻辑:基于上下文预测单词,分为自回归(如 GPT、LLaMA,按顺序预测下一词)和自编码(如 BERT,通过掩码预测被遮词)。
    • 图示示例:输入 "今天的天气很不错。",模型学习预测后续内容,聚焦文本生成的连贯性。
  2. 去噪自编码(Denosing Autoencoding, DAE)
    • 核心逻辑:修复被破坏的输入(如添加掩码、删除或替换部分内容),还原原始文本,侧重理解与恢复能力。
    • 图示示例:输入 "今 天 的 [MASK] [MASK] 不 错。",模型输出 "天气很不错",典型模型如 T5、GLM。
  3. 混合去噪器(Mixture-of-Denosers, MoD)
    • 融合多种去噪方式(如同时使用掩码、删除等操作),提升模型对复杂数据的处理鲁棒性。
训练目标

通过这些预训练任务,模型学习语言结构、语义关联及世界知识,获得强大的泛化能力,以适配翻译、问答、文本生成等多样化下游任务。图片通过图示直观对比语言建模和去噪自编码的输入输出,展现不同任务的训练逻辑差异。

语言建模(Language Modeling, LM)

  1. 任务核心

    • "预测下一个词元" 为目标,广泛应用于基于解码器的大语言模型(如 GPT-3、PaLM)。模型通过学习文本序列的概率分布,根据前文内容预测后续词元。
  2. 形式化表达

    • 给定词元序列 ( u = u 1 , ... , u T ) (\mathbf{u} = u_1, \dots, u_T) (u=u1,...,uT) ,语言建模任务通过自回归方式,基于当前位置之前的词元序列 ( u < t ) (u_{<t}) (u<t) 预测目标词元 ( u t ) (u_t) (ut)。

    • 优化的损失函数为:
      ( L LM ( u ) = ∑ t = 1 T log ⁡ P ( u t ∣ u < t ) ) (\mathcal{L}{\text{LM}}(\mathbf{u}) = \sum{t=1}^T \log P(u_t | u_{<t})) (LLM(u)=∑t=1TlogP(ut∣u<t))

      • ( L LM ( u ) ) (\mathcal{L}_{\text{LM}}(\mathbf{u})) (LLM(u)):语言模型对句子的损失函数。
      • ( P ( u t ∣ u < t ) ) (P(u_t | u_{<t})) (P(ut∣u<t)):已知前 ( t − 1 ) (t-1) (t−1) 个词元时,第 t 个词元出现的概率。
      • 通过最大化对数概率总和,训练模型捕捉文本序列的语义依赖。
  3. 本质与扩展

    • 本质是多任务学习,例如预测句子中 "好看" 时,模型学习情感分析的语义;预测 "一块糖" 时,学习数学算术相关语义。
    • 不同解码器训练差异:
      • Causal Decoder:在所有词元上计算损失(如 GPT 系列,每个位置都参与预测训练)。
      • Prefix Decoder:仅在输出部分计算损失(如 GLM,区分输入前缀和输出生成的训练逻辑)。

去噪自编码(Denosing Autoencoding, DAE)

  1. 任务核心

    • 输入文本经随机替换、删除等操作形成损坏版本 ( u ~ ) (\tilde{\mathbf{u}}) (u~),模型目标是根据损坏文本恢复原始词元片段 ( u ^ ) (\hat{\mathbf{u}}) (u^)。广泛应用于 BERT、T5 等模型。
  2. 形式化表达

    • 目标函数: ( L DAE ( u ) = log ⁡ P ( u ^ ∣ u ~ ) ) (\mathcal{L}_{\text{DAE}}(\mathbf{u}) = \log P(\hat{\mathbf{u}} | \tilde{\mathbf{u}})) (LDAE(u)=logP(u^∣u~))

      • 模型需学习从损坏文本 ( u ~ ) (\tilde{\mathbf{u}}) (u~) 到原始文本 ( u ^ ) (\hat{\mathbf{u}}) (u^) 的映射关系。
  3. 优化策略与局限

    • 需设定额外策略(如词元替换策略、替换片段长度、替换词元比例),这些策略直接影响模型训练效果。
    • 虽应用广泛,但预训练大语言模型能力仍有限(相比语言建模任务),代表性模型如 FLAN-T5 尝试改进。

总结对比

任务类型 核心逻辑 典型模型 训练目标
语言建模(LM) 基于前文预测下一词元 GPT-3、PaLM 捕捉序列依赖,优化生成连贯性
去噪自编码(DAE) 修复损坏文本,恢复原始内容 BERT、T5 学习文本鲁棒表示,理解语义结构
相关推荐
黄小墨( ̄∇ ̄)几秒前
DeepSeek-R1 论文阅读总结
论文阅读·人工智能
编程绿豆侠2 分钟前
力扣HOT100之双指针:11. 盛最多水的容器
算法·leetcode·职场和发展
*.✧屠苏隐遥(ノ◕ヮ◕)ノ*.✧7 分钟前
C语言_数据结构总结4:不带头结点的单链表
c语言·开发语言·数据结构·算法·链表·visualstudio·visual studio
量子位9 分钟前
14B 小模型逆袭翻译赛道,论文财报实测超 Claude,不信试试 “我命由我不由天”
人工智能·llm·claude
说私域9 分钟前
裂变营销策略在“开源链动2+1模式AI智能名片S2B2C商城小程序”中的应用探索
人工智能·小程序·开源·零售
前端大卫11 分钟前
【DeepSeek-R1满血版】VSCode 也支持了,免费无限制!
人工智能·通义灵码·豆包marscode
量子位11 分钟前
高阶智驾 “破壁人” 来了:13 万标配激光雷达,还能「车位到车位」
人工智能·llm
深图智能17 分钟前
yoloV5训练visDrone2019-Det无人机视觉下目标检测
人工智能·yolo·目标检测·计算机视觉
a李兆洋18 分钟前
力扣 Hot 100 刷题记录 - LRU 缓存
算法·leetcode·缓存
zzzkk200928 分钟前
BambuStudio学习笔记:MTUtils
笔记·学习