第二章 语言模型基础

2.1 大数据+大模型一新智能

2.1.1 大数据+大模型能力增强

  1. Kaplan-McCandlish 扩展法则
    模型的性能与模型以及数据规模这两个因素均高度正相关。然而,在模型规模相同的情况下,模型的具体架构对其性能的影响相对较小。

    OpenAI 提出的这一扩展法则不仅定量地揭示了数据规模和模型规模对模型能力的重要影响,还指出了在模型规模上的投入应当略高于数据规模上的投入
  2. Chinchilla 扩展法则

2.1.2 大数据+大模型一能力扩展

模型训练数据规模以及参数数量的不断提升,不仅带来了学习能力的稳步增强,还为大模型"解锁"了一系列新的能力 ,例如上下文学习

能力、常识推理能力、数学运算能力、代码生成能力等。值得注意的是,这些新能力并非通过在特定下游任务上通过训练获得,而是随着模型复杂度的提升凭空自然涌现。这些能力因此被称为大语言模型的涌现能力

2.2 大语言模型架构概览

2.2.1 主流模型架构的类别

  • Econder-only架构
  • Encoder-Decoder 架构
  • Decoder-only 架构

2.2.2 模型架构的功能对比

2.2.3 模型架构的历史演变

2.3 基于Encoder-only架构的大语言模型

2.3.1 Encoder-only架构

  • 在处理输入序列时,双向编码模型融合了从左往右的正向 注意力以及从右往左的反向注意力

2.3.2 BERT语言模型

  • BERT(Bidirectional Encoder Representations from Transformers)是一种基于Encoder-only 架构的预训练语言模型。其核心创新在于通过双向编码模型深入挖掘文本的上下文信息,从而为各种下游 任务提供优秀的上下文嵌入

2.3.3 BERT衍生语言模型

  • RoBERTa 语言模型 Facebook AI
  • ALBERT Google Research 参数因子分解以及跨层参数共享
  • ELECTRA Google Brain 和斯坦福大学 生成器-判别器架构

2.4 基于Encoder-Decoder架构的大语言模型

2.4.1 Encoder-Decoder架构

  • 在编码器中,我们需要对输入序列的上下文进行"通盘考虑",所以采用双向注意力机制以全面捕捉上下文信息。但在解码器中,自注意力机制则是单向的,仅以上文为条件来解码得到下文,通过掩码操作避免解码器"窥视"未来的信息。

2.4.2 T5语言模型

  • Google Research 团队在 2019 年 10 月提出了一种基于Encoder-Decoder 架构的大型预训练语言模型 T5(Text-to-Text Transfer Transformer)
  • T5 模型的核心思想是将多种 NLP 任务统一到一个文本转文本的生成式框架中。
  • 预训练:T5 模型需要对整个被遮挡的连续文本片段进行预测

2.4.3 BART语言模型

2.5 基于Decoder-only架构的大语言模型

OpenAI 提出的 GPT 系列、Meta 提出的 LLaMA 系列

从第三代开始,GPT 系列逐渐走向了闭源。而 LLaMA 系列虽然起步较晚,但凭借着同样出色的性能以及始终坚持的开源道路,也在 Decoder-only 架构领域占据了一席之地。接下来将对这两种系列的模型进行介绍

2.5.1 Decoder-only架构

2.5.2 GPT系列语言模型

2.5.3 LLAMA系列语言模型

  • LLaMA 则在模型规模上保持相对稳定,更专注于提升预训练数据的规模。
  • 近年来,研究者提出了两类现代 RNN 变体,分别为状态空间模型(State Space Model,SSM)和测试时训练(Test-Time Training,TTT)。这两种范式都可以实现关于序列长度的线性时间复杂度,且避免了传统 RNN 中存在的问题。

2.6非Transformer架构

2.6.1 状态空间模型SSM

Mamba


RWKV

2.6.2 训练时更新TTT



相关推荐
2601_961963389 小时前
技术解剖:哈希值、区块链与CA认证如何守护电子合同安全?
网络·人工智能·安全·区块链·智能合约·政务
2601_961963389 小时前
从“电子化”到“自动化”:2026年智能合约与电子合同融合的技术逻辑与法律适配
网络·人工智能·区块链·智能合约·政务
米小虾9 小时前
AI Skills 工程化:当每个开发者都有一支「AI 小队」,你该怎么管理?
人工智能
DisonTangor9 小时前
谷歌开源首个扩散大语言模型——DiffusionGemma
人工智能·语言模型·自然语言处理·开源·aigc·transformer
冬奇Lab9 小时前
每日一个开源项目(第129篇):OpenMed - 永不离开设备的医疗 NLP
人工智能·开源·资讯
冬奇Lab9 小时前
Agent 系列(19):Harness 完整体系——8 层防护框架全景
人工智能·llm·agent
米小虾9 小时前
Claude Fable 5 系统提示词被扒出来了:1586 行代码背后,藏着 AI 产品工程的终极哲学
人工智能·agent
云烟成雨TD9 小时前
Spring AI Alibaba 1.x 系列【77】执行取消
java·人工智能·spring
Teacher.chenchong9 小时前
AI-Agent2.0 科研全链路实战营:LLM+NotebookLM + 自动化编程 + 文献管理 + 论文写作,搭建本地科研智能体
人工智能·自动化
weberCd9 小时前
ChatGPT 实用技巧总结(国内)
人工智能·chatgpt