大语言模型架构技术原理演进

摘要

大语言模型作为人工智能领域的重要突破，其技术架构的演进深刻影响着自然语言处理的发展方向。本文系统梳理了从2017年Transformer架构诞生到2020年GPT-3发布这一关键时期的技术发展脉络，深入分析了大数据与大模型结合的扩展法则，并对比了Encoder-only、Encoder-Decoder、Decoder-only三种主流架构的技术特点。研究表明，模型规模的扩展遵循精确的幂律关系，而不同架构在理解能力、生成能力和推理效率方面各有优势。本文还介绍了非Transformer架构的最新探索，为计算机学生提供了全面的技术视角。

一、引言

2017年，Google团队在《Attention Is All You Need》论文中提出的Transformer架构，彻底改变了自然语言处理（NLP）的技术范式。这一架构完全基于自注意力机制，摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN），实现了显著的并行化优势和更短的训练时间。随后的几年里，基于Transformer的大语言模型经历了从萌芽到爆发的快速发展，参数量从最初的几百万增长到数千亿，性能也实现了质的飞跃。

当前，大语言模型已成为推动人工智能发展的核心力量，在文本生成、机器翻译、问答系统等领域展现出强大能力。然而，随着模型规模的不断扩大，训练成本急剧上升，GPT-3的训练需要10,000个NVIDIA V100 GPU ，消耗约1,287 MWh的电力。这种"规模竞赛"背后是否存在科学规律？不同的架构设计又如何影响模型的能力？这些问题对于理解和发展下一代大语言模型具有重要意义。

二、大语言模型发展历程

2.1 萌芽期（2017-2018年）：Transformer架构的确立

2017年被称为大语言模型的"元年"，Google团队提出的Transformer架构成为此后所有大模型的统一基础架构。Transformer的核心创新在于完全基于自注意力机制，摒弃了传统的循环和卷积操作，实现了革命性的并行化能力。在WMT 2014英德翻译任务中，Transformer达到了28.4 BLEU的成绩，超过现有最佳结果2个BLEU以上；在英法翻译任务中，建立了41.0的单模型新纪录，仅需在8个GPU上训练3.5天。

2018年是预训练语言模型时代的开端，Google和OpenAI分别推出了具有里程碑意义的模型。10月，Google发布了BERT（Bidirectional Encoder Representations from Transformers），这是一个基于Transformer编码器的双向模型，具有3.4亿参数。BERT的创新在于采用了掩码语言模型（MLM）预训练任务，随机遮盖句子中15%的词，让模型根据上下文预测被遮盖的内容。这种双向理解能力使BERT在当时几乎所有的NLP基准测试上都碾压了同时期的模型。

同年6月，OpenAI发布了GPT-1（Generative Pre-trained Transformer 1），这是第一个基于Transformer解码器架构的预训练语言模型，也是"大模型"概念的首次落地。GPT-1采用了单向自注意力机制，从左到右预测下一个token，具有1.17亿参数。虽然在当时的基准测试中表现不如BERT，但GPT-1开创了基于Transformer解码器的生成式预训练范式，为后续的GPT系列奠定了基础。

2.2 发展期（2019-2020年）：模型规模的快速扩张

进入2019年，大语言模型的发展呈现出规模竞赛的特征。OpenAI在2月发布了GPT-2，参数量达到15亿，是GPT-1的13倍。GPT-2的一个重要创新是提出了"零样本学习"概念，展示了模型的泛化能力。OpenAI最初只发布了7.74亿参数的部分版本，直到11月才发布完整的15亿参数模型。

Google在2019年10月推出了T5（Text-to-Text Transfer Transformer），这是一个编码器-解码器架构的模型，参数规模达到110亿，是当时最大的模型之一。T5的独特之处在于提出了统一的"文本到文本"框架，将所有NLP任务都视为文本生成问题，通过在输入前添加任务描述（如"translate English to French:"）来指示模型执行相应任务。这种设计大大简化了模型的训练和部署流程。

2020年5月，OpenAI发布了具有划时代意义的GPT-3 ，参数量达到惊人的1750亿，是此前最大模型的10倍。GPT-3拥有96层Transformer，隐藏层维度高达12288，注意力头数为96。更重要的是，GPT-3展现出了前所未有的涌现能力，包括上下文学习、少样本学习、零样本学习等，彻底引爆了大模型热潮。GPT-3的发布标志着大语言模型进入"规模化竞赛"阶段，也让业界意识到模型规模增长带来的质变效应。

2.3 技术演进的关键特征

纵观这一发展历程，大语言模型的演进呈现出几个关键特征：

第一，架构的收敛性。尽管存在Encoder-only、Encoder-Decoder、Decoder-only三种架构，但所有主流模型都基于Transformer架构，只是在组件选择上有所不同。这种架构收敛反映了Transformer设计的优越性。

第二，规模的指数级增长。从GPT-1的1.17亿参数到GPT-3的1750亿参数，模型规模增长了近1500倍。这种增长不是简单的线性扩展，而是伴随着架构优化和训练策略改进的系统性提升。

第三，能力的涌现性。随着模型规模的增长，出现了许多意想不到的能力，如上下文学习、思维链推理等。这些涌现能力无法通过小规模模型的性能直接推断，体现了规模扩展的非线性效应。

第四，训练成本的急剧上升。GPT-3的训练需要10,000个NVIDIA V100 GPU，消耗约1,287 MWh的电力。这种巨大的资源需求不仅带来了经济成本，也引发了对环境影响的关注。

三、大数据与大模型的协同效应

3.1 Kaplan-McCandish扩展法则：规模决定性能

2020年1月，OpenAI的研究人员Jared Kaplan和Sam McCandish等人发表了具有里程碑意义的"Scaling Laws"论文，首次用实验证明了语言模型性能与模型规模、数据量、算力之间存在精确的幂律关系。这一发现跨越了7个数量级，揭示了大语言模型发展的底层规律。

扩展法则的核心公式可以表述为：

L = E + A/N^α + B/D^β

其中，L是模型损失（损失越低性能越强），E是不可约损失（数据本身的熵），N是模型参数量，D是训练数据量，A、B是常数，α≈0.07-0.09，β≈0.07-0.09。

这个公式揭示了几个重要规律：

第一，规模优先于架构。研究发现，架构细节对性能的影响微乎其微，深度和宽度比变化40倍，性能差异仅为3%。这意味着，在资源有限的情况下，扩大模型规模比优化架构设计更有效。

第二，边际收益递减。随着模型规模的增大，性能提升的速率逐渐放缓。例如，将模型规模扩大10倍，性能提升约40%；扩大100倍，性能提升约70%。这种递减效应意味着需要越来越大的模型才能获得相同的性能提升。

第三，计算量的重要性。总计算量可以用6ND公式快速估算（N为参数量，D为数据量）。研究表明，模型性能与计算量的1/3次方成正比，这为资源分配提供了理论指导。

为了更好地理解这些规律，我们可以用一个形象的比喻：模型规模就像大脑的神经元数量，数据量就像学习的知识总量，而计算量则是学习的努力程度。三者必须协同增长，才能实现智能的提升。

3.2 Chinchilla扩展法则：计算资源的最优配置

2022年，DeepMind的研究人员提出了Chinchilla扩展法则，颠覆了"唯参数论"的传统认知。通过训练超过400个Transformer模型（70M-16B参数，5B-500B tokens），他们发现了一个重要规律：在固定计算预算下，模型参数和训练tokens数应按相同比例缩放------参数翻倍时，训练数据也需翻倍。

Chinchilla法则的核心洞察是：过拟合不仅取决于模型大小，还取决于训练数据量。之前的模型往往训练不足，没有充分利用计算资源。Chinchilla模型（70B参数）通过优化计算配置，在相同计算预算下，性能超越了参数更大的GPT-3。

Chinchilla扩展法则的数学框架可以表示为：

L(N, D_tr) = E + A/N^α + B/D_tr^β

其中，L是预训练损失，N是参数数量，D_tr是预训练tokens数，E是不可约损失，A、B、α、β是通过实验拟合的常数。

Chinchilla法则带来了几个重要启示：

第一，计算效率的优化。研究发现，最优的tokens-per-parameter比例约为10-40。这意味着，一个10B参数的模型应该在100B-400B tokens上训练，而不是越多越好。

第二，避免"compute waste"。当训练tokens过少时，模型很快就会过拟合，剩余的计算资源被浪费；当tokens过多时，模型已经收敛，继续训练也不会提升性能。Chinchilla法则提供了避免这两种浪费的方法。

第三，推理成本的考量。虽然Chinchilla法则主要关注训练阶段的计算优化，但研究也指出，对于推理需求较大的场景（如1B次请求），应该训练更小、更长的模型，以平衡训练和推理成本。

为了说明Chinchilla法则的实际应用，我们可以想象一个学习钢琴的场景：如果把模型参数比作手指的灵活度，训练数据比作练习的曲目数量，那么Chinchilla法则告诉我们，手指灵活度和曲目练习量需要平衡发展。只练手指不练曲目，就像只增加参数不增加数据，会导致"过拟合"；只练曲目不练手指，就像只增加数据不增加参数，会导致"欠拟合"。

3.3 扩展法则的实践指导意义

扩展法则不仅是理论发现，更为大语言模型的开发提供了重要的实践指导：

资源分配策略。根据6ND公式，当计算预算固定时，可以在模型规模和数据规模之间进行权衡。例如，1000 PF-days的计算预算，可以支持训练一个100B参数的模型在17B tokens上，或者一个10B参数的模型在170B tokens上。

性能预测模型。基于扩展法则，可以在模型训练前预测其性能上限，避免盲目地扩大规模。这对于资源有限的研究团队尤其重要。

架构设计优化。虽然架构细节对性能的影响相对较小，但在相同规模下，优秀的架构设计仍能带来显著的性能提升。例如，GPT系列通过改进LayerNorm的位置、引入MoE等技术，在相同参数规模下实现了性能的持续提升。

四、主流架构的技术对比

4.1 三大架构的核心差异

基于Transformer的大语言模型主要分为三种架构：Encoder-only（仅编码器）、Encoder-Decoder（编码器-解码器）和Decoder-only（仅解码器）。这三种架构在设计理念、注意力机制、训练目标和适用场景等方面存在本质差异。

Encoder-only架构只保留Transformer的编码器部分，采用双向自注意力机制。其核心设计是将输入完整文本转换为固定长度的语义向量，主要用于分类、理解等任务。典型代表包括BERT、RoBERTa、ALBERT、ELECTRA等。

Encoder-Decoder架构完整保留编码器和解码器，通过交叉注意力连接。编码器负责理解输入，生成语义向量；解码器基于编码器的输出自回归生成输出。典型代表包括T5、BART、原始Transformer等。

Decoder-only架构只保留Transformer的解码器部分，采用单向自注意力（因果注意力）机制。其处理方式是输入提示后逐词生成输出，每次只能关注已生成的内容。典型代表包括GPT系列、LLaMA系列、Claude系列等。

为了更直观地理解这三种架构的差异，我们可以用一个形象的比喻：

Encoder-only像一位阅卷老师：他能把整篇文章读完、吃透，然后给出分数或点评（分类、抽取），但他无法自己写出一篇新文章。
Decoder-only像一位作家：他根据已有的开头（上文），不断构思下文，一页页写出新的故事。但他对整本书的结构把握可能不如阅卷老师深刻。
Encoder-Decoder像一位翻译官：他先仔细聆听并理解对方的发言（编码），然后用另一种语言准确、流畅地表达出来（解码）。他既需要深刻理解，也需要流利表达。

4.2 注意力机制的本质区别

三种架构的核心差异体现在注意力机制的设计上：

Encoder-only的双向注意力允许每个位置关注输入序列中的所有位置（包括左右两侧），使每个词的表示都融合了完整的上下文信息。这种设计使模型具有极强的理解能力，在文本分类、情感分析、命名实体识别等任务上表现优异。

Decoder-only的单向注意力通过上三角掩码，每个位置只能看到当前位置及之前的词，不能看到未来的词，确保了自回归生成时的因果性。这种设计虽然限制了理解深度，但使模型具有强大的生成能力，能够产生流畅、连贯的文本。

Encoder-Decoder的混合注意力包含三种类型：编码器使用双向自注意力理解输入；解码器使用掩码自注意力（单向）生成输出；解码器还使用交叉注意力，在生成每个词时动态关注编码器的输出。这种设计平衡了理解和生成能力，适合机器翻译、文本摘要等序列转换任务。

从计算复杂度的角度看，自注意力的复杂度为O(n²·d)，其中n是序列长度，d是模型维度。这意味着，当处理长序列时，计算成本会急剧上升。为了应对这一挑战，研究者提出了各种优化方法，如稀疏注意力、线性注意力等。

4.3 架构选择的实践考量

在实际应用中，选择合适的架构需要考虑多个因素：

任务类型。如果任务主要是文本理解（如分类、问答），Encoder-only架构是最佳选择；如果任务是文本生成（如对话、创作），Decoder-only架构更合适；如果任务涉及序列转换（如翻译、摘要），Encoder-Decoder架构最为匹配。

性能需求。三种架构在不同维度上的表现各有优劣：

架构类型	理解能力	生成能力	推理效率	参数效率	适用场景
Encoder-only	★★★★★	★☆☆☆☆	★★★★☆	★★★★☆	文本分类、情感分析、实体识别
Decoder-only	★★★☆☆	★★★★★	★★★★★	★★★★★	对话生成、故事创作、代码生成
Encoder-Decoder	★★★★☆	★★★☆☆	★★☆☆☆	★★☆☆☆	机器翻译、文本摘要、改写

资源约束。Decoder-only架构由于结构简单、可堆叠性强，更容易扩展到极大规模。研究表明，与同等参数的Encoder-Decoder架构相比，Decoder-only可以支持更多层，具有更好的参数效率和可扩展性。这也是为什么GPT-3、Claude等超大规模模型都采用Decoder-only架构的原因。

部署需求。Encoder-only架构支持并行推理，速度快；Decoder-only架构虽然需要自回归生成，但可以利用KV缓存技术，在长文本推理时显著提升效率；Encoder-Decoder架构由于需要先编码再解码，推理延迟最高。

五、代表性模型的技术剖析

5.1 Encoder-only架构：理解能力的极致追求

BERT（Bidirectional Encoder Representations from Transformers） 是Encoder-only架构的开创者，由Google在2018年10月发布。BERT的核心创新在于采用了双向Transformer编码器，能够同时捕捉左右上下文信息。BERT-Base版本包含12层Transformer编码器，12个注意力头，768维隐藏层，约1.1亿参数；BERT-Large版本则有24层编码器，16个注意力头，1024维隐藏层，约3.4亿参数。

BERT的预训练采用了两种任务：掩码语言模型（MLM）和下一句预测（NSP）。MLM随机遮盖输入中15%的词，让模型根据双向上下文预测被遮盖的词；NSP则预测两个句子是否是连续的。这种预训练策略使BERT能够深度理解每个词在上下文中的含义，学习通用的语义表示。

BERT的成功引发了一系列改进模型的诞生：

RoBERTa（Robustly Optimized BERT approach） 是Facebook在2019年提出的改进版本。RoBERTa的主要改进包括：取消了NSP任务，因为研究发现该任务对性能提升有限；优化了MLM训练策略，使用更大的batch size和更长的训练时间；将词表大小从BERT的30K扩大到50K，采用BPE（Byte Pair Encoding）作为分词策略；支持更长的文本输入，从512 tokens扩展到1024 tokens。这些改进使RoBERTa在多个基准测试上超越了BERT。

ALBERT（A Lite BERT） 专注于模型的轻量化优化，通过以下技术解决BERT的参数冗余问题：

参数共享：所有Encoder层共享权重，大幅减少参数规模
嵌入层优化：降低词向量维度，采用因式分解嵌入
跨层参数共享：不仅共享权重，还共享LayerNorm等组件

ALBERT-Base的参数规模仅12亿，不足BERT-Base的1/9，但训练效率大幅提升，性能接近BERT。这种设计使Encoder-only架构能够适配资源有限的场景，如边缘设备部署。

5.2 Encoder-Decoder架构：平衡理解与生成

T5（Text-to-Text Transfer Transformer） 是Google在2019年提出的Encoder-Decoder架构代表作，参数规模从60M到11B不等。T5的核心创新在于提出了统一的"文本到文本"框架，将所有NLP任务都转换为文本生成问题。例如，翻译任务可以表示为"translate English to French: $原文$ "，问答任务可以表示为"question: $问题$ context: $上下文$ "。这种设计大大简化了模型的训练和部署流程。

T5采用了 Span Corruption（跨度破坏） 作为核心预训练任务，随机遮蔽连续的文本片段，让模型预测被遮蔽的内容。与BERT的随机词遮蔽不同，Span Corruption更符合真实的文本损坏场景，能够更好地学习文本的结构信息。

BART（Bidirectional and AutoRegressive Transformer） 是Facebook在2019年提出的另一个重要的Encoder-Decoder模型。BART的设计理念是"损坏-修复"，通过多种方式破坏输入文本（如随机删除、打乱顺序、遮盖等），然后训练模型恢复原始文本。BART的编码器和解码器都使用了双向自注意力机制，这使得模型可以同时捕捉文本序列中的前向和后向依赖关系。

BART的主要特点包括：

双向编码器+单向解码器：编码器捕捉上下文信息，解码器生成流畅文本
多样化降噪策略：通过多种文本损坏方式增强模型鲁棒性
层丢弃技术：训练时随机丢弃整个层，提高模型泛化能力

BART在文本摘要、句子简化、问答等任务上都取得了优异表现，其"损坏-修复"的预训练策略也被后续许多模型借鉴。

5.3 Decoder-only架构：生成能力的巅峰

GPT系列是Decoder-only架构的典型代表，从2018年的GPT-1到2020年的GPT-3，展现了模型规模扩展带来的能力飞跃。

GPT-1（2018年6月）是第一个基于Transformer解码器的预训练语言模型，具有1.17亿参数，采用12层Transformer解码器，12个掩码自注意力头。GPT-1开创了"预训练+微调"的范式，通过无监督预训练学习语言的通用规律，然后在特定任务上微调。

GPT-2（2019年）将参数量提升至15亿，层数增加到48层，引入了以下重要改进：

多任务预训练：取消了针对特定任务的微调，直接通过提示词实现零样本学习
LayerNorm位置调整：将LayerNorm从解码器的输出移到输入，提高训练稳定性
更大的上下文窗口：从512 tokens扩展到1024 tokens

GPT-3（2020年）达到了1750亿参数，成为当时最大的语言模型。GPT-3的技术特点包括：

96层Transformer解码器，96个注意力头，隐藏层维度12288
上下文窗口扩展到2048 tokens
展现出涌现能力：上下文学习、少样本学习、零样本学习
通过自回归生成和KV缓存技术，实现高效的长文本推理

LLaMA系列是Meta开发的开源Decoder-only模型，包括7B到70B等多个版本。LLaMA的主要技术特点：

Pre-normalization架构：在每个子层输入前进行归一化，提高训练稳定性
RMSNorm替代LayerNorm：通过省略均值中心化步骤，降低计算复杂度
RoPE位置编码：支持长上下文扩展
SwiGLU激活函数：提高模型的非线性表达能力

LLaMA在保持高性能的同时，训练和推理成本相对较低，成为开源社区的重要模型。

Claude系列 由Anthropic开发，采用了独特的MoE（Mixture of Experts）架构。Claude的创新在于：

稀疏激活架构：仅激活部分专家，大幅降低推理时的计算需求
混合推理模式：支持快速响应和深度思考双模式
超长上下文支持：可达200,000 tokens，远超GPT-4

5.4 非Transformer架构的探索

尽管Transformer架构取得了巨大成功，但研究者们也在探索其他可能的架构，以解决Transformer在长序列处理、计算效率等方面的局限性。

状态空间模型（SSM, State Space Model） 是近年来备受关注的非Transformer架构。SSM的核心思想是通过隐状态的递归演化来建模序列，而不是依赖自注意力机制。

SSM的基本形式由四个参数(A, B, C, Δ)定义，包含两个核心方程：

状态方程 ：h'(t) = Ah(t) + Bx(t)
输出方程：y(t) = C*h(t)

其中，h(t)是隐藏状态，x(t)是输入，y(t)是输出。与传统RNN不同，SSM的隐藏状态可以是高维向量，能够存储比LSTM和GRU多N倍的信息。

Mamba是SSM架构的典型代表，由卡内基梅隆大学和普林斯顿大学联合开发。Mamba的创新包括：

选择性SSM：类似门控机制，可以根据输入决定哪些信息该记住，哪些该遗忘
输入自适应参数：每个token使用不同的Δ、B、C参数，实现对信息的选择性处理
硬件感知优化：利用GPU的扫描操作替代卷积，减少内存访问

Mamba在长文本处理上表现出色，能够处理超过1M长度的序列，同时保持线性复杂度，而不是Transformer的二次复杂度。

测试时训练（TTT, Test-Time Training） 代表了另一种创新思路。传统的大语言模型在训练完成后参数就固定了，而TTT让模型在推理阶段仍然能够学习和适应。

TTT-E2E（端到端测试时训练）的核心机制是：

通过下一词预测任务，将输入上下文信息压缩到模型权重中
使用元学习准备模型初始化，使模型具备快速适应能力
内循环优化next-token预测损失，外循环优化最终任务损失

TTT的优势在于能够处理超长上下文，因为它不需要像Transformer那样缓存所有的KV对，而是将上下文信息直接编码到权重中。实验表明，TTT-E2E在128K上下文时比全注意力机制快2.7倍，在200万上下文时快35倍。

六、架构演变的历史脉络与未来展望

回顾大语言模型架构的发展历程，我们可以看到一条清晰的演进脉络：

2017年，Transformer架构的提出奠定了基础，其完全基于自注意力的设计实现了并行化的突破。

2018年，BERT和GPT-1分别开创了Encoder-only和Decoder-only两条技术路线，证明了Transformer在理解和生成任务上的巨大潜力。

2019-2020年，随着模型规模的快速扩大，三种架构都得到了充分发展。T5展示了Encoder-Decoder架构在多任务学习上的优势，GPT-3则证明了Decoder-only架构在大规模扩展上的可行性。

2021年至今，Decoder-only架构逐渐占据主导地位，GPT-4、Claude、LLaMA等超大规模模型都采用这一架构。同时，研究者们也在探索非Transformer架构，如SSM、TTT等，以期在特定场景下超越Transformer的性能。

从技术发展趋势看，未来的大语言模型架构可能呈现以下特点：

架构融合。不同架构的界限正在变得模糊。例如，一些模型采用Prefix-Decoder设计，前半部分使用双向注意力理解输入，后半部分使用单向注意力生成输出；T5通过不同的注意力掩码在同一个架构中实现编码和解码功能。

效率优化。随着模型规模的不断增大，计算效率成为越来越重要的考量。MoE、稀疏注意力、线性注意力等技术将得到更广泛的应用。同时，针对特定硬件（如GPU、TPU）的架构优化也将成为重点。

专用化发展。通用大模型虽然能力强大，但在特定任务上可能不如专用模型高效。未来可能会出现更多针对特定领域（如代码生成、科学计算）或特定模态（如多模态）优化的架构。

新范式探索。SSM、TTT等非Transformer架构的出现表明，研究者们正在积极探索超越自注意力的新机制。这些探索虽然目前还处于早期阶段，但可能会带来新的突破。