回顾-大语言模型分类

备注 :为了方便理解记忆,在此总结归纳(注:笔者水平有限,若有描述不当之处,欢迎大家留言)。

阐述的思维逻辑:会给出大的结构类型,后续会继续整理对应的代表方法。

LLM结构类型: 自回归模型(AR) 扩散语言模型(DLMs)

|-encode-decoder; |-连续空间DLMs

|-dencoder-only; |-离散空间DLMs

|-decoder-only; |-混合AR-DLMs

一 基础理解

1.1 自回归模型(AR)

Encoder-only :拥有双向的注意力机制,即计算每一个词的特征时都看到完整上下文。专注于理解分析输入的信息,而不是创造新的内容。(阅读和理解一本书的内容)

优点:强大的理解能力适应性广泛(多种分析型任务)

缺点:生成能力有限:不擅长自主生成文本和内容

Decoder-only : 拥有单向的注意力机制,即计算每一个词的特征时都只能看到上文,无法看到下文。更好的理解和预测语言模式,尤其适合处理开放式的,生成式性的任务。 (擅长写作或者生成文章)

优点:强大的生成能力:能够生成连贯,有创造性的文本

灵活性:各种生成型任务

缺点:有限的理解能力:不擅长理解复杂的输入数据

Encoder-decoder: Encoder部分使用双向的注意力,Decoder部分使用单向注意力(之所以能够在某些场最下表现更好,大概只是因为它多了一倍参数。)擅长处理需要理解输入 然后生成相关输出 的任务,(翻译和问答系统**)**。

优点: 灵活强大:能够理解复杂输入并生成相关输出

适用于复杂任务:机器翻译,文本摘要等。

缺点:架构复杂:相比单一的Encoder和Decoder,它更复杂

训练挑战:需要更多的训练数据和计算资源

1.2 扩散语言模型(DLMs)

连续空间DLMs:将离散的文本token映射到连续的嵌入空间(如通过预训练语言模型的Embedding层),在连续空间中完成「加噪-去噪」过程,最后通过「 nearest-neighbor搜索」或「解码器」将连续嵌入映射回离散token。

优点:继承图像扩散模型的成熟技术,例如可直接使用DDPM、Rectified Flow等经典扩散框架,且连续空间的数学性质更易优化

缺点:嵌入-映射 过程会损失部分语言语义,且生成的token可能存在语义偏差(如生成与目标语义相近但不匹配的词)

离散空间DLMs:无需转换到连续空间,直接在「token词汇表」上定义扩散过程------通过「结构化转移矩阵」将干净token逐步替换为特殊的[MASK](加噪),再训练模型从[MASK]中恢复原始token(去噪)。

优点:无语义损失,扩散过程完全在离散语言空间进行,生成的token更符合语言习惯,且无需额外的「映射步骤」,推理流程更简洁。

离散空间DLMs还在长序列处理上取得突破

缺点:

混合AR-DLMs:结合AR模型的「长程依赖建模能力」与DLM的「并行生成能力」,典型方案是「块级AR+块内DLM」------将文本分为多个块,块与块之间采用AR生成(保证全局连贯),块内部采用DLM并行生成(提升速度)。

优点:「兼顾质量与效率」------既避免了纯DLM「并行解码诅咒」(并行生成导致token间依赖丢失),又解决了纯AR「速度慢」的问题。

缺点:

二 进阶理解

2.1 为何现在的LLM大都是Decoder only的架构

1 总述:Encoder-only专注于理解和分析输入的信息,不擅长生成任务。Decoder-only: 更好的理解和预测语言模式,适合处理开放式的,生成式性的任务。在各种下游任务(zero-shot和few-shot)上泛华性都很好。

2 展开论述的思路:现状-->泛化性-->效率-->生态-->展望

现状:基于现在新出的模型结构和研究的经验来说,decoder-only 的泛化性能更好:

新出的模型:llama,PaLM等

研究经验:What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization在最⼤ 5B 参数量、170B token 数据量的规模下做了一些列实验,发现用 next token prediction 预测训练的 decoder-only 模型在各种下游任务之zero-shot 泛化性能最好;另外,许多工作表明 decoder-only 模型的few-shot(也就是上下文学习,in-context learning)泛化能力更强。
泛化性能更好的潜在原因:

1. @苏剑林 苏神提出的注意力稀疏的问题,双向 attention 的注意力矩阵容易收敛为低秩状态,而 causal attention* 的注意力矩阵是下三⻆矩阵,必然是稠密的,建模能力更强;

2. @yili ⼤佬强调的预测任务难度问题,纯粹的 decoder-only 架构 + next token prediction 训练,每个 token 任务都依赖全部上文信息,任务定义的预测难度更⾼,当模型足够⼤、采样更充⾜的时侯,decoder-only 模型学习到通用模式的上限更⾼;

3. @mimimum ⼤佬强调,上下文学习为 decoder-only 架构带来的更好的 few-shot 能⼒:

prompt 和 demonstration 的信息可以视为对模型参数的隐式微调,decoder-only 的架构相比 encoder-decoder 在 in-context learning 上会具有优势,因为 prompt 可以更直接地作用于 decoder 每一层的参数,微调的信号更强;

4. 多位⼤佬强调了一个很容易被忽视的属性,causal attention(就是 decoder-only 的单向 attention)具有隐式的位置信息映射,

打破了 transformer 的位置信不变性,而带有双向attention的模型,如果不显式加 position embedding,双向 attention 的部分 token 可以掉换也不改变表示,对语言的序列区分能力弱。
效率: decoder-only 支持一直复⽤ KV-Cache*,对多 token 语境更友好,因为每个 token 任务只和它之前的信息有关,而 encoder-decoder 就难以做到。
生态 :在OpenAI 作为开拓者使用decoder-only在结果上大放异彩,目前很多厂商都在decoder-only上发力。

OpenAI 作为开拓者肯定要⼲最纯粹的事,以 decoder-only 架构的 simplicity 为优雅和可扩展的训练方法和 Scaling Law,尽管当时 KV-Cache 还没引⼊时计算成本⼤,⾃然不太能做⼤参数的⼤⽹络,继续采⽤ decoder-only 架构。在工程生态上,decoder-only 架构也形成了先发优势,Megatron* 和 flash attention* 等重要⼯具对 causal attention 的⽀持更好。
展望 :目前decoder-only在使用过程中也遇到效率和扩展等问题**,现在已经有一些工作在探索DLMs等架构,** 还没有特别系统的实验证据能说明 decoder-only 一定更好,

2.2 DLMS

todo.......

四 参考文献

1 Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges(https://arxiv.org/pdf/2412.03220)

2 Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond(https://arxiv.org/pdf/2304.13712)

3 A Survey of Large Language Models(https://arxiv.org/pdf/2303.18223)

4 为何现在的LLM都是Decoder-only的架构: https://kexue.fm/archives/9529

5 A Survey on Diffusion Language Models(https://arxiv.org/pdf/2508.10875

6 The Big LLM Architecture Comparison(https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison.html

7 What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?(https://arxiv.org/pdf/2204.05832

8 LLaMA: Open and Efficient Foundation Language Models

9 PaLM: Scaling Language Modeling with Pathways

10 why can gpt learn in-context language models implicitly perform gradient descent as meta-optimizers

相关推荐
nuowenyadelunwen11 小时前
Stanford CS336 Assignment 1: BPE Tokenizer
llm·bpe tokenizer·stanford cs336
农场主John14 小时前
Accelerate_deepspeed使用
pytorch·llm·deepspeed
组合缺一15 小时前
论 AI Skills 分布式发展的必然性:从单体智能到“云端大脑”的跃迁
java·人工智能·分布式·llm·mcp·skills
小哈里15 小时前
【计算】Ray框架介绍,AI基础设施之“通用”分布式计算(跨场景,门槛低,大规模生产,单机->集群->推理一站式)
人工智能·大模型·llm·分布式计算·ray
山顶夕景1 天前
【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR
大模型·llm·ocr·多模态
玄同7651 天前
LangChain 核心组件全解析:构建大模型应用的 “乐高积木”
人工智能·python·语言模型·langchain·llm·nlp·知识图谱
亚里随笔1 天前
相对优势估计存在偏差——揭示群体相对强化学习中的系统性偏差问题
人工智能·深度学习·机器学习·llm·agentic·rlvr
带刺的坐椅1 天前
论 AI Skills 分布式发展的必然性:从单体智能到“云端大脑”的跃迁
java·ai·llm·mcp·tool-call·skills
中杯可乐多加冰2 天前
RAG 深度实践系列(三):RAG 技术演变与核心架构的深度剖析
人工智能·深度学习·大模型·llm·知识库·rag·graphrag
Wilber的技术分享2 天前
【Transformer原理详解2】Decoder结构解析、Decoder-Only结构中的Decoder
人工智能·笔记·深度学习·llm·transformer