自注意力机制的演进-从Transformer架构到DeepSeek-R1模型的深度语义理解革新

2025年，我国发布了开创性且高性价比的大语言模型-DeepSeek-R1，推动了AI领域的重大变革。本章节回顾了LLM的发展历程，其起点可追溯至2017年Transformer架构的提出，该架构通过自注意力机制(Self-Attention)彻底革新了自然语言处理技术。到2018年，BERT与GPT模型显著提升了上下文理解与文本生成能力；2020年，GPT-3凭借1750亿参数展示了卓越的[少样本]与[零样本]学习能力，但其生成内容存在与事实不符的幻觉问题，成为关键挑战。为应对这一问题，2022年OpenAI推出ChatGPT，采用 监督微调(SFT)与基于人类反馈的强化学习(RLHF)技术优化生成质量。至2023年，多模态模型(如GPT-4)整合了文本、图像和音频处理能力，赋予LLM更接近人类感知的能力。近期推出的OpenAI-o1与DeepSeek-R1推理模型(Reasoning Model)在复杂问题解决方面取得突破，展现了接近人类系统2思维的深度推理能力，标志着AI在模拟人类思维模式上的重要进展。此外，DeepSeek-R1以超成本效益与开源设计打破了传统AI规范，推动了先进LLM的普及，并加速了各行业的创新应用。

1. 语言模型 (Language Models)？

语言模型（Language Models, LM）是一种基于统计和机器学习的计算模型，旨在理解和生成自然语言。其核心目标是通过对大量文本数据的学习，捕捉语言的结构、语法、语义以及上下文关系，从而能够预测或生成符合人类语言习惯的文本。基于Transformer架构的大型语言模型（LLM）在性能和应用范围上取得了显著进展，正在深刻改变人工智能与人类交互的方式。

1.1 大型语言模型（LLM）

语言模型(LMs)和大型语言模型(LLMs)经常被兼容使用，但它们在规模、架构和能力上存在差异。LLM实际上是传统 LMs 的扩展版本，通常包含默认亿个模型参数。例如，GPT-3 拥有 1750 亿个参数。"LLM"这个术语在 2018--2019 年随着 GPT、BERT、 GTP-2和T5等模型的出现开始流行，但2020年GPT-3的发布真正展示了它们的潜力，在各种任务中表现出卓越的性能，并确立了LLM作为现代人工智能的基石地位。

1.2 自回归语言模型（Autoregressive Language Models）

大多数LLM 以自回归方式（Autoregressive）操作，这意味着他们根据前面的文本预测下一个字 (或token／sub-word)的概率分布（propability distribution） 。这种自回归特性使得模型能够复杂学习的语言模式和依赖，从而促成文本生成 。在数学上，LLM是一个概率模型（Probabilistic Model ），根据之前的输入文本（w ₁, w 2, ..., w ₙ₋₁）预测下一个字 ( wₙ)的概率分布。这可以表示为：P ( wₙ| w ₁, w 2,..., w ₙ₋₁)。在文本生成时，LLM 通过解码算法（Decoding Algorithm ）来确定下一个输出的字。这个过程可以采用不同的策略：既可以选择概率最高的下一个字（即贪婪搜索 ），也可以从预测的概率分布中随机抽取一个字 ，这种随机方法使得每次生成的文本都可能得到不同的，这种特性与人类语言的多样性和随机性相似。

1.3 生成能力

LLMs 的自回归特性使其能够基于前文提供的上下文逐词生成文本。从提示（prompt ）开始，如下图，模型通过迭代预测下一个字 (Next Word Prediction) ，直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答，LLM 通过将先前选择的标记添加到输入中进行迭代生成，尤如文字接龙 游戏。

这种生成能力推动了多种应用的发展，例如创意写作、对话式人工智能以及自动化客户支持系统。

2. Transformer革命 (2017)

2017 年，Vaswani 等人通过其开创性论文《Attention is All You Need 》引入了Transformer 架构，这标志着自然语言处理（NLP ）领域的一个重要转折点。Transformer 解决了早期模型（如循环神经网络RNN和长短期记忆网络LSTM ）的关键限制。这些传统模型在处理长程依赖性和顺序输入时面临诸多挑战，例如计算效率低下、训练时间过长以及梯度消失问题。这些问题使得基于RNN 或LSTM 的语言模型难以实现高效且准确的性能。而Transformer 的出现克服了这些障碍，彻底改变了NLP 领域的研究范式，并为现代大型语言模型的发展奠定了坚实基础。

2.1 自注意力与Transformer架构的核心创新

1. 自注意力机制 (Self-Attention) ：与传统的RNN 按顺序逐个处理标记不同，Transformer 引入了自注意力机制 ，允许模型动态权衡每个标记相对于其他标记的重要性。这种机制使模型能够专注于输入中与当前任务最相关的部分，从而更好地捕捉全局上下文信息。数学上，自注意力机制 通过以下公式计算：

Q、K、V 是查询**(query)、键 (key)和值 (value)**矩阵，dₖ 是键向量的维度。自注意力机制不仅支持并行计算，显著加快了训练速度，还增强了模型对全局上下文的理解能力。

2. 多头注意力 (Multi-Head Attention) ：多头注意力机制通过多个独立的注意力头并行操作，每个头专注于输入的不同方面。这些注意力头的输出被连接并通过一个线性变换层整合，从而生成更丰富、更全面的上下文表示。这种设计使模型能够从多个角度捕捉复杂的语义关系。

3. 前馈网络(Feed-Forward Network, FFN)和层归一化(Layer Norm) ：每个Transformer 层包含一个应用于每个标记的前馈网络（FFN ），以及层归一化和残差连接。前馈网络由两层全连接层组成，通常使用GELU (**Gaussian Error Linear Unit)**激活函数。层归一化和残差连接的设计有效稳定了训练过程，并支持构建更深的网络架构，从而提升了模型的表达能力。

4. 位置编码(Positional Encoding) ：由于Transformer 本身不包含序列信息（即标记的顺序），因此需要通过位置编码来显式地表示词序。位置编码通常采用正弦和余弦函数的形式，将位置信息注入到输入嵌入中。这种方法既保留了顺序信息，又不牺牲并行化的优势。

解释 Transformer 模型中位置编码的必要性

2.2 对语言建模的影响

可扩展性：Transformer 实现了完全并行化的计算方式，这使得在大规模数据集上训练超大模型成为可能。相比传统的RNN 和LSTM ，Transformer 的计算效率更高，能够充分利用现代硬件（如GPU 和TPU）的并行计算能力。
上下文理解 ：自注意力机制能够同时捕捉局部和全局依赖关系，显著提高了模型对上下文的理解能力。这种能力使Transformer生成的文本更加连贯，语义更加准确，尤其在处理复杂任务（如翻译、问答和文本生成）时表现出色。

Transformer通过自注意力机制、多头注意力、位置编码等创新设计，能够以前所未有的精确性和灵活性处理复杂任务的大规模高效语言模型奠定了基础。

3. 预训练Transformer模型时代 (2018--2020)

2017 年Transformer 架构的引入为NLP 的新时代铺平了道路，其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现：BERT 和GPT，它们展示了大规模预训练和微调范式的强大功能。

3.1 BERT：双向上下文理解 (2018)

2018 年，谷歌推出了BERT（Bidirectional Encoder Representations from Transformers） ，这是一种使用Transformer 编码器(Encoder )的突破性模型，在广泛的NLP 任务中取得了最先进的性能。与之前单向处理文本（从左到右或从右到左）的模型不同，BERT 采用了双向训练方法 ，使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示，BERT 在文本分类、命名实体识别（NER ）、情感分析等语言理解任务中表现出色。

BERT的关键创新包括：

掩码语言建模（Masker Language Modeling --- MLM） ：BERT 不是预测序列中的下一个词，而是被训练预测句子中随机掩码的标记 。这迫使模型在进行预测时考虑整个句子的上下文 --- --- 包括前后词语。例如，给定句子"The cat sat on the [MASK] mat "，BERT 会学习根据周围上下文预测 [MASK]是"soft"。
下一句预测（Next Sentence Prediction --- NSP） ：除了MLM 之外，BERT 还接受了称为下一句预测的次要任务训练，其中模型学习预测两个句子是否在文档中连续 。这帮助BERT在需要理解句子之间关系的任务中表现出色，例如问答和自然语言推理。

BERT 的影响：BERT 的双向训练使其在GLUE （通用语言理解评估）和SQuAD（斯坦福问答数据集）等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入的重要性 --- --- 这些表示根据周围词语动态变化 --- --- 并为新一代预训练模型铺平了道路。

3.2 GPT：生成式预训练和自回归文本生成（2018--2020）

虽然BERT 优先考虑双向上下文理解，但OpenAI 的GPT 系列采用了不同的策略，专注于通过自回归预训练实现生成能力 。通过利用Transformer的解码器(Decoder) ，GPT 模型在自回归语言模型和文本生成方面表现出色。

3.2.1 GPT(2018)：单向解码器Transformer建模

2018年6月 ，GPT系列的首个版本问世，是一个大规模的Transformer模型，经过训练以预测序列中的下一个词，类似于传统语言模型。

单向自回归训练：GPT使用因果语言建模目标进行训练，其中模型仅基于前面的标记预测下一个标记。这使得它特别适合于生成任务，如文本补全、摘要生成和对话生成。
下游任务的微调 ：GPT的一个关键贡献是它能够在不需要特定任务架构的情况下针对特定下游任务进行微调。只需添加一个分类头或修改输入格式，GPT就可以适应诸如情感分析、机器翻译和问答等任务。

3.2.2 GPT-2 (2019): 扩展语言模型以实现广义零样本学习

GPT-2于2019年2月发布 ,在原版GPT的成功基础上，OpenAI发布了GPT-2，这是一个参数量达15亿 的更大模型。GPT-2展示了令人印象深刻的零样本 (Zero-shot )能力，意味着它可以在没有任何特定任务微调的情况下执行任务。例如，它可以生成连贯的文章、回答问题，甚至在语言之间翻译文本，尽管没有明确针对这些任务进行训练。

3.2.3 GPT-3 (2020): 大规模语言模型的崛起

GPT-3于2020年6月发布，标志着语言模型规模扩展的一个转折点 。凭借惊人的1750亿参数 (175B parameters )，GPT-3突破了大规模预训练的可能性界限。它展示了显著的少样本 (Few-short )和零样本 (Zero-short )学习能力，在推理时只需提供最少或无需示例即可执行任务。GPT-3的生成能力扩展到了创意写作、编程和复杂推理任务，展示了超大模型的潜力。

3.3 GPT的影响及规模的作用

GPT 模型的引入，特别是GPT-3 ，标志着AI 的一个变革时代，展示了自回归架构和生成能力的强大功能。这些模型为内容创作、对话代理和自动推理等应用开辟了新的可能性，在广泛的任务中达到了接近人类的表现。GPT-3凭借其1750亿参数证明了规模的深远影响，表明在大规模数据集上训练的更大模型可以树立新的AI能力标杆。

语言建模性能随着模型大小、数据集大小和训练使用的计算量的增加而平稳提升

在2018年至2020年间，该领域由对规模的不懈追求驱动。研究人员发现，随着模型规模的增长 --- --- 从数百万到数十亿参数 --- --- 它们在捕捉复杂模式和泛化到新任务方面变得更好。这种规模效应得到了三个关键因素的支持：

数据集大小 ：更大的模型需要庞大的数据集进行预训练。例如，GPT-3是在大量互联网文本语料库上进行训练的，使其能够学习多样化的语言模式和知识领域。
计算资源 ：强大的硬件（如GPU和TPU）的可用性以及分布式训练技术，使得高效训练具有数十亿参数的模型成为可能。
高效架构：混合精度训练和梯度检查点等创新降低了计算成本，使得在合理的时间和预算内进行大规模训练更加实际。

这个规模扩展的时代不仅提升了语言模型的性能，还为未来的AI突破奠定了基础，强调了规模、数据和计算在实现最先进结果中的重要性。

4. 后训练对齐：弥合AI与人类价值观之间的差距 (2021--2022)

GPT-3 （一个拥有1750亿参数的LLM ）生成几乎无法与人类写作区分的文本的能力引发了关于AI生成内容的真实性和可信度的重大担忧。尽管这一成就标志着AI发展的一个重要里程碑，但也突显了确保这些模型与人类价值观、偏好和期望保持一致的关键挑战。一个主要问题是幻觉 （Hallucination ），即LLM生成与事实不符、无意义或与输入提示矛盾的内容，给人一种 (一本正经地胡说八道 )的印象 。为了解决这些挑战，2021年和2022年的研究人员专注于改善与人类意图的一致性并减少幻觉，导致了监督微调（SFT ）和基于人类反馈的强化学习（RLHF）等技术的发展。

4.1 监督微调 (SFT)

增强GPT-3 对齐能力的第一步是监督微调（SFT ），这是RLHF 框架的基础组成部分。SFT 类似于指令调优，涉及在高质量的输入-输出对或演示上训练模型，以教它如何遵循指令并生成所需的输出。

这些演示经过精心策划，以反映预期的行为和结果，确保模型学会生成准确且符合上下文的响应。

然而，SFT本身有局限性：

可扩展性：收集人类演示是劳动密集型且耗时的，尤其是对于复杂或小众任务。
性能：简单模仿人类行为并不能保证模型会超越人类表现或在未见过的任务上很好地泛化。

为了克服这些挑战，需要一种更具可扩展性和效率的方法，为下一步铺平了道路：基于人类反馈的强化学习（Reinforcement Learning from Human Feedback --- RLHF）。

4.2 基于人类反馈的强化学习 (RLHF)

OpenAI在2022年引入的RLHF 解决了SFT 的可扩展性和性能限制。与需要人类编写完整输出的SFT 不同，RLHF 涉及根据质量对多个模型生成的输出进行排名。这种方法允许更高效的数据收集和标注，显著增强了可扩展性。
RLHF过程包括两个关键阶段：

训练奖励模型：人类注释者对模型生成的多个输出进行排名，创建一个偏好数据集。这些数据用于训练一个奖励模型，该模型学习根据人类反馈评估输出的质量。
使用强化学习微调LLM ：奖励模型使用近端策略优化（Proximal Policy Optimization - PPO ）（一种强化学习算法）指导LLM的微调。通过迭代更新，模型学会了生成更符合人类偏好和期望的输出。

这个两阶段过程 ------结合SFT和RLHF------ 使模型不仅能够准确遵循指令，还能适应新任务并持续改进。通过将人类反馈整合到训练循环中，RLHF显著增强了模型生成可靠、符合人类输出的能力，为AI对齐和性能设定了新标准。

4.3 ChatGPT：推进对话式AI (2022)

2022年3月，OpenAI推出了GPT-3.5 ，这是GPT-3的升级版，架构相同但训练和微调有所改进。关键增强包括通过改进数据更好地遵循指令，减少了幻觉（尽管未完全消除），以及更多样化、更新的数据集，以生成更相关、上下文感知的响应。

ChatGPT

基于GPT-3.5 和InstructGPT ，OpenAI 于2022年11月推出了ChatGPT ，这是一种突破性的对话式AI模型，专门针对自然的多轮对话进行了调节。ChatGPT的关键改进包括：

对话聚焦的重点 ：在大量对话数据集上进行训练，ChatGPT注重维持对话的上下文和连贯性，实现更引人入胜和类似人类的互动。
RLHF ：通过整合RLHF，ChatGPT学会生成了不仅有用的诚实而且和无害的响应。人类培训师根据质量对响应进行排名，使模型逐步改进其表现。

ChatGPT的推出时刻是AI的一个关键，通常被称为ChatGPT时刻 （ChatGPT moment) ），因为它展现了对话式AI改变人机交互的潜力。

5. 多模态模型：连接文本、图像及其他 (2023--2024)

在2023 年至2024 年间，像GPT-4, GPT-4V 和GPT-4o 这样的多模态大型语言模型（MLLMs ）通过将文本、图像、音频和视频整合到统一系统中重新定义了AI 。这些模型扩展了传统语言模型的能力，实现了更丰富的交互和更复杂的问题解决。

5.1 GPT-4V：视觉遇见语言

2023 年，OpenAI 推出了GPT-4V ，将GPT-4 的语言能力与先进的计算机视觉相结合。它可以解释图像、生成标题、回答视觉问题，并推断视觉中的上下文关系。其跨模态注意力机制允许文本和图像数据的无缝集成，使其在医疗保健（如分析医学图像）和教育（如互动学习工具）等领域具有价值。

详细价绍：What is GPT-4V(ision)?

5.2 GPT-4o：全模态前沿

到2024 年初，GPT-4o 通过整合音频和视频输入进一步推进了多模态。它在一个统一的表示空间中运行，可以转录音频、描述视频或将文本合成音频。实时交互和增强的创造力 ------如生成多媒体内容------使其成为娱乐和设计等行业的多功能工具。

现实世界的影响: MLLMs革新了医疗保健（诊断）、教育（互动学习）和创意产业（多媒体制作）等领域。它们处理多种模态的能力解锁了创新的新可能性。

6. 开源和开放权重模型 (2023--2024)

在2023 年至2024 年间，开源和开放权重AI模型获得了动力，使先进AI技术的访问民主化。

开放权重LLMs ：开放权重模型提供公开访问的模型权重，限制极少。这使得微调和适应成为可能，但训练架构和训练数据保持封闭。它们适合快速部署。例子：Meta AI 的LLaMA 系列和Mistral AI 的Mistral 7B / Mixtral 8x7B
开源LLMs ：开源模型使底层代码和结构公开可用。这允许全面理解、修改和定制模型，促进创新和适应性。例子：OPT 和BERT。
社区驱动的创新 ：像Hugging Face 这样的平台促进了协作，LoRA 和PEFT 等工具使高效的微调成为可能。

社区开发了专门针对医疗、法律和创意领域的模型，同时优先考虑道德AI 实践。开源社区目前处于一个激动人心的阶段，得益于尖端对齐技术的出现。这一进展导致越来越多的卓越开放权重模型发布。因此，闭源和开放权重模型之间的差距正在稳步缩小。LLaMA3.1--405B模型首次历史性地弥合了与闭源对应物的差距。

7. 推理模型：从「系统1」到「系统2」思维的转变 (2024)

2024 年，AI 开发开始强调增强「推理」(Reasoning )，从简单的模式识别转向更逻辑化和结构化的思维过程。这一转变受到认知心理学双重过程理论的影响，区分了「系统1 」（快速、直觉）和「系统2 」（缓慢、分析）思维。虽然像GPT-3 和GPT-4 这样的早期模型在生成文本等「系统1」任务上表现出色，但在深度推理和问题解决方面却有所欠缺。

7.1 OpenAI-o1：推理能力的一大飞跃(2024)

2024 年9 月12 日，OpenAI 发布的o1-preview 标志着人工智能能力的重大飞跃，尤其是在解决复杂推理任务（如数学和编程）方面。与传统LLMs 不同，推理模型采用了「长链思维 」（Long CoT ） --- --- 即内部的推理轨迹，使模型能够通过分解问题、批判自己的解决方案并探索替代方案来"思考"问题。这些CoTs 对用户是隐藏的，用户看到的是一个总结性的输出。

推理模型的关键特性包括：

长链思维 （Long CoT）：使模型能够将复杂问题分解为更小的部分，批判性地评估其解决方案，并探索多种方法，类似于搜索算法。
推理时计算控制 ：对于更复杂的问题，可以生成更长的CoTs ；而对于较简单的问题，则使用较短的CoTs以节省计算资源。
增强的推理能力 ：尽管像o1-preview 这样的初始推理模型在某些领域的能力不如标准LLMs ，但在推理任务中，它们的表现远远超越了后者，常常能与人类专家媲美。例如，o1-preview 在数学（AIME 2024 ）、编程（CodeForces ）和博士级别的科学问题上均超越了GPT-4o 。

OpenAI-o1 ：
2024 年12 月5 日，OpenAI 的完整版o1 模型进一步提升了性能，在美国AIME 2024 数学考试中排名前500 名学生之列，并显著超越了GPT-4o （解决了74%-93%的AIME 问题，而GPT-4o 仅为12% ）。此外，o1-mini 作为更便宜且更快的版本，在编码任务中表现出色，尽管其成本仅为完整版o1 的20%。

OpenAI-o3：
2025 年1 月31 日，OpenAI 发布了o3 ，这是其推理模型系列的最新突破，建立在o1 模型成功的基础之上。尽管完整的o3模型尚未发布，但其在关键基准测试中的表现被描述为具有开创性。

ARC-AGI ：达到87.5%的准确率，超过了人类水平的85% ，远超GPT-4o 的5%。
编程：在SWE-Bench Verified 上得分71.7% ，并在Codeforces 上获得2727 的Elo 评分，跻身全球前200名竞争性程序员之列。
数学：在EpochAI 的FrontierMath 基准测试中达到25.2 %的准确率，相比之前的最先进水平（2.0% ）有了显著提升。

来源OpenAl o3-mini

8. 成本高效的推理模型：DeepSeek-R1 (2025)

LLMs 通常需要极其庞大的计算资源来进行训练和推理。像GPT-4o 和OpenAI-o1 这样的最先进LLM 模型的闭源性质限制了对尖端AI 的普及化。

8.1 DeepSeek-V3 (2024--12)

2024 年12 月下旬，深度求索-V3 (DeepSeek-V3 )作为一种成本高效的开放权重LLM 出现，为AI 的可访问性设定了新标准。DeepSeek-V3 与OpenAI 的ChatGPT 等顶级解决方案相媲美，但开发成本显著降低，估计约为560 万美元，仅为西方公司投资的一小部分。该模型最多包含6710亿 个参数，其中370亿 个活跃参数，并采用专家混合（MoE ）架构，将模型划分为专门处理数学和编码等任务的组件，以减轻训练负担。DeepSeek-V3 采用了工程效率，例如改进Key-Value缓存管理和进一步推动专家混合方法。该模型引入了三个关键架构：

多头潜在注意力（Multi-head Latent Attention --- MLA） ：通过压缩注意力键和值来减少内存使用，同时保持性能，并通过旋转位置嵌入（RoPE）增强位置信息。
DeepSeek专家混合（DeepSeekMoE） ：在前馈网络（FFNs）中采用共享和路由专家的混合，以提高效率并平衡专家利用率。
多标记预测 (Multi-Token Prediction --- MTP) ：增强模型生成连贯且上下文相关的输出的能力，特别是对于需要复杂序列生成的任务。

DeepSeek-V3 的发布引发了全球科技抛售，危及1 万亿美元的市值，并导致英伟达股票盘前下跌13% 。DeepSeek-V3 的价格为每百万输出标记2.19 美元，约为OpenAI 类似模型成本的1/30。

8.2 DeepSeek-R1-Zero 和 DeepSeek-R1 (2025--01)

仅仅一个月后，2025 年1 月下旬，DeepSeek 通过发布DeepSeek-R1-Zero 和DeepSeek-R1 再次引起轰动，这些模型展示了卓越的推理能力，训练成本极低。利用先进的强化学习技术，这些模型证明了高性能推理可以在没有通常与尖端AI 相关的巨额计算费用的情况下实现。这一突破巩固了DeepSeek 作为高效和可扩展AI 创新领导者的地位。

DeepSeek-R1-Zero ：一种基于DeepSeek-V3的推理模型，通过强化学习（RL ）增强其推理能力。它完全消除了监督微调 (SFT )阶段，直接从名为DeepSeek-V3-Base 的预训练模型开始。它采用了一种基于规则的强化学习方法 (Rule-based Reinforcement Learning )，称为组相对策略优化 （Group Relative Policy Optimization --- GRPO ），根据预定义规则计算奖励，使训练过程更简单且更具可扩展性。
DeepSeek-R1 ：为了解决DeepSeek-R1-Zero 的局限性，如低可读性和语言混杂，DeepSeek-R1 纳入了一组有限的高质量冷启动数据和额外的RL 训练。该模型经历了多个微调和RL 阶段，包括拒绝采样和第二轮RL 训练，以提高其通用能力和与人类偏好的一致性。
蒸馏DeepSeek模型 ：DeepSeek 开发了较小的、蒸馏版的DeepSeek-R1 ，参数范围从15亿 到700亿 ，将先进的推理能力带到较弱的硬件上。这些模型使用原始DeepSeek-R1 生成的合成数据进行微调，确保在推理任务中表现出色，同时足够轻量化以便本地部署。

DeepSeek-R1 在各种基准测试中表现出竞争力，包括数学、编码、常识和写作。根据使用模式，它相比OpenAI 的o1 模型等竞争对手提供了显著的成本节省，使用成本便宜20 到50 倍。

8.3 对AI行业的影响

DeepSeek-R1 的引入挑战了AI领域的既定规范，使先进LLMs 得以普及化 ，并促进了一个更具竞争力的生态系统。其可负担性和可访问性预计将推动各行各业的采用和创新增加。最近，领先的云服务提供商如AWS 、微软和谷歌云已在其平台上提供DeepSeek-R1 。较小的云提供商和DeepSeek母公司以竞争性定价提供它。

结论：

自2017 年Transformer 架构问世以来，直至2025 年DeepSeek-R1 的发布，大型语言模型（LLMs）的演进清晰地展现了人工智能领域的一场范式转移。这一历程由四个关键里程碑所界定，每个阶段都代表着技术突破和应用拓展的重要节点：

Transformers (2017) ： Transformer 架构的提出，标志着序列建模领域的重大突破。它摒弃了传统的循环神经网络（RNNs ）和卷积神经网络（CNNs ），引入了自注意力机制（Self-Attention Mechanism ），实现了并行化计算，显著提升了训练效率和模型性能。Transformer 架构为构建大规模、高效的语言模型奠定了坚实的基础，使其能够以空前的精确性和灵活性处理复杂的自然语言处理（NLP）任务，例如机器翻译、文本摘要和情感分析等。
GPT-3 (2020)： GPT-3 的出现，充分展示了模型规模在人工智能领域所蕴含的变革性力量。通过在海量数据集上进行预训练（Pre-training ），GPT-3 证明了超大规模模型能够在广泛的应用场景中实现接近人类水平的性能，为人工智能的能力设定了新的基准。GPT-3 不仅在文本生成、代码编写等方面表现出色，还展现出一定的零样本学习（Zero-shot Learning）能力，即在没有特定任务训练数据的情况下，也能完成任务。
ChatGPT (2022)： ChatGPT 的发布，将对话式人工智能推向了大众视野。通过强化学习与人类反馈（Reinforcement Learning from Human Feedback, RLHF ）等技术，ChatGPT 实现了更自然、流畅的对话交互，降低了用户的使用门槛，使高级人工智能技术变得更加亲民和互动。与此同时，ChatGPT的广泛应用也引发了关于人工智能伦理、社会影响以及潜在偏见等重要议题的讨论，促使人们更加关注人工智能的负责任发展。
DeepSeek-R1 (2025)： DeepSeek-R1 的创新之处在于其架构设计和训练策略的优化。它采用了混合专家模型（Mixture of Experts, MoE ），通过将模型分解为多个专家子网络，并根据输入动态选择激活的专家，从而提升了模型的容量和效率。此外，DeepSeek-R1 还采用了多头潜在注意力 （Multi-Head Latent Attention, MLA ）机制，增强了模型捕捉长距离依赖关系的能力。多标记预测 （Multi-Token Prediction, MTP ）则提高了模型的训练效率。结合高效的多阶段强化学习（RL ）训练算法，DeepSeek-R1 实现了推理过程的优化，并将运营成本大幅降低，相较于许多领先的闭源模型，成本削减高达50 倍。其开源特性加速了尖端人工智能应用的普及，赋予各行业创新者更多能力，同时也突显了可扩展性、对齐性（Alignment）和可访问性在未来人工智能发展中的重要性。

总而言之，大型语言模型正逐步演变为多功能、多模态的推理系统，能够同时满足普通用户和特定领域的需求。这一演变得益于Transformer架构、自注意力机制、混合专家模型等突破性技术创新，以及在模型规模、易用性和成本效益上的显著提升，推动人工智能朝着更加包容、实用和影响力深远的方向迈进。未来的发展趋势将更加注重模型的效率、可解释性、安全性以及与人类价值观的对齐，以实现人工智能的可持续发展。

原文来自：https://medium.com/@lmpo/大型语言模型简史-从transformer-2017-到deepseek-r1-2025-cc54d658fb43