AI学习笔记整理（55）——大模型训练流程

大模型的概念与发展史

参考链接：https://zhuanlan.zhihu.com/p/712095179

大型语言模型，也称大语言模型、大模型（Large Language Model，LLM；Large Language Models，LLMs) 。

大语言模型是一种深度学习模型，特别是属于自然语言处理（NLP）的领域，一般是指包含数干亿（或更多）参数的语言模型，这些参数是在大量文本数据上训练的，例如模型GPT-3，PaLM，LLaMA等，大语言模型的目的是理解和生成自然语言，通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。

(参数可以被理解为模型学习任务所需要记住的信息，参数的数量通常与模型的复杂性和学习能力直接相关，更多的参数意味着模型可能具有更强的学习能力。)

大模型是语言模型发展的高级阶段，本节来梳理一下语言模型（Language Models，LM）的四个发展阶段，让大家可以更好地了解大模型是怎么进化出来的。

具体分成了统计语言模型、神经网络语言模型、预训练语言模型、大语言模型。

例如，最近网络上非常热火的ChatGPT技术，也是大模型的一种应用。OpenAI 的 GPT (Generative Pre-trained Transformer) 系列是大语言模型的典型代表，作为目前为止，公认最强的 GPT-4 架构，它已经被训练在数十亿的单词上。从实际应用表现来看，大语言模型具备回答各种问题、编写文章、编程、翻译等能力，如果深究其原理，LLM建立在Transformers架构之上，并在很大程度上扩展了模型的大小、预训练数据和总计算量。

可以这么通俗的理解：如果一个模型"足够大"，那它就可以称为大模型。

OpenAI大模型发展历程

GPT系列大体经历了如下6个发展阶段（下图上一行），最新的版本是GPT-4，目前一直在迭代优化中。下图第二行是基于GPT-3.5的一系列迭代版本（大家如果购买过openAI的大模型账号并进行过相关开发，应该是知道这些名字的），这个版本被大家熟知是2022年11月30日发布的chatGPT，目前chatGPT一直在优化中，GPT-4中的能力也逐步融入到了chatGPT中，chatGPT是一个不断进化的系统。

除了OpenAI外，国内外还有非常多的公司参与大模型赛道，下面图2是截止到2023年6月底国内外重要的大模型的发展脉络。

从Transformer（2017）到DeepSeek-R1（2025）

参考链接：https://hub.baai.ac.cn/view/43825

从2017年Transformer架构的引入到2025年DeepSeek-R1的发展，大型语言模型（LLMs）的演变标志着人工智能领域的一个革命性篇章。LLMs的崛起由四个里程碑式的成就标示：

Transformers (2017)：Transformer架构的引入为构建能够以前所未有的精确性和灵活性处理复杂任务的大规模高效模型奠定了基础。
GPT-3 (2020)：该模型展示了规模在AI中的变革力量，证明了在大规模数据集上训练的巨大模型可以在广泛的应用中实现接近人类的表现，为AI所能完成的任务设立了新的基准。
ChatGPT (2022)：通过将对话式AI带入主流，ChatGPT使高级AI对普通用户来说更加可访问和互动。它还引发了关于广泛采用AI的伦理和社会影响的关键讨论。
DeepSeek-R1 (2025)：代表了成本效率的一大飞跃，DeepSeek-R1利用专家混合架构(MoE)和优化算法，与许多美国模型相比，运营成本降低了多达50倍。其开源性质加速尖端AI应用的普及化，赋予各行业创新者权力，并强调了可扩展性、对齐性和可访问性在塑造AI未来中的重要性。

LLMs正逐步演变为多功能、多模态的推理系统，能够同时满足普通用户和特定需求。这一演变得益于突破性技术创新，以及在规模、易用性和成本效益上的显著提升，推动人工智能朝着更加包容和影响力深远的方向迈进。

大模型训练流程

参考链接：https://cloud.tencent.com/developer/article/2506010
https://zhuanlan.zhihu.com/p/1957818878836061255
https://blog.csdn.net/l01011_/article/details/152719571

训练一个AI大模型，并不是简单地"喂数据"就行。它更像是一场"建模工程"，需要科学的方法、严密的流程。其核心训练环节可概括为五大阶段：数据收集与预处理、模型架构设计、预训练阶段、微调与对齐、部署与优化。每个阶段环环相扣，共同决定了大模型的最终效果与实用价值。

1. 数据收集与预处理：大模型的"粮食工程"

数据的好坏，直接决定了模型的质量。数据量通常非常庞大，以确保模型能够学习到足够丰富的语言模式。以自然语言大模型为例，数据来源通常包括：

网络文本：百科全书、新闻网站、社交平台、开源代码等;

专业文档：法律条款、医疗文献、学术论文等;

人工生成数据：如清洗过的对话语料、问答对。

一个常见的数据来源是 Common Crawl，这是一个免费开放的网页爬取数据库，包含了过去18年间约2500亿个网页的数据。然而，原始网页数据通常包含大量噪声，如垃圾信息、重复内容和低质量文本，因此数据预处理是必不可少的环节。https://commoncrawl.org/

数据清洗:

清洗数据是为了去除噪声和无关信息，提高数据质量。具体操作包括去除重复数据、过滤掉非文本内容(如HTML标签)、纠正拼写错误等。

预处理过程包括：

清洗敏感/脏数据;
格式标准化(JSON、TXT、CSV等);
分词、去噪、语法校验;
标签与结构注释(尤其在监督训练中)。

分词（Tokenization）

在神经网络能够处理文本之前，文本需要被转换为数值形式。这一转换过程称为分词（Tokenization）。分词的作用是将单词、子词或字符映射为唯一的数值token。这些token是语言模型的基本构建单元，是模型理解和处理语言的核心组件。

以GPT-4为例，其可能的token数量为100,277个。每个token对应一个唯一的数值ID，模型通过这些ID来识别和处理文本。

如果你想直观地了解分词的过程，可以尝试使用Tiktokenizer工具。它允许你输入任意文本，并查看其如何被拆解为token以及每个token对应的数值ID。通过分词，文本被转化为模型可以理解的数值序列，为后续的模型训练和推理奠定了基础。

2.模型架构设计：选对"脑袋"很关键

这一步是"技术含量"最高的部分，决定了你用什么样的结构来承载学习任务。

确定模型的架构，例如选择使用Transformer架构，决定使用多少层、每层的宽度等。设计损失函数，定义评估标准。决定初始化参数的方式以及优化器的选择。架构选择要结合目标任务、数据类型、训练资源等多维考量。

常见的架构有：

Transformer(目前最主流);
BERT系列(适合理解任务);
GPT系列(适合生成任务);
多模态融合架构(图文语音结合);

3.预训练阶段：让模型"通读百科全书"

在LLM能够生成连贯文本之前，它需要先掌握语言的基本规律，这一过程称为预训练。预训练是一个计算密集型任务，涉及大量数据和复杂的模型优化。

这一步主要是无监督学习阶段------即让模型先对大量文本进行"语言建模"。比如：让模型预测下一个词;对句子中的某个词进行"填空";理解句子结构和上下文逻辑;

预训练的目标是让模型具备"基础通用能力"，比如：语法理解;长文本记忆;多轮对话上下文追踪。

在文本经过分词处理后，神经网络的任务是学习如何根据上下文预测下一个token。具体来说，模型会接收一串输入token（例如"我正在烹饪"），并通过其复杂的数学结构------即模型的架构------进行处理，最终输出对下一个token的预测。

这一过程是LLM训练的核心。模型通过不断调整其内部参数，逐步学会从海量数据中捕捉语言规律，从而能够生成连贯且符合上下文的文本。这种基于上下文的学习能力，使得LLM能够在各种任务中表现出色。

神经网络主要由两个关键部分构成：：

1.参数（参数，Weights）：通过训练学习得到的数值，用于调整模型的行为。

2.架构（Architecture）：定义输入token如何被处理以生成输出的数学结构。

在训练初期，模型的预测几乎是随机的。但随着训练的推进，它逐渐学会为可能的下一个token分配概率。当模型正确预测了token（例如"食"）时，会通过反向传播（Backpropagation）调整其数十亿个参数。这一优化过程旨在提高正确预测的概率，同时降低错误预测的概率，从而不断强化模型的学习能力。

这个过程会在海量数据集上重复数十亿次，直到模型能够高效地捕捉语言规律。

基础模型（Base Model）：预训练的成果

在这一阶段，基础模型已经学会了：

理解单词、短语和句子之间的关联。
识别训练数据中的统计模式。
然而，基础模型并未针对具体任务进行优化。你可以将其视为一个高级的"自动补全系统"------它能够基于概率预测下一个token，但缺乏对指令的精确理解和执行能力。

基础模型有时会逐字复述训练数据，并可以通过上下文学习（In-Context Learning）进行特定应用。例如，通过在提示（Prompt）中提供示例，引导模型生成符合预期的响应。但为了让模型在实际应用中更加可靠和有用，还需要进一步的训练和优化。

4.微调与对齐：让模型听得懂人话

基础模型虽然具备了语言理解和生成能力，但尚未经过精细打磨。为了让模型在实际应用中更加实用、可靠和安全，需要进行后训练（Post-Training）。这一阶段通常在更小、更专业的数据集上进行微调，以优化模型的行为和性能。

由于神经网络无法像传统软件那样通过显式编程来调整，我们只能通过训练来"编程"它。具体来说，就是让模型学习结构化的、带标注的数据集，这些数据集代表了理想的交互示例。

通过后训练，模型不仅能够更好地理解任务和指令，还能在特定领域和复杂交互中表现出色，最终成为一个实用且可靠的AI系统。

微调(Fine-tuning)

用特定任务或行业数据，进一步训练模型。

后训练阶段会创建专门的数据集，这些数据集包含结构化的示例，指导模型在不同情境下的回应方式。以下是两种常见的方法：

指令/对话微调（Instruction/Conversation Fine-Tuning）
目标是让模型学会遵循指令、执行任务、进行多轮对话、遵守安全规范以及拒绝恶意请求。例如，OpenAI的InstructGPT（2022）项目聘请了约40名人工标注者来创建高质量的数据集。这些标注者编写提示（Prompts）并提供符合安全指南的理想响应。如今，许多数据集由AI自动生成，再经过人工审核和编辑以确保质量。
领域特定微调（Domain-Specific Fine-Tuning）
目标是使模型适应特定领域的需求，例如医学、法律、编程等。通过在这些领域的高质量数据上进行微调，模型能够生成更专业、更准确的响应。

特殊token的引入

在后训练阶段，还会引入一些特殊token，这些token在预训练阶段并未使用。它们的作用是帮助模型理解交互的结构。例如：

标记用户输入的起始与结束。
标记AI响应的起始位置。

这些特殊token确保模型能够正确区分提示（Prompt）和回答（Reply），从而生成更符合上下文的响应。

对齐(Alignment)

大模型训练对齐，通常指‌价值对齐‌（Value Alignment），是人工智能领域的一个核心议题，旨在确保大语言模型（LLM）的行为、决策和输出内容与人类的价值观、伦理原则及真实意图保持一致。其根本目标是让强大的AI系统安全、可靠、有益地服务于人类，避免产生有害、偏见或不可控的结果。‌

这一过程主要发生在模型的后训练阶段，是在模型完成基础预训练后，通过特定技术手段引导其学习并遵循人类偏好。‌
大模型对齐的核心目标

对齐工作主要为了解决大模型在预训练后可能暴露出的几类关键问题：

生成错误信息（幻觉）‌：模型可能自信地输出虚构或不存在的事实。‌
算法歧视与偏见‌：模型会从训练数据中继承并放大社会上的刻板印象和不公平倾向。‌
滥用与越狱风险‌：恶意用户可能通过特殊指令（"越狱"）诱导模型生成违法、有害或不道德的内容。‌
能力涌现的失控风险‌：随着模型能力增强，可能涌现出设计者未预料到的、追求权力或欺骗等不符合人类利益的子目标。‌

目前，业界主要采用以下几种技术路径来实现模型对齐：

基于人类反馈的强化学习（RLHF）‌：这是目前最主流且效果显著的方法，被用于训练ChatGPT、GPT-4等模型。其核心流程分为三步：

监督微调（SFT）‌：使用高质量的人类标注数据对预训练模型进行初步微调。
训练奖励模型（RM）‌：让人类对模型生成的多个回答进行排序，训练一个能预测人类偏好的奖励模型。
强化学习优化（PPO）‌：利用奖励模型提供的信号，通过强化学习算法（如PPO）进一步优化语言模型，使其生成更符合人类偏好的回答。‌RLHF能有效减少有害输出，提升回答的真实性与有用性。‌
（PPO（近端策略优化）是OpenAI于2017年提出的一种策略梯度类算法，以其高效性、稳定性和易实现性成为强化学习领域的主流算法。）

宪法性AI（Constitutional AI）‌：由Anthropic公司提出，是一种更高效的规模化对齐方法。其核心思想是让AI模型自己监督自己。

研发人员定义一套清晰的"宪法"原则（如"不伤害人类"、"拒绝非法请求"等）。
训练一个从属的AI模型来评估主模型的输出是否遵循了这些原则。
将评估结果作为反馈，直接用于优化主模型。这种方法减少了对大量人工标注的依赖，具有更好的可扩展性和透明度。‌

指令微调（Instruction Tuning）‌：这是对齐的基础步骤，通常作为RLHF的第一阶段。通过提供大量"指令-期望输出"对（如"总结这篇文章"、"写一首诗"）来训练模型理解并遵循人类的指令。Flan、InstructGPT等模型均采用此方法。‌‌
其他新兴方法‌：如‌RRHF‌（基于排序的奖励微调）和‌DPO‌（直接偏好优化）等，旨在以更简单、计算成本更低的方式实现类似RLHF的效果，避免了训练独立奖励模型的复杂性。‌

5.部署与优化：从"实验室"走向"真实世界"

训练完的模型，通常是庞大且笨重的，无法直接投产。因此部署阶段会包括：

参数裁剪与量化(减少模型体积);
推理优化(提升响应速度);
多平台适配(网页、APP、API);
加强安全与内容过滤机制。

部署模型:

将训练好的模型部署到服务器上，供外部应用调用。
保证模型能够高效运行，考虑使用模型压缩、量化等技术减少资源消耗。

监控与维护:

实施实时监控，确保模型在生产环境中的稳定运行。
定期收集反馈，根据用户的使用情况对模型进行更新和优化。

用户反馈 :

收集用户反馈，了解模型的实际效果及存在的不足之处。

大型语言模型的训练是一个持续迭代的过程，每个阶段都需要仔细规划和执行。随着技术的进步，模型的训练方法也会不断发展和完善。