大模型是怎么被训练出来的?

一、先回答一个最根本的问题:大模型到底在"学"什么?

很多人一提到大模型,第一反应是:它为什么会聊天、会写文章、会翻译、会总结,甚至还能做题?

看起来它像"懂了很多东西",但如果把问题说得足够直白,大模型训练时做的事其实没有那么神秘:

它最核心的训练目标,就是根据前面的内容,预测下一个 token。

你可以先把 token 粗略理解成"文字片段"。它不一定等于一个字,也不一定等于一个词,但你可以先把它当成模型处理文本的基本单位。

举个最简单的例子:

今天天气很____

模型要做的,就是根据前面的"今天天气很",去预测后面最可能出现什么。

可能是"好",也可能是"冷",也可能是"热"。

再比如:

人工智能正在改变____

模型要继续往后接。

它训练时做的,就是不断重复这种过程:看前文,猜后文。

只是"猜下一个字",为什么最后会这么强?

关键就在这里。

单看一次"猜下一个 token",这件事很简单。

但如果让模型在海量文本上反复做这件事,它就会被迫学会很多东西,否则它根本猜不准。

比如,它得慢慢学会:

  • 语言的基本规律
  • 词和词之间怎么搭配
  • 一句话通常怎么组织
  • 上下文之间有什么关系
  • 什么场景下更可能出现什么表达
  • 常见事实、概念和知识之间怎么关联

也就是说,模型表面上是在"猜后一个 token",

但为了把这件事做好,它不得不学会语言结构、知识分布和上下文模式

所以,大模型不是先学"什么叫总结"、再学"什么叫翻译"、再学"什么叫写邮件"。

它先学到的是一种更底层的能力:

给它一段上下文,它能判断接下来什么最合理。

而总结、翻译、问答、写作,很多时候都可以看成这种能力在不同任务上的表现。

这一部分你只要记住一句话

大模型训练时最核心的事,不是直接学"怎么聊天",而是在海量文本上反复学习:给定上下文,下一个 token 最可能是什么。模型一次最多能看多长的 token 序列长度就是上下文窗口。

聊天、写作、总结、翻译这些能力,都是这个基础能力进一步长出来的结果。

二、准备训练数据------模型拿什么来学?

大模型训练前,先要解决一个问题:拿什么喂给模型。

最常见的数据来源是:

  • 网页
  • 书籍
  • 新闻
  • 论坛
  • 问答社区
  • 代码
  • 各类公开文档

如果是多模态模型,还会有图片、音频、视频。

但关键不只是"数据多",而是数据质量够不够好。

现实世界的数据很杂,里面有很多问题:

  • 重复内容
  • 低质量内容
  • 错误信息
  • 垃圾文本
  • 格式混乱

所以模型训练前,通常要先做数据处理,核心就是几件事:

  • 去重:避免反复学同样内容
  • 清洗:去掉明显低质量数据
  • 过滤:处理不适合直接训练的内容
  • 整理格式:把不同来源的数据变成统一形式

为什么这一步这么重要?

因为模型不是凭空变强的,它只能从数据里学。
数据质量差,模型学到的规律也会差。

所以训练大模型,第一步不是"开始训练",而是:

先把数据准备对。

三、预训练:先把模型练成"通才"

预训练是大模型训练里最核心的一步。

它做的事很简单:

把海量 token 喂给模型,让模型反复学习"下一个 token 最可能是什么"。

比如前面是:

人工智能正在改变

模型要继续往后预测。

训练时,它会一次次做这种事,然后不断调整参数,让自己猜得更准。

为什么这一步这么重要?

因为只要数据足够多、模型足够大,它为了把"下一个 token 预测对",就会被迫学会很多更底层的东西,比如:

  • 语言规律
  • 词语搭配
  • 上下文关系
  • 常见知识
  • 表达方式

所以预训练虽然目标看起来很朴素,

但最后练出来的,不是一个"只会补字"的系统,而是一个有通用语言能力的底座模型。

这也是为什么它叫"预训练"。

因为这一步结束后,模型已经有了基础能力,

但还不是最终产品。

它已经会:

  • 续写
  • 生成文本
  • 回答一部分问题
  • 做一些迁移任务

但它还不一定:

  • 稳定听指令
  • 像助手一样回答
  • 符合人类偏好
  • 具备安全边界

所以,预训练解决的是:

先让模型变聪明。

后面的阶段再解决:

怎么让它更可用。

一句话总结这一部分:

预训练就是在海量数据上反复做"下一个 token 预测",先把模型练成一个有通用能力的底座。

四、为什么预训练完还不够?

预训练之后,模型已经很强了。

它会写、会续、也能回答不少问题。

但这还不够。

因为预训练出来的模型,本质上更像一个"很会接话的续写器",不是一个真正的助手。

问题主要有几个。

1. 它不一定真的会"听指令"

你让它总结,它可能开始自由发挥。

你让它翻译,它可能顺手加解释。

你要简洁回答,它可能写很长。

也就是说,它会生成文本,

但不一定按你的要求生成。

2. 它不一定符合人类偏好

同一个问题,模型可能给出一个"语言上成立"的回答,

但这个回答未必是人最想要的。

比如:

  • 太啰嗦
  • 不够直接
  • 重点不清
  • 风格不合适

3. 它不一定有安全边界

预训练数据来自真实世界,里面什么都有。

如果只做预训练,模型可能会学到一些不该直接照着做的东西。

所以还需要进一步训练它:

  • 什么该答
  • 什么不该答
  • 什么要谨慎答

4. 它不一定适合做产品

一个能续写文本的模型,

不等于一个能稳定服务用户的产品。

真正可用的助手,需要它:

  • 更会对话
  • 更会按格式输出
  • 更稳定
  • 更少跑偏

所以,预训练解决的是"能力底座",

但没有解决"怎么把它变成一个好用的助手"。

这也是为什么大模型训练不会停在预训练。

后面还要进入下一步:后训练。

一句话总结这一部分:

预训练让模型有了通用能力,但还不能保证它听话、好用、安全,所以还需要后训练。

明白。那这一部分更合适的写法是:

先把后训练当成一个整体阶段讲清楚,再顺手带出"目前常见的训练模式有哪些",但不展开到太细。

下面给你一个适合直接放进博客里的版本,保持综述感。


五、后训练:把基础模型打磨成真正可用的助手

预训练结束后,模型已经有了很强的通用能力。

它会生成文本,也懂不少语言规律和常见知识。

但这时候的模型,还不能直接拿来当成熟产品用。

因为它虽然已经"会说话",但还没有被打磨成一个真正好用的助手。

所以接下来会进入另一个关键阶段:后训练

后训练可以简单理解成:

在预训练之后,继续把模型往"更可用"的方向训练。

它关注的不是再去打通用基础,而是解决"怎么把能力用好"这件事。

通常来说,后训练主要在做几类事情:

  • 让模型更会听指令
  • 让回答更符合人类偏好
  • 让模型更安全、更稳
  • 让模型更适合真实产品
  • 让模型在特定场景里更好用

目前常见的几种后训练模式

虽然"后训练"是一个总称,但现在业内常见的训练模式,大致可以归成下面几类。

1. 监督微调

这是最基础的一种。

做法很直观:给模型一个输入,再给它一个你认可的回答,让它照着学。

比如让它学会总结、翻译、问答、按格式输出。

它解决的是最基本的问题:

让模型先学会按要求做事。

2. 偏好优化

只会回答还不够,还要回答得更像人想要的样子。

所以会把同一个问题的多个回答拿来比较,告诉模型哪种更好。

比如哪个更清楚,哪个更有帮助,哪个更安全。

它解决的是:

让模型从"能答"变成"答得更好"。

3. 安全训练

模型能力越强,越需要边界。

所以后训练里通常还会专门处理安全问题,让模型学会在高风险、敏感或不合适的场景下更稳妥地回答,或者直接拒绝。

它解决的是:

让模型在真实世界里不容易失控。

4. 领域适配

通用模型什么都懂一点,但不一定在具体行业里足够好用。

所以很多模型还会继续针对法律、医疗、金融、客服等场景做专门训练,让它更懂这个领域的表达方式和任务需求。

它解决的是:

让模型从"通用"走向"专业"。

5. 工具与场景适配

真实产品里的模型,往往不只是单独回答问题,还要和搜索、计算器、代码执行器、数据库等外部工具配合。

所以后训练还可能包括这类能力的训练,让模型更会调用工具、更会按固定格式输出,也更适合嵌进实际产品流程里。

它解决的是:

让模型更像一个系统里的组件,而不只是一个会生成文本的模型。

要注意,后训练不是"几选一"。

现实里通常是多种方式组合使用。

先把模型教会基本的指令跟随,再优化回答质量,再补安全边界,再做场景适配,这是更常见的路径。

所以更准确地说:

后训练不是某一种技术,而是一整套打磨模型的过程。

如果非要用一句话概括它和预训练的区别,那就是:

  • 预训练:先把模型练成"通才"
  • 后训练:再把这个通才打磨成"能上岗的助手"

一句话总结这一部分:

后训练的核心,不是再给模型补基础知识,而是通过监督微调、偏好优化、安全训练、领域适配等方式,把模型变得更好用、更稳、更适合真实场景。

六、怎么评估一个大模型是不是变好了?

模型训练完,不代表事情结束了。

还要回答一个更现实的问题:

它到底有没有真的变好?

这件事没法只靠"感觉不错"来判断。

大模型通常要从几个维度一起评估。

1. 看基础能力

先看模型最基本的表现,比如:

  • 问答能力
  • 总结能力
  • 翻译能力
  • 推理能力
  • 代码能力
  • 多轮对话能力

这一步主要是在看:
模型本身的通用能力够不够强。

2. 看指令跟随

模型不只是要"会",还要"听话"。

比如用户让它:

  • 用三句话总结
  • 按表格输出
  • 只回答结论
  • 扮演某个角色

这时候要看它能不能稳定按要求来。

这一步评估的是:

模型是不是更像一个助手,而不是一个随意发挥的续写器。

3. 看回答质量

同样一个问题,不同模型都可能答得出来,

但质量可能差很多。

所以还要看:

  • 回答清不清楚
  • 有没有重点
  • 是否有帮助
  • 是否啰嗦
  • 是否容易跑偏

这一步评估的是:

模型回答得好不好。

4. 看安全性

能力越强,安全问题越重要。

所以还要评估模型在敏感、高风险或不合适场景下的表现,比如:

  • 该拒绝的时候会不会拒绝
  • 会不会输出明显危险内容
  • 会不会被简单诱导绕过限制

这一步评估的是:

模型在真实世界里稳不稳。

5. 看幻觉问题

大模型一个很典型的问题是:
看起来说得很像那么回事,但其实是编的。

所以评估时还要看:

  • 会不会瞎编事实
  • 会不会把不确定的内容说得很肯定
  • 碰到不知道的问题,能不能承认不知道

这一步评估的是:

模型是不是足够可靠。

6. 看真实使用表现

基准测试很重要,但不够。

因为模型最终是给人用的,

所以还要看它在真实场景里的表现,比如:

  • 用户是否满意
  • 任务是否完成得更快
  • 哪些场景下容易出错
  • 上线后暴露了哪些新问题

这一步评估的是:

模型在实验室里强,不等于在线上也强。

一句话总结这一部分:

评估大模型,不只是看它会不会答题,还要看它是否听指令、回答质量高不高、安全不安全、会不会胡编,以及在真实场景里是否真的好用。

模型评估通常是"自动评测 + 人工评测 + 线上反馈"一起做。

1. 自动评测

这是最基础的一层。

做法是先准备一批测试集,让模型去跑,然后看结果。

比如看它:

  • 答对了多少题
  • 代码能不能跑通
  • 翻译准不准
  • 摘要和参考答案差多远
  • 格式有没有按要求输出

这类评估的优点是:

  • 便于大规模跑
  • 方便不同版本横向比较

缺点是也很明显:

  • 很多真实问题没有唯一标准答案
  • 分数高,不一定代表用户体验就好

所以自动评测只能说明一部分。

2. 人工评测

很多时候还得靠人看。

因为像下面这些维度,机器很难完全判断:

  • 回答是不是清楚
  • 有没有帮助
  • 语气是否合适
  • 是否跑题
  • 是否啰嗦
  • 是否有安全风险
  • 两个答案哪个更好

这时候通常会让人工去做几种事:

单点评分

看一个回答,给它打分。

比如按清晰度、帮助性、安全性来评。

两两比较

给同一个问题的两个回答,让人判断哪个更好。

这个在大模型评估里很常见,因为比"绝对打分"更稳定。

所以你说"靠人眼吗",答案是:

靠,而且很重要。

但不是只靠人眼。


3. 模型做评委

现在还常见一种方式:

让另一个更强的模型来帮忙评分。

比如让评审模型去看:

  • 是否回答了用户问题
  • 是否遵守了格式要求
  • 两个答案哪个更完整
  • 有没有明显事实问题

这种方式成本低、速度快,适合大规模评测。

但问题是,它本身也可能有偏差。

所以现实里一般不会完全相信"模型裁判",

通常还是要和人工抽检结合。


4. 线上真实反馈

离真实效果最近的,其实是用户用出来的结果。

比如看:

  • 用户是否继续追问
  • 用户是否点踩
  • 用户是否复制答案
  • 任务有没有完成
  • 哪些场景下投诉最多
  • 哪类问题最容易翻车

这类评估最有现实意义,因为它直接反映"这个模型在产品里到底好不好用"。

相关推荐
SomeB1oody2 小时前
【Python深度学习】1.1. 多层感知器MLP(人工神经网络)介绍
开发语言·人工智能·python·深度学习·机器学习
枕石 入梦2 小时前
【源码解析】OpenClaw 多渠道 AI 助手网关的架构设计与核心原理
人工智能·openclaw·小龙虾
财经资讯数据_灵砚智能2 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月6日
大数据·人工智能·python·信息可视化·语言模型·自然语言处理·ai编程
逻极2 小时前
Windows平台Ollama AMD GPU编译全攻略:基于ROCm 6.2的实战指南(附构建脚本)
人工智能·windows·gpu·amd·ollama
ZzT2 小时前
CC 记忆凭啥不用向量数据库
人工智能·开源·claude
guslegend2 小时前
4月6日(RAG系统)
人工智能·大模型·rag
_江南一点雨2 小时前
AI 重构企业级系统?我们做了一次低成本实践
人工智能·重构
名字不好奇2 小时前
Claude Code工作原理深度解析:从技术架构到设计哲学
人工智能·架构
一条咸鱼_SaltyFish2 小时前
DDD 架构重构实践:AI Skills 如何赋能DDD设计与重构
java·人工智能·ai·重构·架构·ddd·领域驱动设计