一、先回答一个最根本的问题:大模型到底在"学"什么?
很多人一提到大模型,第一反应是:它为什么会聊天、会写文章、会翻译、会总结,甚至还能做题?
看起来它像"懂了很多东西",但如果把问题说得足够直白,大模型训练时做的事其实没有那么神秘:
它最核心的训练目标,就是根据前面的内容,预测下一个 token。
你可以先把 token 粗略理解成"文字片段"。它不一定等于一个字,也不一定等于一个词,但你可以先把它当成模型处理文本的基本单位。
举个最简单的例子:
今天天气很____
模型要做的,就是根据前面的"今天天气很",去预测后面最可能出现什么。
可能是"好",也可能是"冷",也可能是"热"。
再比如:
人工智能正在改变____
模型要继续往后接。
它训练时做的,就是不断重复这种过程:看前文,猜后文。
只是"猜下一个字",为什么最后会这么强?
关键就在这里。
单看一次"猜下一个 token",这件事很简单。
但如果让模型在海量文本上反复做这件事,它就会被迫学会很多东西,否则它根本猜不准。
比如,它得慢慢学会:
- 语言的基本规律
- 词和词之间怎么搭配
- 一句话通常怎么组织
- 上下文之间有什么关系
- 什么场景下更可能出现什么表达
- 常见事实、概念和知识之间怎么关联
也就是说,模型表面上是在"猜后一个 token",
但为了把这件事做好,它不得不学会语言结构、知识分布和上下文模式。
所以,大模型不是先学"什么叫总结"、再学"什么叫翻译"、再学"什么叫写邮件"。
它先学到的是一种更底层的能力:
给它一段上下文,它能判断接下来什么最合理。
而总结、翻译、问答、写作,很多时候都可以看成这种能力在不同任务上的表现。
这一部分你只要记住一句话
大模型训练时最核心的事,不是直接学"怎么聊天",而是在海量文本上反复学习:给定上下文,下一个 token 最可能是什么。模型一次最多能看多长的 token 序列长度就是上下文窗口。
聊天、写作、总结、翻译这些能力,都是这个基础能力进一步长出来的结果。
二、准备训练数据------模型拿什么来学?
大模型训练前,先要解决一个问题:拿什么喂给模型。
最常见的数据来源是:
- 网页
- 书籍
- 新闻
- 论坛
- 问答社区
- 代码
- 各类公开文档
如果是多模态模型,还会有图片、音频、视频。
但关键不只是"数据多",而是数据质量够不够好。
现实世界的数据很杂,里面有很多问题:
- 重复内容
- 低质量内容
- 错误信息
- 垃圾文本
- 格式混乱
所以模型训练前,通常要先做数据处理,核心就是几件事:
- 去重:避免反复学同样内容
- 清洗:去掉明显低质量数据
- 过滤:处理不适合直接训练的内容
- 整理格式:把不同来源的数据变成统一形式
为什么这一步这么重要?
因为模型不是凭空变强的,它只能从数据里学。
数据质量差,模型学到的规律也会差。
所以训练大模型,第一步不是"开始训练",而是:
先把数据准备对。
三、预训练:先把模型练成"通才"
预训练是大模型训练里最核心的一步。
它做的事很简单:
把海量 token 喂给模型,让模型反复学习"下一个 token 最可能是什么"。
比如前面是:
人工智能正在改变
模型要继续往后预测。
训练时,它会一次次做这种事,然后不断调整参数,让自己猜得更准。
为什么这一步这么重要?
因为只要数据足够多、模型足够大,它为了把"下一个 token 预测对",就会被迫学会很多更底层的东西,比如:
- 语言规律
- 词语搭配
- 上下文关系
- 常见知识
- 表达方式
所以预训练虽然目标看起来很朴素,
但最后练出来的,不是一个"只会补字"的系统,而是一个有通用语言能力的底座模型。
这也是为什么它叫"预训练"。
因为这一步结束后,模型已经有了基础能力,
但还不是最终产品。
它已经会:
- 续写
- 生成文本
- 回答一部分问题
- 做一些迁移任务
但它还不一定:
- 稳定听指令
- 像助手一样回答
- 符合人类偏好
- 具备安全边界
所以,预训练解决的是:
先让模型变聪明。
后面的阶段再解决:
怎么让它更可用。
一句话总结这一部分:
预训练就是在海量数据上反复做"下一个 token 预测",先把模型练成一个有通用能力的底座。
四、为什么预训练完还不够?
预训练之后,模型已经很强了。
它会写、会续、也能回答不少问题。
但这还不够。
因为预训练出来的模型,本质上更像一个"很会接话的续写器",不是一个真正的助手。
问题主要有几个。
1. 它不一定真的会"听指令"
你让它总结,它可能开始自由发挥。
你让它翻译,它可能顺手加解释。
你要简洁回答,它可能写很长。
也就是说,它会生成文本,
但不一定按你的要求生成。
2. 它不一定符合人类偏好
同一个问题,模型可能给出一个"语言上成立"的回答,
但这个回答未必是人最想要的。
比如:
- 太啰嗦
- 不够直接
- 重点不清
- 风格不合适
3. 它不一定有安全边界
预训练数据来自真实世界,里面什么都有。
如果只做预训练,模型可能会学到一些不该直接照着做的东西。
所以还需要进一步训练它:
- 什么该答
- 什么不该答
- 什么要谨慎答
4. 它不一定适合做产品
一个能续写文本的模型,
不等于一个能稳定服务用户的产品。
真正可用的助手,需要它:
- 更会对话
- 更会按格式输出
- 更稳定
- 更少跑偏
所以,预训练解决的是"能力底座",
但没有解决"怎么把它变成一个好用的助手"。
这也是为什么大模型训练不会停在预训练。
后面还要进入下一步:后训练。
一句话总结这一部分:
预训练让模型有了通用能力,但还不能保证它听话、好用、安全,所以还需要后训练。
明白。那这一部分更合适的写法是:
先把后训练当成一个整体阶段讲清楚,再顺手带出"目前常见的训练模式有哪些",但不展开到太细。
下面给你一个适合直接放进博客里的版本,保持综述感。
五、后训练:把基础模型打磨成真正可用的助手
预训练结束后,模型已经有了很强的通用能力。
它会生成文本,也懂不少语言规律和常见知识。
但这时候的模型,还不能直接拿来当成熟产品用。
因为它虽然已经"会说话",但还没有被打磨成一个真正好用的助手。
所以接下来会进入另一个关键阶段:后训练。
后训练可以简单理解成:
在预训练之后,继续把模型往"更可用"的方向训练。
它关注的不是再去打通用基础,而是解决"怎么把能力用好"这件事。
通常来说,后训练主要在做几类事情:
- 让模型更会听指令
- 让回答更符合人类偏好
- 让模型更安全、更稳
- 让模型更适合真实产品
- 让模型在特定场景里更好用
目前常见的几种后训练模式
虽然"后训练"是一个总称,但现在业内常见的训练模式,大致可以归成下面几类。
1. 监督微调
这是最基础的一种。
做法很直观:给模型一个输入,再给它一个你认可的回答,让它照着学。
比如让它学会总结、翻译、问答、按格式输出。
它解决的是最基本的问题:
让模型先学会按要求做事。
2. 偏好优化
只会回答还不够,还要回答得更像人想要的样子。
所以会把同一个问题的多个回答拿来比较,告诉模型哪种更好。
比如哪个更清楚,哪个更有帮助,哪个更安全。
它解决的是:
让模型从"能答"变成"答得更好"。
3. 安全训练
模型能力越强,越需要边界。
所以后训练里通常还会专门处理安全问题,让模型学会在高风险、敏感或不合适的场景下更稳妥地回答,或者直接拒绝。
它解决的是:
让模型在真实世界里不容易失控。
4. 领域适配
通用模型什么都懂一点,但不一定在具体行业里足够好用。
所以很多模型还会继续针对法律、医疗、金融、客服等场景做专门训练,让它更懂这个领域的表达方式和任务需求。
它解决的是:
让模型从"通用"走向"专业"。
5. 工具与场景适配
真实产品里的模型,往往不只是单独回答问题,还要和搜索、计算器、代码执行器、数据库等外部工具配合。
所以后训练还可能包括这类能力的训练,让模型更会调用工具、更会按固定格式输出,也更适合嵌进实际产品流程里。
它解决的是:
让模型更像一个系统里的组件,而不只是一个会生成文本的模型。
要注意,后训练不是"几选一"。
现实里通常是多种方式组合使用。
先把模型教会基本的指令跟随,再优化回答质量,再补安全边界,再做场景适配,这是更常见的路径。
所以更准确地说:
后训练不是某一种技术,而是一整套打磨模型的过程。
如果非要用一句话概括它和预训练的区别,那就是:
- 预训练:先把模型练成"通才"
- 后训练:再把这个通才打磨成"能上岗的助手"
一句话总结这一部分:
后训练的核心,不是再给模型补基础知识,而是通过监督微调、偏好优化、安全训练、领域适配等方式,把模型变得更好用、更稳、更适合真实场景。
六、怎么评估一个大模型是不是变好了?
模型训练完,不代表事情结束了。
还要回答一个更现实的问题:
它到底有没有真的变好?
这件事没法只靠"感觉不错"来判断。
大模型通常要从几个维度一起评估。
1. 看基础能力
先看模型最基本的表现,比如:
- 问答能力
- 总结能力
- 翻译能力
- 推理能力
- 代码能力
- 多轮对话能力
这一步主要是在看:
模型本身的通用能力够不够强。
2. 看指令跟随
模型不只是要"会",还要"听话"。
比如用户让它:
- 用三句话总结
- 按表格输出
- 只回答结论
- 扮演某个角色
这时候要看它能不能稳定按要求来。
这一步评估的是:
模型是不是更像一个助手,而不是一个随意发挥的续写器。
3. 看回答质量
同样一个问题,不同模型都可能答得出来,
但质量可能差很多。
所以还要看:
- 回答清不清楚
- 有没有重点
- 是否有帮助
- 是否啰嗦
- 是否容易跑偏
这一步评估的是:
模型回答得好不好。
4. 看安全性
能力越强,安全问题越重要。
所以还要评估模型在敏感、高风险或不合适场景下的表现,比如:
- 该拒绝的时候会不会拒绝
- 会不会输出明显危险内容
- 会不会被简单诱导绕过限制
这一步评估的是:
模型在真实世界里稳不稳。
5. 看幻觉问题
大模型一个很典型的问题是:
看起来说得很像那么回事,但其实是编的。
所以评估时还要看:
- 会不会瞎编事实
- 会不会把不确定的内容说得很肯定
- 碰到不知道的问题,能不能承认不知道
这一步评估的是:
模型是不是足够可靠。
6. 看真实使用表现
基准测试很重要,但不够。
因为模型最终是给人用的,
所以还要看它在真实场景里的表现,比如:
- 用户是否满意
- 任务是否完成得更快
- 哪些场景下容易出错
- 上线后暴露了哪些新问题
这一步评估的是:
模型在实验室里强,不等于在线上也强。
一句话总结这一部分:
评估大模型,不只是看它会不会答题,还要看它是否听指令、回答质量高不高、安全不安全、会不会胡编,以及在真实场景里是否真的好用。
模型评估通常是"自动评测 + 人工评测 + 线上反馈"一起做。
1. 自动评测
这是最基础的一层。
做法是先准备一批测试集,让模型去跑,然后看结果。
比如看它:
- 答对了多少题
- 代码能不能跑通
- 翻译准不准
- 摘要和参考答案差多远
- 格式有没有按要求输出
这类评估的优点是:
- 快
- 便于大规模跑
- 方便不同版本横向比较
缺点是也很明显:
- 很多真实问题没有唯一标准答案
- 分数高,不一定代表用户体验就好
所以自动评测只能说明一部分。
2. 人工评测
很多时候还得靠人看。
因为像下面这些维度,机器很难完全判断:
- 回答是不是清楚
- 有没有帮助
- 语气是否合适
- 是否跑题
- 是否啰嗦
- 是否有安全风险
- 两个答案哪个更好
这时候通常会让人工去做几种事:
单点评分
看一个回答,给它打分。
比如按清晰度、帮助性、安全性来评。
两两比较
给同一个问题的两个回答,让人判断哪个更好。
这个在大模型评估里很常见,因为比"绝对打分"更稳定。
所以你说"靠人眼吗",答案是:
靠,而且很重要。
但不是只靠人眼。
3. 模型做评委
现在还常见一种方式:
让另一个更强的模型来帮忙评分。
比如让评审模型去看:
- 是否回答了用户问题
- 是否遵守了格式要求
- 两个答案哪个更完整
- 有没有明显事实问题
这种方式成本低、速度快,适合大规模评测。
但问题是,它本身也可能有偏差。
所以现实里一般不会完全相信"模型裁判",
通常还是要和人工抽检结合。
4. 线上真实反馈
离真实效果最近的,其实是用户用出来的结果。
比如看:
- 用户是否继续追问
- 用户是否点踩
- 用户是否复制答案
- 任务有没有完成
- 哪些场景下投诉最多
- 哪类问题最容易翻车
这类评估最有现实意义,因为它直接反映"这个模型在产品里到底好不好用"。