大模型如何训练?猜词游戏如何炼成智能大脑

一个令人意外的事实

一个刚出厂的大模型,所有参数都是随机数。你问它"法国的首都是",它可能输出"skdfj23#@!"------完全不知所云。

训练之后,同样的模型输出"巴黎"。中间只做了一件事:不断猜测下一个词,然后根据猜对了还是猜错了,微调所有参数。

就这么简单。但规模达到几十亿个参数、几万亿条训练数据之后,简单的机制产生了奇怪的效果。


一、从"猜词游戏"开始

大模型最初是怎么"看"语言的?

它做的事情叫下一个词预测(Next Token Prediction):给定一段文字,猜下一个最可能出现的字或词。

比如:

  • • 输入"法国的首都是",模型输出"巴"→ 猜对了一个字
  • • 输入"Thank you very",模型输出"much"→ 猜对一个词

一开始,模型随机猜测,每个词的概率差不多,就像闭着眼睛掷骰子。

如果把这件事重复几万亿次,模型会慢慢发现:"法国的首都是"后面跟"巴黎"的次数远远超过其他词,于是把"巴"和"黎"的概率逐渐调高。

这个过程,就是训练。训练的目标不是"教模型知识",而是让预测越来越准。


二、训练的四个步骤:大厨做菜的比喻

大模型有几十亿个参数。你可以把它想象成一个超级大厨:面前有几十亿种配料,每种放多少完全靠猜。

每个训练周期做四件事。

随意搭配------随机初始化。 大厨第一次做菜,配料随便加,做出来的东西难以下咽。

端给客人尝------用当前参数做预测。 把一段文字喂进去,让模型预测下一个词。它输出的完全是随机乱码。

客人打分------算误差(Loss)。 客人尝了一口,给出一个难吃程度的分数。Loss 越大,说明这次做得越离谱。

调整配方------更新参数。 大厨记住:盐放多了下次少放,糖不够下次多放。每个配料都微调一点点,方向是让"难吃程度"降低。学习率控制每次调整的幅度------改太多会矫枉过正,改太少进步太慢。

然后用下一段文字再来一轮。重复几十亿次之后,大厨的配方越来越精准,做出来的菜越来越好。模型从随机乱码变成了能流畅对话的智能助手。


三、什么是 Loss?

"算误差"有一个专门的名字:Loss(损失函数)

Loss 就是模型的"错误程度"。模型猜错了整个句子,Loss 就大;只猜错一个词,Loss 就小;全猜对,Loss = 0。

训练的目标不是"让 Loss 变成 0"(因为数据总有噪声),而是让 Loss 越来越小,越来越接近零但永远达不到零。

Loss 越低,模型的预测就越准。


四、模型是怎么知道"该往哪调"的?

大厨有几十亿种配料,他怎么知道每种该加多少?

答案是梯度(Gradient)

梯度告诉你:每种配料对"难吃程度"的"贡献方向"。盐放多了会让菜变咸,糖少了会让菜不够甜------梯度就是这张"方向地图"。

算出梯度之后,用梯度下降来更新参数:

Loss 是山谷的"海拔",越低越好。梯度指明下坡方向,学习率决定步长。每走一步都离山谷更低处近一点。

但这里有一个问题:走到谷底,是全局最低的 Loss 吗?会不会只是某个小山坳,真正的全局最低还在别处?

在几十亿维的参数空间里,这个问题比想象中轻微。

参数空间极高维,大部分"凹进去"的地方同时也连接着通往更低点的路径------就像连绵起伏的山地,没有哪个山谷是完全封死的。随机梯度下降的大规模噪声反而帮助模型跳出不够好的局部最优。

加上训练初期用大学习率快速探索,后期用小学习率精细调整,大学习率阶段天然有"跳出小坑"的能力。实际经验也表明:只要数据质量够好、训练足够充分,最终模型的能力主要取决于数据量和参数量,而不是"运气好找到了哪个坑"。

从 Loss 反推到每个参数该往哪调的过程,叫反向传播(Backpropagation),是深度学习最核心的算法之一。


五、大模型的三个训练阶段

真实的大模型训练分为三个阶段,每个阶段解决不同问题。

预训练------海量读书

让模型学会语言本身:语法、知识、推理能力。

做法很简单:把整个互联网的文本喂给模型,让它继续做"预测下一个词"这件事。通常需要 1 万亿到 15 万亿个 Token(一个 Token 约等于 0.75 个英文单词或 0.5 个汉字),用几千到上万张 GPU 训练数周到数月,费用从几百万到几千万美元不等。

预训练完成后,模型已经能生成非常流畅的文本,知道大量事实,能做简单推理。但它有一个明显问题:不太会回答问题

你问它"法国的首都是什么",它可能续写网页内容("法国的首都是什么网站..."),而不是直接给出答案------因为在训练数据里,文本后面跟的通常是另一段文本,不是"回答"。

SFT------对话培训

教模型"怎么回答问题"。

做法是人工编写高质量的问答对话数据(通常几万到几十万条),然后像预训练一样继续做"预测下一个词"的训练------只是把普通文本换成了对话格式。

效果立竿见影:模型从"续写机器"变成"能回答问题的助手"。

RLHF------人类偏好对齐

让回答更有帮助、更安全、更符合人类期望。

第一步,训练一个"打分模型":让模型对同一个问题生成两个回答 A 和 B,请人类标注员判断哪个更好,用大量这种偏好数据训练打分模型。

第二步,用打分模型来指导语言模型的优化:生成回答 → 打分 → 把分数作为奖励信号调整参数 → 模型越来越倾向于生成高分回答。

ChatGPT 之所以让人觉得"有温度",很大程度来自这个阶段。

三阶段的效果对比

bash 复制代码
随机模型:    "skdfj23#@!"                    ← 随机噪声
预训练后:    "...the capital of this..."    ← 流畅续写,但不会回答问题
SFT后:       "巴黎是法国的首都。"             ← 能回答了,但质量参差不齐
RLHF后:      "法国的首都是巴黎。巴黎位于..."   ← 回答详细、有帮助、安全

六、训练到底改变了什么?

模型里的参数经过训练后,究竟发生了什么变化?

Embedding 向量:训练前,所有词的向量都是随机数。训练后,语义相近的词在向量空间里自动变得接近------"法国"和"巴黎"的向量距离很近,"猫"和"狗"的向量距离也很近,甚至"国王 - 男人 + 女人"的向量运算结果接近"女王"。

Attention 权重:训练后,"Thank you" 这个搭配被学会了。当模型看到 "Thank you very" 时,注意力机制自动把更多权重分配给 "Thank" 和 "you"------因为在训练数据里,这种搭配模式出现过无数次。

FFN 权重:训练后,FFN 层存储了知识和事实。看到 "Thank you very" 会自动激活 "much",看到 "法国的首都是" 自动激活 "巴黎"------没有人告诉模型这些知识,它从几万亿次预测中自动发现了这些规律。

残差连接:这是一种"备份"机制。每层输出的结果 = 该层的处理结果 + 上层的结果。就像登山时每隔一段就拍一张照片留作备份,防止在后面摔倒时忘记登顶时的景色。


七、大模型训练的难题

原理不复杂,工程上极难。

显存是第一个瓶颈。 一个 70 亿参数的模型,训练时需要存储:参数(28GB)+ 梯度(28GB)+ 优化器状态(56GB)+ 激活值(数十GB),远超单张 GPU 的容量(通常 80GB)。当显存装不下时,要么减少 batch size,要么换更大显存的 GPU。

大模型必须用分布式训练------把模型切分到几千张 GPU 上协同工作。GPU 之间通过高速网络通信,每次迭代需要大量通信开销。这也是为什么训练一次大模型要花几百万甚至几千万美元,大部分成本来自硬件和电费。

数据质量比数量更重要。 预训练数据来自互联网,充满了重复内容、垃圾页面、隐私信息、错误知识。直接喂给模型,它会学到这些坏习惯。所以训练前要做大量数据清洗:去重、过滤、平衡语言和领域比例。数据配比是各家的核心秘密,不同公司训练数据质量不同,直接决定了模型能力的差异。

训练不稳定。 几十亿个参数同时更新,很容易出现梯度爆炸或消失------Loss 突然变成无穷大,整个训练报废。

梯度爆炸就像步子迈太大,直接踩空从山崖上摔下去;梯度消失就像步子太小,在山谷里转来转去找不到出口。常用梯度裁剪来限制最大梯度值,用精细的初始化和 LayerNorm 来防止消失。大模型训练过程中需要持续监控 Loss 曲线、梯度分布、GPU 利用率等指标,一旦发现异常要立即干预,否则可能烧掉数周的计算资源和数百万经费。


结语

大模型训练的本质很简单:预测下一个词 → 算误差 → 调参数 → 重复。

复杂的不是算法,而是规模。几十亿个参数、几万亿个 Token、数千张 GPU、数月时间。把这个简单过程推到极致,就产生了看起来像"理解语言"的智能。

它的"聪明",不是来自有人教它知识,而是来自无数次猜词练习中自动发现的统计规律。


首发于 「小小寰宇」

相关推荐
解局易否结局10 小时前
理解 ops-transformer 在昇腾NPU架构中的位置:把大模型算子放进厨房里讲
深度学习·架构·transformer
渡我白衣10 小时前
第十五章:海纳百川——集成学习的高级策略与Stacking硬核实战
人工智能·深度学习·神经网络·机器学习·自然语言处理·语音识别·集成学习
大模型最新论文速读10 小时前
05-21 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
初心未改HD10 小时前
深度学习之RNN循环神经网络详解
人工智能·rnn·深度学习
Alter123011 小时前
旗舰电视洗牌赛:参数游戏失灵,长虹金标T70S以“光色场同控”破局
游戏
koharu12311 小时前
PointRCNN 精解:从原始点云到三维框的两阶段检测
人工智能·深度学习·目标检测·3d·三维点云
鹿野素材屋11 小时前
Unity预加载:减少游戏中首次加载资源时的卡顿
windows·游戏·unity
Omics Pro11 小时前
免费!糖蛋白质组学数据分析
开发语言·深度学习·数据挖掘·数据分析·r语言·excel·知识图谱
MediaTea11 小时前
DL:深度学习的主要任务
人工智能·深度学习