LLM 四阶段和 Transformer 架构(四)LLM 的训练过程

在阶段二中,我主要解释的是推理过程,即根据输入 token 预测下一个 token,这一篇补充下训练过程,如何修改那么多参数。

前面的过程和推理一样,从 Layer1 到 Layer96 称之为正向传播,推理过程中只要最后一个 token 的向量,在训练过程中会用到整个 token 序列,是并行计算的。

训练的语料来源于互联网,知识经过过滤( html 标签)、去重、清洗(去掉有害内容)等,一起给 LLM 训练。

LLM 预测的下一个 token 和正确的 token 之间误差称之为 Loss,整体的目标就是将 Loss 最小化。

拿到 Loss 后,再通过反向传播,从 Layer96 到 Layer1 逐级修改参数。

Layer96 会根据 Loss 调节自己的参数,Loss 差距是由于自己这层的参数,和 Layer95 的输入共同决定的。

更新参数的公式为:

<math xmlns="http://www.w3.org/1998/Math/MathML"> 新参数 = 旧参数 − ( 学习率 × 梯度 ) \text{新参数} = \text{旧参数} - (\text{学习率} \times \text{梯度}) </math>新参数=旧参数−(学习率×梯度)

梯度 表示正负方向和大小(比如 -1,+100),学习率表示折扣系数,缓解梯度过于陡峭。

Layer96 调节完后会告诉 Layer95 给他的输入 Loss,Layer95 执行同样的操作后给 Layer94,直到整个参数都会全部微调一遍。

经历多轮调整后,整体的 Loss 降到足够低,LLM 涌现出 "智慧",好似能理解语言了。

参数的摆放是黑盒,我们不知道具体参数是怎么设置的,只能通过检测来判断。人类无法拆开 1760 亿个参数依次校验。

校验的方法用线性探针,即一个线性函数,一元二次方程。

比如训练好了一个影评评分 LLM,看结果向量和评分之间是否有线性关系,如果有的话说明训练结果是好的,在这个向量里面已经隐藏了评分的维度,并且可以方便的分析出来。

或者我们想知道在哪一层 Layer 向量融合了感情维度,也是获取这一层的向量结果,和输入 token 对应的情感,看有没有线性关系。

相关推荐
CoderJia程序员甲4 小时前
GitHub 热榜项目 - 日榜(2026-1-9)
开源·大模型·llm·github·ai教程
树獭非懒5 小时前
AI大模型小白手册|如何像工程师一样写Prompt?
llm·aigc·ai编程
视觉&物联智能6 小时前
【杂谈】-多智能体系统的效能悖论:协作优势的认知边界
ai·llm·agent·智能体·人工 智能
AI架构师易筋9 小时前
多模态 LLM 与本地多模态检索 PoC:从原理到工程落地(图片 / 视频关键帧 / LaTeX 公式)
人工智能·llm·多模态·多模态llm
且去填词21 小时前
DeepSeek API 深度解析:从流式输出、Function Calling 到构建拥有“手脚”的 AI 应用
人工智能·python·语言模型·llm·agent·deepseek
EdisonZhou1 天前
MAF快速入门(11)并行工作流
llm·aigc·agent·.net core
进击的松鼠1 天前
LangChain 实战 | 快速搭建 Python 开发环境
python·langchain·llm
悟乙己1 天前
使用TimeGPT进行时间序列预测案例解析
机器学习·大模型·llm·时间序列·预测
智泊AI1 天前
AI Agent 架构核心:如何构建多意图路由与动态查询分发引擎
llm
xiao5kou4chang6kai41 天前
贯通LLM应用→数据分析→自动化编程→文献及知识管理→科研写作与绘图→构建本地LLM、Agent→多模型圆桌会议→N8N自动化工作流深度应用
人工智能·自动化·llm·科研绘图·n8n