你管这破玩意叫ChatGPT？

哈喽，我是子牙老师，最近玩AI底层玩得太嗨了，根本停不下来...

有学员说让我跑慢点，他们跟不上了！好吧，停一会，写篇硬核文章分享一下

取此标题纯属脑袋灵光一现，可能这个标题太洗脑了，之前看闪客写文章，全是破玩意，被洗脑了......

这篇文章写什么呢？就写大模型中最核心的参数训练与校正吧，通过这个实战，把很多名词串起来，帮助你彻底理解！这些名词是：权重初始化、学习率、训练回合、前向传播、损失函数、均方误差、斜率、求导、链式法则、梯度下降、收敛...

以下，enjoy

大模型的本质

我们现在对AI的感觉就是：太聪明了，太强大了，简直无所不知，无所不能

但是有时候又会是这种感觉：一本正经的胡说八道！这哪是人工智能？这是人工智障吧！

为什么会这样呢？是由大模型的本质决定的！因为大模型的本质是概率，而非100%确定！或者说你用的那个大模型，在那个方向，没有训练到位

不理解这段话？给你看个案例：让训练后的大模型计算3的5倍是多少。我们来看训练10次与50次的结果

训练10次后你会发现：有点胡说八道。训练50次以后呢？

无限接近正确值15，但是没有100%等于15。有的人可能就要说呢：那训练500次总可以吧？来试试（为了玩大模型，我花了2w多买了5090显卡）

看到没，只是无限接近，没有精确等于15

这，就是大模型的本质！！换成大模型语言就是：大模型的本质是拥有无限接近真实值的参数的一个综合体！

关注公众号【硬核子牙】，看计算机底层、AI底层硬核文章！

模型收敛

那训练5000次呢？

你会发现模型中的参数已经不再更新，意思就是模型已经吃饱了，吃不进去了，这种现象就叫模型收敛

大模型参数训练

我们现在用到的大模型，都是出厂后，被万卡训练过的，参数都已经调到吃饱的状态了，只是不同方向的区别

我们这次选什么方向进行训练呢？就简单点：给一个数3，让大模型算出来这个数的5倍是多少，公式是y=5x

大模型中那个参数是w，大模型会默认给w一个初始值，比如0.5，这一步就是权重初始化

第一次前向传播，大模型算出来的结果就是3*0.5=1.5，正确答案是15，错的非常离谱！训练大模型要做的就是让w无限接近5

怎么做呢？你得知道大模型是如何计算w的

大模型是通过梯度下降算法来计算w的！这里引入鼎鼎大名的BGD算法

这个公式的意思是新的w等于老的w，减去学习率与每一次训练数据的斜率的乘积的平均数。前面两个w好理解，后面两个参数解释一下

大模型根据初始w算出无限接近正确值的w，是算出来的，算，就涉及到移动的步长，学习率就是这个步长，比如定义learning_rate=0.01，每次训练，让w向正确答案挪动0.01，直到达到模型收敛

那上一轮的训练结果离正确值差多少呢？要通关求导实现（这个不了解的，去B站找导数相关的视频看一下）

大家再回头看一下我上面贴的训练的图，里面的w随着训练的次数一直在变，就是大模型自己算出来的

大模型怎么知道对错呢？就需要你给它喂数据！

大模型能根据你喂的数据，自动学习，自动纠错，最终得到无限接近正确结果的参数w

我上面写的内容是反推的，接下来我说下正向的流程：

1.大模型初始只有前向传播函数+参数初始值，

整个流程里没提到损失函数，损失函数通常被用来判断大模型训练是否达到了理想结果。比如训练50已经无限接近答案了，就不需要再训练到5000次了，就可以通关损失函数得到的结果去做判断以觉得还要不要继续进行训练。这在大模型训练中叫早停法

至此，大模型参数训练及微调就讲完了

文字版略显枯燥，如果你想深入学习，透彻理解，可以报名我的课程《通关AI infra》，618优惠进行中！

AI时代诞生了很多新的岗位，AI infra是其中最有技术含量、最有前途，也是最有钱途的岗位，是整个AI产业链中最难被替代、技术壁垒最高、生命周期最长的一层。往期学员很多转入了infra，薪资都是翻倍的