你管这破玩意叫ChatGPT?

哈喽,我是子牙老师,最近玩AI底层玩得太嗨了,根本停不下来...

有学员说让我跑慢点,他们跟不上了!好吧,停一会,写篇硬核文章分享一下

取此标题纯属脑袋灵光一现,可能这个标题太洗脑了,之前看闪客写文章,全是破玩意,被洗脑了......

这篇文章写什么呢?就写大模型中最核心的参数训练与校正吧,通过这个实战,把很多名词串起来,帮助你彻底理解!这些名词是:权重初始化、学习率、训练回合、前向传播、损失函数、均方误差、斜率、求导、链式法则、梯度下降、收敛...

以下,enjoy

**大模型的本质 **

我们现在对AI的感觉就是:太聪明了,太强大了,简直无所不知,无所不能

但是有时候又会是这种感觉:一本正经的胡说八道!这哪是人工智能?这是人工智障吧!

为什么会这样呢?是由大模型的本质决定的!因为大模型的本质是概率,而非100%确定!或者说你用的那个大模型,在那个方向,没有训练到位

不理解这段话?给你看个案例:让训练后的大模型计算3的5倍是多少。我们来看训练10次与50次的结果

训练10次后你会发现:有点胡说八道。训练50次以后呢?

无限接近正确值15,但是没有100%等于15。有的人可能就要说呢:那训练500次总可以吧?来试试(为了玩大模型,我花了2w多买了5090显卡)

看到没,只是无限接近,没有精确等于15

这,就是大模型的本质!!换成大模型语言就是:大模型的本质是拥有无限接近真实值的参数的一个综合体!

关注公众号【硬核子牙】,看计算机底层、AI底层硬核文章!

**模型收敛 **

那训练5000次呢?

你会发现模型中的参数已经不再更新,意思就是模型已经吃饱了,吃不进去了,这种现象就叫模型收敛

**

大模型参数训练 **

我们现在用到的大模型,都是出厂后,被万卡训练过的,参数都已经调到吃饱的状态了,只是不同方向的区别

我们这次选什么方向进行训练呢?就简单点:给一个数3,让大模型算出来这个数的5倍是多少,公式是y=5x

大模型中那个参数是w,大模型会默认给w一个初始值,比如0.5,这一步就是权重初始化

第一次前向传播,大模型算出来的结果就是3*0.5=1.5,正确答案是15,错的非常离谱!训练大模型要做的就是让w无限接近5

怎么做呢?你得知道大模型是如何计算w的

大模型是通过梯度下降算法来计算w的!这里引入鼎鼎大名的BGD算法

这个公式的意思是新的w等于老的w,减去学习率与每一次训练数据的斜率的乘积的平均数。前面两个w好理解,后面两个参数解释一下

大模型根据初始w算出无限接近正确值的w,是算出来的,算,就涉及到移动的步长,学习率就是这个步长,比如定义learning_rate=0.01,每次训练,让w向正确答案挪动0.01,直到达到模型收敛

那上一轮的训练结果离正确值差多少呢?要通关求导实现(这个不了解的,去B站找导数相关的视频看一下)

大家再回头看一下我上面贴的训练的图,里面的w随着训练的次数一直在变,就是大模型自己算出来的

大模型怎么知道对错呢?就需要你给它喂数据!

大模型能根据你喂的数据,自动学习,自动纠错,最终得到无限接近正确结果的参数w

我上面写的内容是反推的,接下来我说下正向的流程:

  1. 大模型初始只有前向传播函数+参数初始值,
  2. infra工程师将数据喂给大模型,大模型拿到数据,经过前向传播函数计算,输出结果,
  3. 训练框架拿到结果与正确结果比对,发现不对,
  4. 大模型如何发现不对的呢?通过求导算出来的斜率进行判断,越大,错的越离谱,越小,越解决正确答案
  5. 引入梯度下降算法,结合学习率,算出这轮训练后的参数w
  6. 第二轮训练,第三轮......循环往复,知道infra工程师满意为止

整个流程里没提到损失函数,损失函数通常被用来判断大模型训练是否达到了理想结果。比如训练50已经无限接近答案了,就不需要再训练到5000次了,就可以通关损失函数得到的结果去做判断以觉得还要不要继续进行训练。这在大模型训练中叫早停法

至此,大模型参数训练及微调就讲完了

文字版略显枯燥,如果你想深入学习,透彻理解,可以报名我的课程《通关AI infra》,618优惠进行中!

AI时代诞生了很多新的岗位,AI infra是其中最有技术含量、最有前途,也是最有钱途的岗位,是整个AI产业链中最难被替代、技术壁垒最高、生命周期最长的一层。往期学员很多转入了infra,薪资都是翻倍的

相关推荐
阿里云大数据AI技术1 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu12271 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队1 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇1 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Token炼金师2 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc
这个DBA有点耶2 小时前
AI写的SQL跑崩了生产库,这锅谁背?
数据库·人工智能·程序员
阿里云大数据AI技术3 小时前
阿里云 EMR AI 助手正式发布:从问答工具到全栈智能运维助手
运维·人工智能
Larcher3 小时前
从零搭建 MCP 服务——让 AI 拥有无限扩展能力
人工智能·程序员
zzzzzz3103 小时前
你的 AI 写的 React 烂透了?这个 8000+ Star 的开源工具能揪出 90% 的「Agent 屎山」
人工智能
小星AI3 小时前
MCP协议超详细教程,从入门到实战
人工智能