LLM - 神经网络的训练过程

  1. 对于回归问题,用损失函数来计算预测值和真实值的差异,一种常用的公式是如下图所示(Mean Square Error),如果损失函数的值越小说明神经网络学习越准确,所以神经网络训练目标是减小损失函数的值,
  1. 对于分类问题,损失函数和上面不一样,这里使用交叉熵作为损失函数,神经网络训练目标是最小化交叉熵。
  1. 最小化损失函数的方法(梯度下降法),即将优化步骤拆分成若干个步骤,每次对损失函数的值做小幅缩小,具体过程是对损失函数求该模型参数的梯度,每次迭代对向着梯度变化最快的方向前进一步(这样就可以计算出模型参数,并在此轮迭代后更新模型参数),这样就可以使损失函数值降低一点,每次前进一步的步长称为学习率。
  1. 回归问题的梯度求解过程:输出是标量F(x), 输入是x1,x2,...xn, 对输入求偏导,得到的向量是梯度。
  1. 分类问题的梯度求解过程:输出是向量F(X),有多个输出,让每个输出对输入变量Xx1,x2,..xn求微分,得到的jacobian矩阵是梯度
  1. 求微分时的链式法则:

7.求微分实例:

8.在实际深度学习场景中,对每个参数梯度计算是通过反向传播算法实现的。

9.单个节点梯度的计算过程: downstream_gradient = upstream_gradient * local_gradient****这个公式在实际写算子时会用到。

相关推荐
phltxy3 分钟前
MCP 从协议到 Spring AI 实战
人工智能·spring·oracle
Sirius Wu13 分钟前
Agentic端到端&分离式RL技术建设
人工智能·深度学习·机器学习·caffe
AI导出鸭PC端25 分钟前
智谱清言怎么生成word文档?AI导出鸭终结乱码烦恼
人工智能·ai·c#·word·豆包·ai导出鸭
格桑阿sir26 分钟前
17-大模型智能体开发工程师:深入学习Agent记忆系统
人工智能·记忆存储·记忆系统·agent记忆·嵌入式数据库·agent进化·记忆检索
数据仓库搬砖人28 分钟前
LangGraph 原理深度解析:为什么它是目前最适合构建 Agent 的框架
人工智能
孟陬38 分钟前
国外技术周刊 #139:LLM 正在杀死程序员的「懒惰美德」
前端·人工智能·后端
Peter·Pan爱编程1 小时前
23. 算法库:用算法代替手写循环
c++·人工智能·算法
Nile1 小时前
Claude Code-Dynamic Workflows:1.为什么用工作流?
人工智能·ai·ai编程·ai-native
狂炫冰美式1 小时前
AI 生成 Draw.io,导入飞书/Lark 画板后可编辑
前端·人工智能·后端
战族狼魂1 小时前
从零构建企业级Hermes-Agent:复杂任务拆解、工具协同与安全落地实践
开发语言·人工智能·python