LLM - 神经网络的训练过程

  1. 对于回归问题,用损失函数来计算预测值和真实值的差异,一种常用的公式是如下图所示(Mean Square Error),如果损失函数的值越小说明神经网络学习越准确,所以神经网络训练目标是减小损失函数的值,
  1. 对于分类问题,损失函数和上面不一样,这里使用交叉熵作为损失函数,神经网络训练目标是最小化交叉熵。
  1. 最小化损失函数的方法(梯度下降法),即将优化步骤拆分成若干个步骤,每次对损失函数的值做小幅缩小,具体过程是对损失函数求该模型参数的梯度,每次迭代对向着梯度变化最快的方向前进一步(这样就可以计算出模型参数,并在此轮迭代后更新模型参数),这样就可以使损失函数值降低一点,每次前进一步的步长称为学习率。
  1. 回归问题的梯度求解过程:输出是标量F(x), 输入是x1,x2,...xn, 对输入求偏导,得到的向量是梯度。
  1. 分类问题的梯度求解过程:输出是向量F(X),有多个输出,让每个输出对输入变量Xx1,x2,..xn求微分,得到的jacobian矩阵是梯度
  1. 求微分时的链式法则:

7.求微分实例:

8.在实际深度学习场景中,对每个参数梯度计算是通过反向传播算法实现的。

9.单个节点梯度的计算过程: downstream_gradient = upstream_gradient * local_gradient****这个公式在实际写算子时会用到。

相关推荐
AI前沿资讯4 分钟前
AI3D角色生产如何减少返工?用 V2Fun 前移建模与动画流程
人工智能·3d
aqi0012 分钟前
15天学会AI应用开发(十一)从TXT文件构建RAG知识库
人工智能·python·大模型·ai编程·ai应用
AIJWAI12 分钟前
朱雀 AI 检测的核心逻辑是什么?
人工智能
汤姆yu16 分钟前
macOS系统下Aider完整安装、配置与实战使用教程
大数据·人工智能·算法·macos·github·copilot
阿部多瑞 ABU20 分钟前
软权力:先行植入的意义置换 ——文化殖民的结构逻辑与资本剥削的后续包装
人工智能
Sam092726 分钟前
【AI 算法精讲 14】TF-IDF:词频与逆文档频率
人工智能·python·算法·ai
2601_9516599926 分钟前
YOLOv11 改进 - 主干网络 EfficientRep:一种旨在提高硬件效率的RepVGG风格卷积神经网络架构
深度学习·yolo·计算机视觉
m0_6265352030 分钟前
MRR(Mean Reciprocal Rank)和 NDCG(Normalized Discounted Cumulative Gain)
人工智能·机器学习
长和信泰光伏储能31 分钟前
探索未来能源:光伏储能技术解析
大数据·人工智能·能源
寻道码路33 分钟前
LangChain4j Java AI 应用开发实战(二十六):多模型集成策略 —— OpenAI、DeepSeek、阿里百炼混合使用
java·开发语言·人工智能·ai