机器学习&&深度学习——向量求导问题

👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er

🌌上期文章:机器学习&&深度学习------图像分类数据集

📚订阅专栏:机器学习&&深度学习

希望文章对你们有所帮助

这篇文章的本意还是再一次复盘一下向量求导问题,很多时候的例子都直接推着就过去了,但是重新遇到总会卡壳一会,因为向量求导问题会分多种情况,所以我们在这里特意做个理解与总结。

向量求导问题

标量对列向量求导

已知列向量x:
x = x 1 , x 2 , . . . , x n T x=x_1,x_2,...,x_n^T x=x1,x2,...,xnT

将标量y对x进行求导,得到:
∂ y ∂ x = ∂ y ∂ x 1 , ∂ y ∂ x 2 , . . . , ∂ y ∂ x n \frac{\partial y}{\partial x}=\\frac{\\partial y}{\\partial x_1},\\frac{\\partial y}{\\partial x_2},...,\\frac{\\partial y}{\\partial x_n} ∂x∂y=∂x1∂y,∂x2∂y,...,∂xn∂y

明明也就只有这么一个输出,而行表示输出,当然就是只有一行,而每列就代表每个偏导。

比如:对||x||2求导:
∂ y ∂ x = 2 x T \frac{\partial y}{\partial x}=2x^T ∂x∂y=2xT

或者y对<u,v>这个点积进行求导,u、v是关于x的向量,则:
∂ y ∂ x = u T ∂ v ∂ x + v T ∂ u ∂ x \frac{\partial y}{\partial x}=u^T\frac{\partial v}{\partial x}+v^T\frac{\partial u}{\partial x} ∂x∂y=uT∂x∂v+vT∂x∂u

列向量对标量求导

已知y是列向量,x是标量,那么y对x求导依旧是列向量。

毕竟y是列向量就已经说明了其具有多个输出,自然需要保证导数以后,输出的量依旧为那么多。

两个向量求导

这边要讲一下分子布局和分母布局的意义:

1、分子布局:分子为列向量,分母为行向量

2、分母布局:分子为行向量,分母为列向量

按照之前的想法来看,向量对向量求导,那么就先将y的每一行都对x求导,最后把每行的x拓展成多列的行向量,最终会得到一个矩阵。

例如:
∂ x T A ∂ x = A T \frac{\partial x^TA}{\partial x}=A^T ∂x∂xTA=AT

我们的输入也可以拓展到矩阵,原理都一样

向量链式法则

我们从标量链式法则:
y = f ( u ) , u = g ( x ) 则 ∂ y ∂ x = ∂ y ∂ u ∂ u ∂ x y=f(u),u=g(x)则\frac{\partial y}{\partial x}=\frac{\partial y}{\partial u}\frac{\partial u}{\partial x} y=f(u),u=g(x)则∂x∂y=∂u∂y∂x∂u

拓展到向量:

自动求导

计算图

将代码分解为操作子,将计算表示成一个无环图

自动求导的原理

首先,有两种求导的方式,一种是从x开始求导,叫做正向累积,一种是从最上面的根结点开始向下求导,叫做反向累积也叫做反向传递。我们通常用反向累积

1、构造计算图

2、前向:执行图,存储中间结果(如下图b=a-y,a=<x,w>)

3、反向:从相反方向执行图(要去除不需要的枝)

正向累积和反向累积的对比

对于我们常用的反向累积,他的计算复杂度是O(n),而内存复杂度是O(n) ,毕竟前向要走一遍来存储各个中间结果,所以需要耗费内存复杂度(这也就是为什么深度学习非常耗费GPU)。

而正向累积,计算复杂度是O(n),而内存复杂度是O(1),根本不需要存储中间结果,由下往上逐个求导即可。但是正向累积一般不使用,因为每次计算梯度都要扫一遍。

相关推荐
HyperAI超神经几秒前
在线教程丨英伟达开源LocateAnything,3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
人工智能·目标检测·计算机视觉·ocr·目标文本定位
库拉大叔1 分钟前
KULAAI 一站式 AI 编程与模型聚合平台效果实测
人工智能
诸葛务农2 分钟前
溶液纳米颗粒净化技术及其在光刻胶纳过滤和提纯中的应用(上)
人工智能
oort1233 分钟前
VLStream 全开源决策式 AI 视频平台 技术视角完整说明
大数据·开发语言·人工智能·经验分享·python·开源·音视频
Cloud_Shy6183 分钟前
解读《Effective Python 3rd Edition》:从练气到老魔(第二章 Item 10 - 12)
c语言·开发语言·网络·人工智能·windows·python·编辑器
武子康4 分钟前
Build-Your-Own-X 从零构建轻量级事件驱动微框架:嵌入式与物联网场景下的极简实践
人工智能·后端·物联网·ai·c#·大模型·嵌入式
人民新视野4 分钟前
能力画像×场景适配:2026年5大会议管理系统厂商评测
人工智能
YOLO数据集集合5 分钟前
无人机航拍巡检数据集|城市乡镇港口工业区|高分辨率旋转目标检测|深度学习训练基准
深度学习·目标检测·无人机
一个处女座的程序猿O(∩_∩)O7 分钟前
Agent 到底是什么?—— 从概念到实践的全面解析
人工智能