z = f ( w 1 x 1 + w 2 x 2 + ... + w n x n + b ) z = f(w_1x_1 + w_2x_2 + \ldots + w_nx_n + b) z=f(w1x1+w2x2+...+wnxn+b)
其中, x 1 , x 2 , ... , x n x_1, x_2, \ldots, x_n x1,x2,...,xn 是输入, w 1 , w 2 , ... , w n w_1, w_2, \ldots, w_n w1,w2,...,wn 是权重, b b b 是偏置, f f f 是激活函数, z z z 是输出。这是一个典型的多变量函数,其自变量包括输入 x i x_i xi、权重 w i w_i wi和偏置 b b b。
偏导数的概念与计算
偏导数是多元函数相对于其某一个自变量的导数,求导时保持其他自变量不变。对于函数 z = f ( x , y ) z = f(x, y) z=f(x,y),其关于 x x x的偏导数定义为:
∂ z ∂ x = lim Δ x → 0 f ( x + Δ x , y ) − f ( x , y ) Δ x \frac{\partial z}{\partial x} = \lim_{\Delta x \to 0} \frac{f(x + \Delta x, y) - f(x, y)}{\Delta x} ∂x∂z=Δx→0limΔxf(x+Δx,y)−f(x,y)
类似地,关于 y y y的偏导数定义为:
∂ z ∂ y = lim Δ y → 0 f ( x , y + Δ y ) − f ( x , y ) Δ y \frac{\partial z}{\partial y} = \lim_{\Delta y \to 0} \frac{f(x, y + \Delta y) - f(x, y)}{\Delta y} ∂y∂z=Δy→0limΔyf(x,y+Δy)−f(x,y)
偏导数反映了函数在某一特定方向上的变化率。在神经网络中,我们特别关心损失函数 L L L关于权重 w i w_i wi和偏置 b b b的偏导数,因为它们指导了参数的更新。
偏导数的计算示例
考虑函数 f ( x , y ) = x 2 + x y + y 2 f(x, y) = x^2 + xy + y^2 f(x,y)=x2+xy+y2,我们可以分别计算其关于 x x x和 y y y的偏导数:
∂ f ∂ x = 2 x + y \frac{\partial f}{\partial x} = 2x + y ∂x∂f=2x+y
∂ f ∂ y = x + 2 y \frac{\partial f}{\partial y} = x + 2y ∂y∂f=x+2y
这两个偏导数描述了函数在 x x x和 y y y方向上的变化率。
多变量函数的最小值条件
对于多变量函数 f ( x 1 , x 2 , ... , x n ) f(x_1, x_2, \ldots, x_n) f(x1,x2,...,xn),取得最小值的必要条件是该函数在该点的所有偏导数都为零。即,如果存在一个点 ( x 1 ∗ , x 2 ∗ , ... , x n ∗ ) (x_1^*, x_2^*, \ldots, x_n^*) (x1∗,x2∗,...,xn∗)使得函数 f f f取得最小值,那么必须满足以下条件:
∂ f ∂ x 1 ( x 1 ∗ , x 2 ∗ , ... , x n ∗ ) = 0 \frac{\partial f}{\partial x_1}(x_1^*, x_2^*, \ldots, x_n^*) = 0 ∂x1∂f(x1∗,x2∗,...,xn∗)=0
∂ f ∂ x 2 ( x 1 ∗ , x 2 ∗ , ... , x n ∗ ) = 0 \frac{\partial f}{\partial x_2}(x_1^*, x_2^*, \ldots, x_n^*) = 0 ∂x2∂f(x1∗,x2∗,...,xn∗)=0
⋮ \vdots ⋮
∂ f ∂ x n ( x 1 ∗ , x 2 ∗ , ... , x n ∗ ) = 0 \frac{\partial f}{\partial x_n}(x_1^*, x_2^*, \ldots, x_n^*) = 0 ∂xn∂f(x1∗,x2∗,...,xn∗)=0
示例:最小化函数 f ( x , y ) = x 2 + y 2 f(x, y) = x^2 + y^2 f(x,y)=x2+y2,在约束条件 g ( x , y ) = x + y − 1 = 0 g(x, y) = x + y - 1 = 0 g(x,y)=x+y−1=0 下。
构造拉格朗日函数 :
L ( x , y , λ ) = f ( x , y ) + λ g ( x , y ) L(x, y, \lambda) = f(x, y) + \lambda g(x, y) L(x,y,λ)=f(x,y)+λg(x,y) ,其中, λ \lambda λ就是拉格朗日数
求偏导数并设为零 :
∂ L ∂ x = ∂ f ∂ x + λ ∂ g ∂ x = 0 \frac{\partial L}{\partial x} = \frac{\partial f}{\partial x} + \lambda \frac{\partial g}{\partial x} = 0 ∂x∂L=∂x∂f+λ∂x∂g=0
∂ L ∂ y = ∂ f ∂ y + λ ∂ g ∂ y = 0 \frac{\partial L}{\partial y} = \frac{\partial f}{\partial y} + \lambda \frac{\partial g}{\partial y} = 0 ∂y∂L=∂y∂f+λ∂y∂g=0
∂ L ∂ λ = g ( x , y ) = 0 \frac{\partial L}{\partial \lambda} = g(x, y) = 0 ∂λ∂L=g(x,y)=0
解方程组:
从第一个和第二个偏导数方程中,我们有:
− 2 x = − 2 y ⇒ x = y -2x = -2y \quad \Rightarrow \quad x = y −2x=−2y⇒x=y
将这个结果代入约束条件方程: x + x − 1 = 0 ⇒ 2 x = 1 ⇒ x = 1 2 x + x - 1 = 0 \quad \Rightarrow \quad 2x = 1 \quad \Rightarrow \quad x = \frac{1}{2} x+x−1=0⇒2x=1⇒x=21
因此, y = 1 2 y = \frac{1}{2} y=21 也成立。
所以,最优解是 x = 1 2 x = \frac{1}{2} x=21, y = 1 2 y = \frac{1}{2} y=21。