多元线性回归模型
fθ(x1,⋯ ,xn)=θ0+θ1x1+⋯+θnxnf_{\theta}(x_1,\cdots,x_n)=\theta_0+\theta_1 x_1+ \cdots + \theta_n x_nfθ(x1,⋯,xn)=θ0+θ1x1+⋯+θnxn
向量形式
θ\thetaθ列向量
θ=θ0θ1⋮θn \theta = \begin{bmatrix} \theta_0 \\ \theta_1 \\ \vdots \\ \theta_n \\ \end{bmatrix} θ= θ0θ1⋮θn
xxx列向量
x=x0x1⋮xn x = \begin{bmatrix} x_0 \\ x_1 \\ \vdots \\ x_n \\ \end{bmatrix} x= x0x1⋮xn
向量点积,x0x_0x0为1时,下式成立
fθ(x1,⋯ ,xn)=θ0+θ1x1+⋯+θnxn=θ0θ1⋯θnx0x1⋮xn=θTx \begin{split} f_{\theta}(x_1,\cdots,x_n) &=\theta_0+\theta_1 x_1+ \cdots + \theta_n x_n \\ &=\begin{bmatrix} \theta_0 & \theta_1 & \cdots & \theta_n \end{bmatrix} \begin{bmatrix} x_0 \\ x_1 \\ \vdots \\ x_n \\ \end{bmatrix} \\ &=\theta ^{T} x \end{split} fθ(x1,⋯,xn)=θ0+θ1x1+⋯+θnxn=θ0θ1⋯θn x0x1⋮xn =θTx
对第j个元素θjθjθj偏微分的表达式
u=E(θ)v=fθ(x)∂u∂θj=∂u∂v⋅∂v∂θj \begin{split} u &= E(\theta) \\ v &= f_{\theta}(x) \\ \cfrac{\partial u}{\partial \theta_{j}} &= \cfrac{\partial u}{\partial v} \cdot \cfrac{\partial v}{\partial \theta_{j}} \end{split} uv∂θj∂u=E(θ)=fθ(x)=∂v∂u⋅∂θj∂v
u对v进行求导
∂u∂v=∂∂v(12∑i=1n(y(i)−v)2)=12∑i=1n(∂∂v(y(i)−v)2)=12∑i=1n(∂∂v(y(i)2−2y(i)v+v2))=12∑i=1n(−2y(i)+2v)=∑i=1n(v−y(i)) \begin{split} \cfrac{\partial u}{\partial v} &= \cfrac{\partial}{\partial v} \begin{pmatrix} \cfrac{1}{2} \sum\limits_{i=1}^{n}(y^{(i)}-v)^2 \end{pmatrix} \\ &=\cfrac{1}{2} \sum\limits_{i=1}^{n} \begin{pmatrix} \cfrac{\partial}{\partial v} (y^{(i)}-v)^2 \end{pmatrix} \\ &=\cfrac{1}{2} \sum\limits_{i=1}^{n} \begin{pmatrix} \cfrac{\partial}{\partial v} (y^{(i)^2}-2y^{(i)}v+v^2) \end{pmatrix} \\ &=\cfrac{1}{2} \sum\limits_{i=1}^{n} \begin{pmatrix} -2y^{(i)}+2v \end{pmatrix} \\ &=\sum\limits_{i=1}^{n} \begin{pmatrix} v-y^{(i)} \end{pmatrix} \\ \end{split} ∂v∂u=∂v∂(21i=1∑n(y(i)−v)2)=21i=1∑n(∂v∂(y(i)−v)2)=21i=1∑n(∂v∂(y(i)2−2y(i)v+v2))=21i=1∑n(−2y(i)+2v)=i=1∑n(v−y(i))
v对θj\theta_jθj进行求导
∂v∂θj=∂∂θj(θTx)=∂∂θj(θ0x0+θ1x1+⋯+θnxn)=xj \begin{split} \cfrac{\partial v}{\partial \theta_j} &= \cfrac{\partial}{\partial \theta_j} \begin{pmatrix} \theta^{T}x \end{pmatrix} \\ &= \cfrac{\partial}{\partial \theta_j} \begin{pmatrix} \theta_0 x_0+\theta_1 x_1+ \cdots + \theta_n x_n \end{pmatrix} \\ &=x_j \end{split} ∂θj∂v=∂θj∂(θTx)=∂θj∂(θ0x0+θ1x1+⋯+θnxn)=xj
u对θ0\theta_0θ0进行求导
∂u∂θ0=∂u∂v⋅∂v∂θ0=∑i=1n(v−y(i))⋅xj=∑i=1n(fθ(x(i))−y(i))xj(i) \begin{split} \cfrac{\partial u}{\partial \theta_0} &= \cfrac{\partial u}{\partial v} \cdot \cfrac{\partial v}{\partial \theta_0} \\ &=\sum\limits_{i=1}^{n} \begin{pmatrix} v-y^{(i)} \end{pmatrix} \cdot x_j\\ &=\sum\limits_{i=1}^{n} \begin{pmatrix} f_{\theta}(x^{(i)})-y^{(i)} \end{pmatrix} x_j^{(i)} \\ \end{split} ∂θ0∂u=∂v∂u⋅∂θ0∂v=i=1∑n(v−y(i))⋅xj=i=1∑n(fθ(x(i))−y(i))xj(i)
第j个参数的更新表达式
θj:=θj−η∑i=1n(fθ(x(i))−y(i))⋅xj(i) \begin{split} \theta_j :&= \theta_j - \eta\sum\limits_{i=1}^{n} \begin{pmatrix} f_{\theta}(x^{(i)})-y^{(i)} \end{pmatrix} \cdot x_j^{(i)} \end{split} θj:=θj−ηi=1∑n(fθ(x(i))−y(i))⋅xj(i)