神经网络 模型表示2

神经网络 模型表示2

使用向量化的方法会使得计算更为简便。以上面的神经网络为例,试着计算第二层的值:

我们令 z ( 2 ) = θ ( 1 ) x {{z}^{\left( 2 \right)}}={{\theta }^{\left( 1 \right)}}x z(2)=θ(1)x,则 a ( 2 ) = g ( z ( 2 ) ) {{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}}) a(2)=g(z(2)) ,计算后添加 a 0 ( 2 ) = 1 a_{0}^{\left( 2 \right)}=1 a0(2)=1。 计算输出的值为:

我们令 z ( 3 ) = θ ( 2 ) a ( 2 ) {{z}^{\left( 3 \right)}}={{\theta }^{\left( 2 \right)}}{{a}^{\left( 2 \right)}} z(3)=θ(2)a(2),则 h θ ( x ) = a ( 3 ) = g ( z ( 3 ) ) h_\theta(x)={{a}^{\left( 3 \right)}}=g({{z}^{\left( 3 \right)}}) hθ(x)=a(3)=g(z(3))。

这只是针对训练集中一个训练实例所进行的计算。如果我们要对整个训练集进行计算,我们需要将训练集特征矩阵进行转置,使得同一个实例的特征都在同一列里。即:

{{z}\^{\\left( 2 \\right)}}={{\\Theta }\^{\\left( 1 \\right)}}\\times {{X}\^{T}}

a ( 2 ) = g ( z ( 2 ) ) {{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}}) a(2)=g(z(2))

为了更好了了解Neuron Networks的工作原理,我们先把左半部分遮住:

右半部分其实就是以 a 0 , a 1 , a 2 , a 3 a_0, a_1, a_2, a_3 a0,a1,a2,a3, 按照Logistic Regression 的方式输出 h θ ( x ) h_\theta(x) hθ(x)

其实神经网络就像是logistic regression ,只不过我们把logistic regression 中的输入向量 [ x 1 ∼ x 3 ] \left[ x_1\sim {x_3} \right] [x1∼x3] 变成了中间层的 [ a 1 ( 2 ) ∼ a 3 ( 2 ) ] \left[ a_1^{(2)}\sim a_3^{(2)} \right] [a1(2)∼a3(2)], 即: h θ ( x ) = g ( Θ 0 ( 2 ) a 0 ( 2 ) + Θ 1 ( 2 ) a 1 ( 2 ) + Θ 2 ( 2 ) a 2 ( 2 ) + Θ 3 ( 2 ) a 3 ( 2 ) ) h_\theta(x)=g\left( \Theta_0^{\left( 2 \right)}a_0^{\left( 2 \right)}+\Theta_1^{\left( 2 \right)}a_1^{\left( 2 \right)}+\Theta_{2}^{\left( 2 \right)}a_{2}^{\left( 2 \right)}+\Theta_{3}^{\left( 2 \right)}a_{3}^{\left( 2 \right)} \right) hθ(x)=g(Θ0(2)a0(2)+Θ1(2)a1(2)+Θ2(2)a2(2)+Θ3(2)a3(2))

我们可以把 a 0 , a 1 , a 2 , a 3 a_0, a_1, a_2, a_3 a0,a1,a2,a3看成更为高级的特征值,也就是 x 0 , x 1 , x 2 , x 3 x_0, x_1, x_2, x_3 x0,x1,x2,x3的进化体,并且它们是由 x x x与 θ \theta θ决定的,因为是梯度下降的,所以 a a a是变化的,并且变得越来越厉害,所以这些更高级的特征值远比仅仅将 x x x次方厉害,也能更好的预测新数据。

这就是神经网络相比于逻辑回归和线性回归的优势。

相关推荐
FONE_Platform21 小时前
能源化工行业全面预算解决方案:重塑双碳目标下的财务新动能
大数据·人工智能
前沿在线21 小时前
从“用系统”到“跑 Agent”:AI 钉钉 1.1 在重新定义企业操作系统 | 前沿在线
人工智能
智能相对论21 小时前
CES深度观察|AI硬件消费时代的“幕后英雄”走向台前
人工智能·百度
Terrence Shen21 小时前
【CUDA编程系列】之01
c++·人工智能·深度学习·机器学习
老吴学AI21 小时前
系列报告十:(Menlo)《2025: The State of Generative AI in the Enterprise》
人工智能·vibe coding
AI即插即用21 小时前
超分辨率重建 | CVPR 2024 DarkIR:轻量级低光照图像增强与去模糊模型(代码实践)
图像处理·人工智能·深度学习·神经网络·计算机视觉·超分辨率重建
喜欢吃豆21 小时前
深度解析:FFmpeg 远程流式解复用原理与工程实践
人工智能·架构·ffmpeg·大模型·音视频·多模态
ChaITSimpleLove21 小时前
AI时代编程范式:“游击战”与“阵地战”的灵活应用
人工智能·ai编程范式·战略思维·战术思维·灵活策略·游击战与阵地战
hacker70721 小时前
精进Excel图表:AI赋能,成为Excel图表高手
人工智能·信息可视化·excel
OpenBayes21 小时前
HY-MT1.5-1.8B 支持多语言神经机器翻译;Med-Banana-50K 提供医学影像编辑基准数据
人工智能·深度学习·自然语言处理·数据集·机器翻译·图像生成