26深度学习|李哥1

一、概念知识

1、++线性函数与神经元++

有局限,只能是直线,不能成曲线

y = wx + b

就算多个神经元串联形成,他们之间也只是起到了传递作用,相当于只有一层

下面举例说明两层神经网络后仍然是线性的

上图可以写成等式:
r1=w1x1+w2x2+w3x3+w4x4+b1r_1 = w_1x_1 + w_2 x_2 + w_3x_3 + w_4x_4 + b_1r1=w1x1+w2x2+w3x3+w4x4+b1
r2=w5x1+w6x2+w7x3+w8x4+b2r_2 = w_5x_1 + w_6 x_2 + w_7x_3 + w_8x_4 + b_2r2=w5x1+w6x2+w7x3+w8x4+b2
r3=w9x1+w10x2+w11x3+w12x4+b3r_3= w_9x_1 + w_{10} x_2 + w_{11}x_3 + w_{12}x_4 + b_3r3=w9x1+w10x2+w11x3+w12x4+b3

z=c1r1+c2r2+c3r3+bz=c_1r_1 + c_2r_2 + c_3r_3+bz=c1r1+c2r2+c3r3+b

整理上述等式后得: z=α1x1+α2x2+α3x3+α4x4+b? z = α_1x_1 + α_2x_2 + α_3x_3 + α_4x_4 + b_? z=α1x1+α2x2+α3x3+α4x4+b? 其中 α1,α2,α3,α4α_1,α_2,α_3,α_4α1,α2,α3,α4为w?,b?w_?,b_?w?,b? 组成

===

上述线性方程组可以写成

无论多少层都是只有一层

因此提出激活函数 模拟曲线。


计算参数

记上述 {w1,w2,w3...w12,b1,b2,b3,c1,c2,c3,bw_1,w_2,w_3...w_{12},b_1,b_2,b_3,c_1,c_2,c_3,bw1,w2,w3...w12,b1,b2,b3,c1,c2,c3,b} = θ

该神经网络的参数一共有 34 + 3 + 31 + 1 = 19 个

2、激活函数与非线性

激活函数就像是生物神经受到刺激的阈值,当达到某个值时才会进行神经传递。

常见且简单的激活函数:sigmoid、relu

特点:处处可导(relu的0除外)
sigmoid

σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+e−z1

relu

常用这个,因为公式简单,计算方便,虽然在0处不可导

f(z)=max(0,z)f(z) = max(0,z)f(z)=max(0,z)

于是经过激活函数处理后就能得到更多非线性模型
out=sigmoid(w1x1+w2x2+w3x3+w4x4+b1)out = sigmoid(w_1x_1 + w_2x_2+w_3x_3+w_4x_4 + b_1)out=sigmoid(w1x1+w2x2+w3x3+w4x4+b1)

3、优化成非线性神经网络


r1=w1x1+w2x2+w3x3+w4x4+b1r_1 = w_1x_1 + w_2 x_2 + w_3x_3 + w_4x_4 + b_1r1=w1x1+w2x2+w3x3+w4x4+b1
r2=w5x1+w6x2+w7x3+w8x4+b2r_2 = w_5x_1 + w_6 x_2 + w_7x_3 + w_8x_4 + b_2r2=w5x1+w6x2+w7x3+w8x4+b2
r3=w9x1+w10x2+w11x3+w12x4+b3r_3= w_9x_1 + w_{10} x_2 + w_{11}x_3 + w_{12}x_4 + b_3r3=w9x1+w10x2+w11x3+w12x4+b3

z=c1δ(r1)+c2δ(r2)+c3δ(r3)+bz=c_1δ(r_1) + c_2δ(r_2) + c_3δ(r_3)+bz=c1δ(r1)+c2δ(r2)+c3δ(r3)+b

简单来说就是下图

y^=b+cTσ(Wx+b) \hat{y} = b + c^T \sigma(Wx + b) y^=b+cTσ(Wx+b)

4、调参

神经网络

正向求y^\hat{y}y^ 得 loss = | y^\hat{y}y^ - yyy |

反向求导求w,bw,bw,b 不断调整w,bw,bw,b

注意调整过程中的三种情况

过拟合:408刷历年真题刷多了,就过拟合,导致新的考卷做不来(说的就是26考研)

二、神经网络 == 深度学习

上述概念只需了解,中间的具体过程都是黑匣子,只需调参,获得最优解即可

Neural Network == Deep Learning

  • 神经网络可以完成超级复杂任务(人脸识别),但简单问题需要先验知识解决,比如发现数字规律
相关推荐
管二狗赶快去工作!1 分钟前
体系结构论文(108):Large Language Models for EDA: Future or Mirage?
人工智能·机器学习
薛定猫AI3 分钟前
【技术干货】AI 编码代理行为优化:Andrej Karpathy Skills 工程实践指南
人工智能
哆啦阿梦4 分钟前
Java AI 应用工程师 - 完整技能清单
java·开发语言·人工智能
新缸中之脑4 分钟前
Design.md:智能体专用设计文件
人工智能
kishu_iOS&AI5 分钟前
机器学习 —— 逻辑回归(混淆矩阵)
人工智能·算法·机器学习·逻辑回归
QQ676580086 分钟前
基于cnn的YOLOV8算法 智慧城市环境治理之河道垃圾检测 地面垃圾落地识别 碎料垃圾检测 深度学习第10422期
深度学习·yolo·cnn·环境治理·河道垃圾检测·地面垃圾落地识别·碎料垃圾检测
帐篷Li7 分钟前
AI Token中转站盈利模式深度解析:定价、获客与成本控制
人工智能·github
AI视觉网奇7 分钟前
copilot-api 部署笔记
人工智能·深度学习
淮北4947 分钟前
claude +obsidian 建立自己的AI知识库,基于 karpathy
人工智能·claude·知识库·obsidian·chrom
TechMasterPlus8 分钟前
agent-browser 技术深度解析:Vercel 推出的 AI 时代浏览器自动化利器
运维·人工智能·自动化