《神经网络与深度学习》学习笔记(一):概述、线性回归、线性分类、神经元与感知机
一、课程概述
1.1 人工智能、机器学习、深度学习的关系
人工智能(AI)是让机器模拟人类智能的总称,机器学习是实现人工智能的核心方法,深度学习是机器学习的重要分支。
- 人工智能(AI):目标是让机器完成原本需要人类智慧才能完成的任务,包括推理、学习、感知、决策等。
- 机器学习(Machine Learning):从数据中学习规律,通过经验提升模型性能,不需要显式编程。
- 深度学习(Deep Learning):基于多层神经网络,模拟人脑分层处理信息,自动提取特征,解决传统机器学习依赖人工特征工程的问题。
1.2 深度学习兴起的背景
- 大数据:互联网、传感器产生海量数据
- 算力提升:GPU、TPU 提供强大并行计算能力
- 算法突破:激活函数、网络结构、优化算法不断改进
1.3 发展历史
- 1943 年 :提出 M-P 神经元模型,人工神经网络诞生
- 1949 年 :提出 Hebb 学习规则,奠定连接学习基础
- 1957 年:**感知机(Perceptron)**出现,实现线性分类
- 1969 年:第一次 AI 寒冬,单层感知机无法解决 XOR 问题
- 1986 年 :BP 算法提出,多层神经网络可以训练
- 2006 年:深度学习复兴,提出逐层预训练
- 2012 年至今:CNN、RNN、Transformer、大模型快速发展
1.4 主要应用
- 计算机视觉:图像分类、目标检测、图像分割
- 自然语言处理:机器翻译、问答、对话、文本生成
- 语音:语音识别、语音合成
- 工业:缺陷检测、预测性维护
- 医疗:医学影像分析、疾病预测
- 自动驾驶、机器人、金融风控等
二、线性回归
2.1 问题描述
给定一组输入特征和对应的连续输出,学习输入到输出的线性映射关系。
2.2 模型定义
hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2+\dots+\theta_nx_n hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn
写成向量形式:
hθ(x)=θTx h_{\theta}(x)=\theta^T x hθ(x)=θTx
- xxx:特征向量
- θ\thetaθ:模型参数
- hθ(x)h_{\theta}(x)hθ(x):预测值
2.3 代价函数
使用均方误差衡量预测误差:
J(θ)=12∑i=1N(y(i)−hθ(x(i)))2 J(\theta)=\frac{1}{2}\sum_{i=1}^N\left(y^{(i)}-h_{\theta}(x^{(i)})\right)^2 J(θ)=21i=1∑N(y(i)−hθ(x(i)))2
- NNN:样本数量
- y(i)y^{(i)}y(i):真实值
- 目标:最小化代价函数
2.4 参数求解
2.4.1 正规方程(解析解)
令梯度为 0:
∂J(θ)∂θ=0 \frac{\partial J(\theta)}{\partial \theta}=0 ∂θ∂J(θ)=0
解得:
θ=(XTX)−1XTy \theta=(X^T X)^{-1}X^T y θ=(XTX)−1XTy
优点:一步求出;缺点:高维时求逆计算量大。
2.4.2 梯度下降
迭代更新参数:
θ=θ−α∂J(θ)∂θ \theta=\theta-\alpha\frac{\partial J(\theta)}{\partial \theta} θ=θ−α∂θ∂J(θ)
∂J(θ)∂θ=∑i=1N(hθ(x(i))−y(i))x(i) \frac{\partial J(\theta)}{\partial \theta}=\sum_{i=1}^N\left(h_{\theta}(x^{(i)})-y^{(i)}\right)x^{(i)} ∂θ∂J(θ)=i=1∑N(hθ(x(i))−y(i))x(i)
- α\alphaα:学习率
三、线性二分类与逻辑回归
3.1 回归与分类区别
- 回归:输出连续值
- 分类:输出离散类别或概率
3.2 线性分类思想
用一条直线(高维为超平面)把样本分成两类:
θTx=0 \theta^T x=0 θTx=0
一侧为正类,一侧为负类。
3.3 Sigmoid 激活函数
将线性输出映射到 0~1 的概率:
σ(z)=11+e−z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+e−z1
z=θTx z=\theta^T x z=θTx
性质:
- σ′(z)=σ(z)(1−σ(z))\sigma'(z)=\sigma(z)(1-\sigma(z))σ′(z)=σ(z)(1−σ(z))
- z→+∞z\to+\inftyz→+∞ 输出 1;z→−∞z\to-\inftyz→−∞ 输出 0
3.4 概率解释
P(y=1∣x;θ)=hθ(x)=σ(θTx) P(y=1|x;\theta)=h_{\theta}(x)=\sigma(\theta^T x) P(y=1∣x;θ)=hθ(x)=σ(θTx)
P(y=0∣x;θ)=1−hθ(x) P(y=0|x;\theta)=1-h_{\theta}(x) P(y=0∣x;θ)=1−hθ(x)
3.5 代价函数(交叉熵)
均方误差在 Sigmoid 下非凸,改用交叉熵:
J(θ)=−∑i=1N[y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))] J(\theta)=-\sum_{i=1}^N\left[y^{(i)}\log h_{\theta}(x^{(i)})+(1-y^{(i)})\log(1-h_{\theta}(x^{(i)}))\right] J(θ)=−i=1∑N[y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]
3.6 梯度下降求解
∂J(θ)∂θ=∑i=1N(hθ(x(i))−y(i))x(i) \frac{\partial J(\theta)}{\partial \theta}=\sum_{i=1}^N\left(h_{\theta}(x^{(i)})-y^{(i)}\right)x^{(i)} ∂θ∂J(θ)=i=1∑N(hθ(x(i))−y(i))x(i)
四、多分类:Softmax 回归
4.1 多分类问题
样本属于 kkk 个类别中的一个,输出各类概率。
4.2 Softmax 公式
P(y=c∣x;θ)=eθcTx∑j=1keθjTx P(y=c|x;\theta)=\frac{e^{\theta_c^T x}}{\sum_{j=1}^k e^{\theta_j^T x}} P(y=c∣x;θ)=∑j=1keθjTxeθcTx
特点:
- 输出和为 1
- 每个值在 0~1 之间
4.3 多分类交叉熵损失
J(θ)=−∑i=1N∑c=1k1{y(i)=c}logP(y=c∣x(i);θ) J(\theta)=-\sum_{i=1}^N\sum_{c=1}^k \mathbf{1}\{y^{(i)}=c\}\log P(y=c|x^{(i)};\theta) J(θ)=−i=1∑Nc=1∑k1{y(i)=c}logP(y=c∣x(i);θ)
五、神经元模型(M-P 模型)
5.1 生物神经元
- 树突:接收信号
- 细胞体:信号整合
- 轴突:输出信号
5.2 人工神经元(M-P,1943)
y=f(∑j=1nwjxj−b)=f(wTx) y=f\left(\sum_{j=1}^n w_j x_j-b\right)=f(w^T x) y=f(j=1∑nwjxj−b)=f(wTx)
- wjw_jwj:连接权重
- bbb:偏置
- fff:激活函数
5.3 常见激活函数
- 阶跃函数
f(z)={1,z≥00,z<0 f(z)=\begin{cases}1, & z\ge0\\0, & z<0\end{cases} f(z)={1,0,z≥0z<0 - Sigmoid
f(z)=11+e−z f(z)=\frac{1}{1+e^{-z}} f(z)=1+e−z1 - Tanh
f(z)=ez−e−zez+e−z f(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}} f(z)=ez+e−zez−e−z
5.4 Hebb 学习规则
神经元同时兴奋时,连接增强:
Δw=α⋅x⋅y \Delta w=\alpha\cdot x\cdot y Δw=α⋅x⋅y
六、感知机
6.1 感知机模型
y=sign(wTx) y=\text{sign}(w^T x) y=sign(wTx)
sign(z)={+1,z≥0−1,z<0 \text{sign}(z)=\begin{cases}+1, & z\ge0\\-1, & z<0\end{cases} sign(z)={+1,−1,z≥0z<0
本质:最简单的线性二分类器。
6.2 感知机损失
L(w)=−∑误分类样本y(i)wTx(i) L(w)=-\sum_{\text{误分类样本}}y^{(i)}w^T x^{(i)} L(w)=−误分类样本∑y(i)wTx(i)
6.3 训练算法
- 初始化权重 www
- 遍历样本,若 y(i)wTx(i)≤0y^{(i)}w^T x^{(i)}\le0y(i)wTx(i)≤0(误分类):
w=w+ηy(i)x(i) w=w+\eta y^{(i)}x^{(i)} w=w+ηy(i)x(i) - 重复直到无错分
6.4 感知机局限性
- 只能处理线性可分数据
- 遇到非线性问题(如 XOR)无法收敛
七、总结
- 线性回归:解决连续值预测,用均方误差优化
- 逻辑回归:解决二分类,Sigmoid 映射概率,交叉熵损失
- Softmax:解决多分类,输出概率分布
- M-P 神经元:神经网络基本单元,加权求和+激活
- 感知机:线性分类器,迭代更新,仅适用于线性可分
本文为工大《深度学习与神经网络》课程要求学习总结,仅供参考,版权归原作者所有,侵权请联系删除,谢谢。