《神经网络与深度学习》学习笔记（一）

《神经网络与深度学习》学习笔记（一）：概述、线性回归、线性分类、神经元与感知机

一、课程概述

1.1 人工智能、机器学习、深度学习的关系

人工智能（AI）是让机器模拟人类智能的总称，机器学习是实现人工智能的核心方法，深度学习是机器学习的重要分支。

人工智能（AI）：目标是让机器完成原本需要人类智慧才能完成的任务，包括推理、学习、感知、决策等。
机器学习（Machine Learning）：从数据中学习规律，通过经验提升模型性能，不需要显式编程。
深度学习（Deep Learning）：基于多层神经网络，模拟人脑分层处理信息，自动提取特征，解决传统机器学习依赖人工特征工程的问题。

1.2 深度学习兴起的背景

大数据：互联网、传感器产生海量数据
算力提升：GPU、TPU 提供强大并行计算能力
算法突破：激活函数、网络结构、优化算法不断改进

1.3 发展历史

1943 年 ：提出 M-P 神经元模型，人工神经网络诞生
1949 年 ：提出 Hebb 学习规则，奠定连接学习基础
1957 年：**感知机（Perceptron）**出现，实现线性分类
1969 年：第一次 AI 寒冬，单层感知机无法解决 XOR 问题
1986 年 ：BP 算法提出，多层神经网络可以训练
2006 年：深度学习复兴，提出逐层预训练
2012 年至今：CNN、RNN、Transformer、大模型快速发展

1.4 主要应用

计算机视觉：图像分类、目标检测、图像分割
自然语言处理：机器翻译、问答、对话、文本生成
语音：语音识别、语音合成
工业：缺陷检测、预测性维护
医疗：医学影像分析、疾病预测
自动驾驶、机器人、金融风控等

二、线性回归

2.1 问题描述

给定一组输入特征和对应的连续输出，学习输入到输出的线性映射关系。

2.2 模型定义

hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2+\dots+\theta_nx_n hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn

写成向量形式：
hθ(x)=θTx h_{\theta}(x)=\theta^T x hθ(x)=θTx

xxx：特征向量
θ\thetaθ：模型参数
hθ(x)h_{\theta}(x)hθ(x)：预测值

2.3 代价函数

使用均方误差衡量预测误差：
J(θ)=12∑i=1N(y(i)−hθ(x(i)))2 J(\theta)=\frac{1}{2}\sum_{i=1}^N\left(y^{(i)}-h_{\theta}(x^{(i)})\right)^2 J(θ)=21i=1∑N(y(i)−hθ(x(i)))2

NNN：样本数量
y(i)y^{(i)}y(i)：真实值
目标：最小化代价函数

2.4 参数求解

2.4.1 正规方程（解析解）

令梯度为 0：
∂J(θ)∂θ=0 \frac{\partial J(\theta)}{\partial \theta}=0 ∂θ∂J(θ)=0

解得：
θ=(XTX)−1XTy \theta=(X^T X)^{-1}X^T y θ=(XTX)−1XTy

优点：一步求出；缺点：高维时求逆计算量大。

2.4.2 梯度下降

迭代更新参数：
θ=θ−α∂J(θ)∂θ \theta=\theta-\alpha\frac{\partial J(\theta)}{\partial \theta} θ=θ−α∂θ∂J(θ)
∂J(θ)∂θ=∑i=1N(hθ(x(i))−y(i))x(i) \frac{\partial J(\theta)}{\partial \theta}=\sum_{i=1}^N\left(h_{\theta}(x^{(i)})-y^{(i)}\right)x^{(i)} ∂θ∂J(θ)=i=1∑N(hθ(x(i))−y(i))x(i)

α\alphaα：学习率

三、线性二分类与逻辑回归

3.1 回归与分类区别

回归：输出连续值
分类：输出离散类别或概率

3.2 线性分类思想

用一条直线（高维为超平面）把样本分成两类：
θTx=0 \theta^T x=0 θTx=0

一侧为正类，一侧为负类。

3.3 Sigmoid 激活函数

将线性输出映射到 0~1 的概率：
σ(z)=11+e−z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+e−z1
z=θTx z=\theta^T x z=θTx

性质：

σ′(z)=σ(z)(1−σ(z))\sigma'(z)=\sigma(z)(1-\sigma(z))σ′(z)=σ(z)(1−σ(z))
z→+∞z\to+\inftyz→+∞ 输出 1；z→−∞z\to-\inftyz→−∞ 输出 0

3.4 概率解释

P(y=1∣x;θ)=hθ(x)=σ(θTx) P(y=1|x;\theta)=h_{\theta}(x)=\sigma(\theta^T x) P(y=1∣x;θ)=hθ(x)=σ(θTx)
P(y=0∣x;θ)=1−hθ(x) P(y=0|x;\theta)=1-h_{\theta}(x) P(y=0∣x;θ)=1−hθ(x)

3.5 代价函数（交叉熵）

均方误差在 Sigmoid 下非凸，改用交叉熵：
J(θ)=−∑i=1N $y(i)loghθ(x(i))+(1-y(i))log(1-hθ(x(i)))$ J(\theta)=-\sum_{i=1}^N\left $y\^{(i)}\\log h_{\\theta}(x\^{(i)})+(1-y\^{(i)})\\log(1-h_{\\theta}(x\^{(i)}))\\right$ J(θ)=−i=1∑N $y(i)loghθ(x(i))+(1-y(i))log(1-hθ(x(i)))$

3.6 梯度下降求解

∂J(θ)∂θ=∑i=1N(hθ(x(i))−y(i))x(i) \frac{\partial J(\theta)}{\partial \theta}=\sum_{i=1}^N\left(h_{\theta}(x^{(i)})-y^{(i)}\right)x^{(i)} ∂θ∂J(θ)=i=1∑N(hθ(x(i))−y(i))x(i)

四、多分类：Softmax 回归

4.1 多分类问题

样本属于 kkk 个类别中的一个，输出各类概率。

4.2 Softmax 公式

P(y=c∣x;θ)=eθcTx∑j=1keθjTx P(y=c|x;\theta)=\frac{e^{\theta_c^T x}}{\sum_{j=1}^k e^{\theta_j^T x}} P(y=c∣x;θ)=∑j=1keθjTxeθcTx

特点：

输出和为 1
每个值在 0~1 之间

4.3 多分类交叉熵损失

J(θ)=−∑i=1N∑c=1k1{y(i)=c}log⁡P(y=c∣x(i);θ) J(\theta)=-\sum_{i=1}^N\sum_{c=1}^k \mathbf{1}\{y^{(i)}=c\}\log P(y=c|x^{(i)};\theta) J(θ)=−i=1∑Nc=1∑k1{y(i)=c}logP(y=c∣x(i);θ)

五、神经元模型（M-P 模型）

5.1 生物神经元

树突：接收信号
细胞体：信号整合
轴突：输出信号

5.2 人工神经元（M-P，1943）

y=f(∑j=1nwjxj−b)=f(wTx) y=f\left(\sum_{j=1}^n w_j x_j-b\right)=f(w^T x) y=f(j=1∑nwjxj−b)=f(wTx)

wjw_jwj：连接权重
bbb：偏置
fff：激活函数

5.3 常见激活函数

阶跃函数
f(z)={1,z≥00,z<0 f(z)=\begin{cases}1, & z\ge0\\0, & z<0\end{cases} f(z)={1,0,z≥0z<0
Sigmoid
f(z)=11+e−z f(z)=\frac{1}{1+e^{-z}} f(z)=1+e−z1
Tanh
f(z)=ez−e−zez+e−z f(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}} f(z)=ez+e−zez−e−z

5.4 Hebb 学习规则

神经元同时兴奋时，连接增强：
Δw=α⋅x⋅y \Delta w=\alpha\cdot x\cdot y Δw=α⋅x⋅y

六、感知机

6.1 感知机模型

y=sign(wTx) y=\text{sign}(w^T x) y=sign(wTx)
sign(z)={+1,z≥0−1,z<0 \text{sign}(z)=\begin{cases}+1, & z\ge0\\-1, & z<0\end{cases} sign(z)={+1,−1,z≥0z<0

本质：最简单的线性二分类器。

6.2 感知机损失

L(w)=−∑误分类样本y(i)wTx(i) L(w)=-\sum_{\text{误分类样本}}y^{(i)}w^T x^{(i)} L(w)=−误分类样本∑y(i)wTx(i)

6.3 训练算法

初始化权重 www
遍历样本，若 y(i)wTx(i)≤0y^{(i)}w^T x^{(i)}\le0y(i)wTx(i)≤0（误分类）：
w=w+ηy(i)x(i) w=w+\eta y^{(i)}x^{(i)} w=w+ηy(i)x(i)
重复直到无错分

6.4 感知机局限性

只能处理线性可分数据
遇到非线性问题（如 XOR）无法收敛

七、总结

线性回归：解决连续值预测，用均方误差优化
逻辑回归：解决二分类，Sigmoid 映射概率，交叉熵损失
Softmax：解决多分类，输出概率分布
M-P 神经元：神经网络基本单元，加权求和+激活
感知机：线性分类器，迭代更新，仅适用于线性可分

本文为工大《深度学习与神经网络》课程要求学习总结，仅供参考，版权归原作者所有，侵权请联系删除，谢谢。