《神经网络与深度学习》学习笔记(一)

《神经网络与深度学习》学习笔记(一):概述、线性回归、线性分类、神经元与感知机

一、课程概述

1.1 人工智能、机器学习、深度学习的关系

人工智能(AI)是让机器模拟人类智能的总称,机器学习是实现人工智能的核心方法,深度学习是机器学习的重要分支。

  • 人工智能(AI):目标是让机器完成原本需要人类智慧才能完成的任务,包括推理、学习、感知、决策等。
  • 机器学习(Machine Learning):从数据中学习规律,通过经验提升模型性能,不需要显式编程。
  • 深度学习(Deep Learning):基于多层神经网络,模拟人脑分层处理信息,自动提取特征,解决传统机器学习依赖人工特征工程的问题。

1.2 深度学习兴起的背景

  • 大数据:互联网、传感器产生海量数据
  • 算力提升:GPU、TPU 提供强大并行计算能力
  • 算法突破:激活函数、网络结构、优化算法不断改进

1.3 发展历史

  • 1943 年 :提出 M-P 神经元模型,人工神经网络诞生
  • 1949 年 :提出 Hebb 学习规则,奠定连接学习基础
  • 1957 年:**感知机(Perceptron)**出现,实现线性分类
  • 1969 年:第一次 AI 寒冬,单层感知机无法解决 XOR 问题
  • 1986 年BP 算法提出,多层神经网络可以训练
  • 2006 年:深度学习复兴,提出逐层预训练
  • 2012 年至今:CNN、RNN、Transformer、大模型快速发展

1.4 主要应用

  • 计算机视觉:图像分类、目标检测、图像分割
  • 自然语言处理:机器翻译、问答、对话、文本生成
  • 语音:语音识别、语音合成
  • 工业:缺陷检测、预测性维护
  • 医疗:医学影像分析、疾病预测
  • 自动驾驶、机器人、金融风控等

二、线性回归

2.1 问题描述

给定一组输入特征和对应的连续输出,学习输入到输出的线性映射关系。

2.2 模型定义

hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2+\dots+\theta_nx_n hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn

写成向量形式:
hθ(x)=θTx h_{\theta}(x)=\theta^T x hθ(x)=θTx

  • xxx:特征向量
  • θ\thetaθ:模型参数
  • hθ(x)h_{\theta}(x)hθ(x):预测值

2.3 代价函数

使用均方误差衡量预测误差:
J(θ)=12∑i=1N(y(i)−hθ(x(i)))2 J(\theta)=\frac{1}{2}\sum_{i=1}^N\left(y^{(i)}-h_{\theta}(x^{(i)})\right)^2 J(θ)=21i=1∑N(y(i)−hθ(x(i)))2

  • NNN:样本数量
  • y(i)y^{(i)}y(i):真实值
  • 目标:最小化代价函数

2.4 参数求解

2.4.1 正规方程(解析解)

令梯度为 0:
∂J(θ)∂θ=0 \frac{\partial J(\theta)}{\partial \theta}=0 ∂θ∂J(θ)=0

解得:
θ=(XTX)−1XTy \theta=(X^T X)^{-1}X^T y θ=(XTX)−1XTy

优点:一步求出;缺点:高维时求逆计算量大。

2.4.2 梯度下降

迭代更新参数:
θ=θ−α∂J(θ)∂θ \theta=\theta-\alpha\frac{\partial J(\theta)}{\partial \theta} θ=θ−α∂θ∂J(θ)
∂J(θ)∂θ=∑i=1N(hθ(x(i))−y(i))x(i) \frac{\partial J(\theta)}{\partial \theta}=\sum_{i=1}^N\left(h_{\theta}(x^{(i)})-y^{(i)}\right)x^{(i)} ∂θ∂J(θ)=i=1∑N(hθ(x(i))−y(i))x(i)

  • α\alphaα:学习率

三、线性二分类与逻辑回归

3.1 回归与分类区别

  • 回归:输出连续值
  • 分类:输出离散类别或概率

3.2 线性分类思想

用一条直线(高维为超平面)把样本分成两类:
θTx=0 \theta^T x=0 θTx=0

一侧为正类,一侧为负类。

3.3 Sigmoid 激活函数

将线性输出映射到 0~1 的概率:
σ(z)=11+e−z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+e−z1
z=θTx z=\theta^T x z=θTx

性质:

  • σ′(z)=σ(z)(1−σ(z))\sigma'(z)=\sigma(z)(1-\sigma(z))σ′(z)=σ(z)(1−σ(z))
  • z→+∞z\to+\inftyz→+∞ 输出 1;z→−∞z\to-\inftyz→−∞ 输出 0

3.4 概率解释

P(y=1∣x;θ)=hθ(x)=σ(θTx) P(y=1|x;\theta)=h_{\theta}(x)=\sigma(\theta^T x) P(y=1∣x;θ)=hθ(x)=σ(θTx)
P(y=0∣x;θ)=1−hθ(x) P(y=0|x;\theta)=1-h_{\theta}(x) P(y=0∣x;θ)=1−hθ(x)

3.5 代价函数(交叉熵)

均方误差在 Sigmoid 下非凸,改用交叉熵:
J(θ)=−∑i=1N[y(i)log⁡hθ(x(i))+(1−y(i))log⁡(1−hθ(x(i)))] J(\theta)=-\sum_{i=1}^N\left[y^{(i)}\log h_{\theta}(x^{(i)})+(1-y^{(i)})\log(1-h_{\theta}(x^{(i)}))\right] J(θ)=−i=1∑N[y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]

3.6 梯度下降求解

∂J(θ)∂θ=∑i=1N(hθ(x(i))−y(i))x(i) \frac{\partial J(\theta)}{\partial \theta}=\sum_{i=1}^N\left(h_{\theta}(x^{(i)})-y^{(i)}\right)x^{(i)} ∂θ∂J(θ)=i=1∑N(hθ(x(i))−y(i))x(i)


四、多分类:Softmax 回归

4.1 多分类问题

样本属于 kkk 个类别中的一个,输出各类概率。

4.2 Softmax 公式

P(y=c∣x;θ)=eθcTx∑j=1keθjTx P(y=c|x;\theta)=\frac{e^{\theta_c^T x}}{\sum_{j=1}^k e^{\theta_j^T x}} P(y=c∣x;θ)=∑j=1keθjTxeθcTx

特点:

  • 输出和为 1
  • 每个值在 0~1 之间

4.3 多分类交叉熵损失

J(θ)=−∑i=1N∑c=1k1{y(i)=c}log⁡P(y=c∣x(i);θ) J(\theta)=-\sum_{i=1}^N\sum_{c=1}^k \mathbf{1}\{y^{(i)}=c\}\log P(y=c|x^{(i)};\theta) J(θ)=−i=1∑Nc=1∑k1{y(i)=c}logP(y=c∣x(i);θ)


五、神经元模型(M-P 模型)

5.1 生物神经元

  • 树突:接收信号
  • 细胞体:信号整合
  • 轴突:输出信号

5.2 人工神经元(M-P,1943)

y=f(∑j=1nwjxj−b)=f(wTx) y=f\left(\sum_{j=1}^n w_j x_j-b\right)=f(w^T x) y=f(j=1∑nwjxj−b)=f(wTx)

  • wjw_jwj:连接权重
  • bbb:偏置
  • fff:激活函数

5.3 常见激活函数

  • 阶跃函数
    f(z)={1,z≥00,z<0 f(z)=\begin{cases}1, & z\ge0\\0, & z<0\end{cases} f(z)={1,0,z≥0z<0
  • Sigmoid
    f(z)=11+e−z f(z)=\frac{1}{1+e^{-z}} f(z)=1+e−z1
  • Tanh
    f(z)=ez−e−zez+e−z f(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}} f(z)=ez+e−zez−e−z

5.4 Hebb 学习规则

神经元同时兴奋时,连接增强:
Δw=α⋅x⋅y \Delta w=\alpha\cdot x\cdot y Δw=α⋅x⋅y


六、感知机

6.1 感知机模型

y=sign(wTx) y=\text{sign}(w^T x) y=sign(wTx)
sign(z)={+1,z≥0−1,z<0 \text{sign}(z)=\begin{cases}+1, & z\ge0\\-1, & z<0\end{cases} sign(z)={+1,−1,z≥0z<0

本质:最简单的线性二分类器

6.2 感知机损失

L(w)=−∑误分类样本y(i)wTx(i) L(w)=-\sum_{\text{误分类样本}}y^{(i)}w^T x^{(i)} L(w)=−误分类样本∑y(i)wTx(i)

6.3 训练算法

  1. 初始化权重 www
  2. 遍历样本,若 y(i)wTx(i)≤0y^{(i)}w^T x^{(i)}\le0y(i)wTx(i)≤0(误分类):
    w=w+ηy(i)x(i) w=w+\eta y^{(i)}x^{(i)} w=w+ηy(i)x(i)
  3. 重复直到无错分

6.4 感知机局限性

  • 只能处理线性可分数据
  • 遇到非线性问题(如 XOR)无法收敛

七、总结

  1. 线性回归:解决连续值预测,用均方误差优化
  2. 逻辑回归:解决二分类,Sigmoid 映射概率,交叉熵损失
  3. Softmax:解决多分类,输出概率分布
  4. M-P 神经元:神经网络基本单元,加权求和+激活
  5. 感知机:线性分类器,迭代更新,仅适用于线性可分

本文为工大《深度学习与神经网络》课程要求学习总结,仅供参考,版权归原作者所有,侵权请联系删除,谢谢。

相关推荐
kcuwu.1 小时前
(多代码实现版)PyTorch神经网络入门博客
人工智能·pytorch·神经网络
HSunR1 小时前
神经网络 从函数到transformer学习笔记
神经网络·学习·transformer
AI医影跨模态组学1 小时前
Insights Imaging(IF=4.5)郑州大学第一附属医院高剑波等团队:基于CT的影像组学预测不可切除胃癌PD-1/PD-L1抑制剂联合化疗治疗反应
人工智能·深度学习·论文·医学·医学影像·影像组学
袁小皮皮不皮1 小时前
HCIP-BFD 学习笔记
运维·服务器·网络·笔记·网络协议·学习·智能路由器
智者知已应修善业2 小时前
51单片机4按键控制共阳LED霓虹灯切换1整体闪烁2流水下3流水上4间隔闪烁】2023-10-27
c++·经验分享·笔记·算法·51单片机
沪漂阿龙2 小时前
面试题:Transformer 模型详解——核心创新、编码器解码器结构、位置编码、因果掩码与大模型基础全解析
人工智能·深度学习·transformer
沪漂阿龙2 小时前
面试题:预训练模型详解——GPT、BERT、T5 结构与训练目标、预训练微调范式、Transformers 加载 BERT 实战全解析
人工智能·深度学习
Stream_Silver2 小时前
【 libusb4java实战:跨平台USB设备通信完全指南】
java·笔记·嵌入式硬件·microsoft
瑶光守护者2 小时前
【学习笔记】Ku终端本振同源频偏分析与上行中频补偿计算报告
笔记·学习