神经网络知识点整理

一、深度学习基础与流程

机器学习流程
- 数据获取：收集结构化或非结构化数据（如CIFAR-10数据集，含5万张32x32训练图像、10类标签）。
- 特征工程：
  - 文本数据：分词、词袋模型（BOW）、N-Gram。
  - 图像数据：标准化（均值/方差）、边缘检测（传统方法如Sobel算子）。
- 模型构建：选择算法（如线性回归、K近邻、神经网络），定义损失函数与优化目标。
- 评估与应用 ：划分训练集、验证集、测试集，使用交叉验证调参，部署模型至实际场景。
特征工程核心作用
- 数据特征决定模型上限 ：例如图像分类中，边缘特征（传统方法）或深度特征（卷积网络）的提取。
- 预处理技术：
  - 标准化：
  - 缺失值处理：删除或填充（均值/中位数）。
- 特征表示：
  - 文本：TF-IDF向量、词嵌入（Word2Vec）。
  - 图像：像素矩阵、颜色通道分离（RGB）。

二、神经网络基础组件

线性函数与得分计算
- 公式：
  
  （输入,权重）
- 示例：CIFAR-10分类任务中，输入为3072维（32x32x3），输出10类得分，权重矩阵大小为 10×307210×3072。
损失函数（Loss Function）
- 多类SVM损失（Hinge Loss）：
- 计算示例 ：若真实类别得分，其他类别得分，则损失为。
- 交叉熵损失（Softmax）：
- 输出概率化：Softmax将得分转换为概率分布（归一化指数函数）。
梯度下降与反向传播
- 梯度下降类型：
  
  类型公式特点
  
  批量梯度下降全局最优但计算量大
  
  随机梯度下降高效但噪声大
  
  小批量梯度下降平衡效率与稳定性（B=32/64）
- 反向传播：
  - 链式法则 ：逐层计算梯度，例如Sigmoid激活函数的导数为
  - 计算图分解 ：将复杂运算拆分为加法门、乘法门、MAX门等基本单元，分别计算局部梯度。

类型	公式	特点
批量梯度下降		全局最优但计算量大
随机梯度下降		高效但噪声大
小批量梯度下降		平衡效率与稳定性（B=32/64）

三、卷积神经网络（CNN）

核心操作与组件
- 卷积层：
  - 功能：提取局部特征，参数共享减少计算量。
  - 输出尺寸计算：
    
    （F: 卷积核尺寸, P: 填充, S: 步长）
  - 示例：输入32x32x3，使用10个5x5x3卷积核（步长1，填充2），输出32x32x10。
- 池化层：
  - 最大池化：取窗口内最大值，减少特征图尺寸（如2x2池化，步长2，尺寸减半）。
  - 平均池化：取窗口内平均值，保留整体信息。
- 激活函数：
  
  类型公式特点
  
  ReLU 缓解梯度消失，计算高效
  
  Sigmoid 输出概率（0~1），易饱和
经典网络架构
- AlexNet ：
  - 结构：5卷积层 + 3全连接层。
  - 创新点：首次使用ReLU、Dropout、GPU加速训练。
  - 参数示例：第一层卷积核11x11，步长4，输出55x55x96。
- VGGNet ：
  - 核心思想：堆叠3x3小卷积核（参数量更少，非线性更强）。
  - 感受野计算：3层3x3卷积等效于1层7x7卷积，参数量减少33%。
- ResNet ：
  - 残差块 ：解决深层网络退化问题，公式。
  - 优势：允许训练数百层网络，ImageNet Top-5错误率降至3.57%。
CNN优势
- 参数共享：同一卷积核在整张图像滑动，显著降低参数量。
- 平移不变性：特征检测不受位置影响。
- 层次化特征：
  - 浅层：边缘、纹理（如Gabor滤波器效应）。
  - 深层：语义信息（如物体部件、类别）。

类型	公式	特点
ReLU		缓解梯度消失，计算高效
Sigmoid		输出概率（0~1），易饱和

四、循环神经网络（RNN）与LSTM

RNN基础
- 结构：隐藏状态 ℎ𝑡ht 传递时序信息。
- 应用场景：文本生成、时间序列预测、机器翻译。
- 缺陷：梯度消失/爆炸，难以捕捉长期依赖。
长短期记忆网络（LSTM）
- 核心门控机制：
  
  门类型 公式功能
  
  遗忘门决定丢弃哪些历史信息
  
  输入门更新细胞状态的新信息
  
  输出门控制当前隐藏状态的输出
- 细胞状态更新：
- 优势：通过细胞状态长期记忆关键信息，缓解梯度消失。

门类型	公式	功能
遗忘门		决定丢弃哪些历史信息
输入门		更新细胞状态的新信息
输出门		控制当前隐藏状态的输出

五、优化技巧与调参

数据预处理
- 标准化 ：零均值化（X -= np.mean(X, axis=0)）和归一化（X /= np.std(X, axis=0)）。
- 数据增强：
  - 图像：旋转、裁剪、加噪声。
  - 文本：同义词替换、随机删除。
参数初始化
- Xavier初始化：适应激活函数，保持输入输出方差一致。
- He初始化 ：专为ReLU设计，方差为。
正则化技术
- Dropout ：训练时随机丢弃神经元（如丢弃率0.5），减少过拟合。
- L2正则化 ：惩罚大权重，损失函数添加。
- 早停法：监控验证集损失，连续多次未改善则终止训练。
超参数选择
- 学习率：初始值常设为0.001，配合学习率衰减（如每10轮减半）。
- 批量大小：权衡内存与梯度稳定性（常用32/64/128）。

六、应用场景与前沿

计算机视觉
- 图像分类：ResNet在ImageNet上Top-5错误率低于5%。
- 目标检测：Faster R-CNN（两阶段）、YOLO（单阶段实时检测）。
- 图像生成 ：GAN生成逼真图像，StyleGAN实现可控生成。
自然语言处理
- 机器翻译：Transformer模型（如BERT、GPT-3）取代RNN。
- 情感分析：LSTM捕捉上下文依赖，BERT微调实现高精度。
跨领域应用
- 医疗影像：CNN辅助诊断肺结节、视网膜病变。
- 自动驾驶 ：CNN处理实时路况，LSTM预测车辆轨迹。

七、总结与展望

当前挑战
- 计算资源需求：大模型训练依赖高性能GPU/TPU集群。
- 可解释性：黑箱模型决策过程难以解释（如医疗领域）。
未来方向
- 轻量化模型：MobileNet、EfficientNet提升移动端部署效率。
- 自监督学习：利用无标注数据预训练（对比学习、掩码语言模型）。
- 多模态融合：联合处理图像、文本、语音（如CLIP、DALL-E）。

通过持续优化模型架构与训练策略，神经网络将继续推动人工智能在复杂任务中的突破，赋能工业、医疗、交通等领域的智能化升级。