一、深度学习基础与流程
-
机器学习流程
-
数据获取:收集结构化或非结构化数据(如CIFAR-10数据集,含5万张32x32训练图像、10类标签)。
-
特征工程:
-
文本数据:分词、词袋模型(BOW)、N-Gram。
-
图像数据:标准化(均值/方差)、边缘检测(传统方法如Sobel算子)。
-
-
模型构建:选择算法(如线性回归、K近邻、神经网络),定义损失函数与优化目标。
-
评估与应用 :划分训练集、验证集、测试集,使用交叉验证调参,部署模型至实际场景。
-
-
特征工程核心作用
-
数据特征决定模型上限 :例如图像分类中,边缘特征(传统方法)或深度特征(卷积网络)的提取。
-
预处理技术:
-
标准化:
-
缺失值处理:删除或填充(均值/中位数)。
-
-
特征表示:
-
文本:TF-IDF向量、词嵌入(Word2Vec)。
-
图像:像素矩阵、颜色通道分离(RGB)。
-
-
二、神经网络基础组件
-
线性函数与得分计算
-
公式:
(输入
,权重
)
-
示例 :CIFAR-10分类任务中,输入为3072维(32x32x3),输出10类得分,权重矩阵大小为 10×307210×3072。
-
-
损失函数(Loss Function)
-
多类SVM损失(Hinge Loss):
-
计算示例 :若真实类别得分
,其他类别得分
,则损失为
。
-
交叉熵损失(Softmax):
-
输出概率化:Softmax将得分转换为概率分布(归一化指数函数)。
-
-
梯度下降与反向传播
-
梯度下降类型:
类型 公式 特点 批量梯度下降 全局最优但计算量大 随机梯度下降 高效但噪声大 小批量梯度下降 平衡效率与稳定性(B=32/64) -
反向传播:
-
链式法则 :逐层计算梯度,例如Sigmoid激活函数的导数为
-
计算图分解 :将复杂运算拆分为加法门、乘法门、MAX门等基本单元,分别计算局部梯度。
-
-
三、卷积神经网络(CNN) 
-
核心操作与组件
-
卷积层:
-
功能:提取局部特征,参数共享减少计算量。
-
输出尺寸计算:
(F: 卷积核尺寸, P: 填充, S: 步长)
-
示例:输入32x32x3,使用10个5x5x3卷积核(步长1,填充2),输出32x32x10。
-
-
池化层:
-
最大池化:取窗口内最大值,减少特征图尺寸(如2x2池化,步长2,尺寸减半)。
-
平均池化:取窗口内平均值,保留整体信息。
-
-
激活函数:
类型 公式 特点 ReLU 缓解梯度消失,计算高效 Sigmoid 输出概率(0~1),易饱和
-
-
经典网络架构
-
AlexNet :
-
结构:5卷积层 + 3全连接层。
-
创新点:首次使用ReLU、Dropout、GPU加速训练。
-
参数示例:第一层卷积核11x11,步长4,输出55x55x96。
-
-
VGGNet :
-
核心思想:堆叠3x3小卷积核(参数量更少,非线性更强)。
-
感受野计算:3层3x3卷积等效于1层7x7卷积,参数量减少33%。
-
-
ResNet :
-
残差块 :解决深层网络退化问题,公式
。
-
优势:允许训练数百层网络,ImageNet Top-5错误率降至3.57%。
-
-
-
CNN优势
-
参数共享:同一卷积核在整张图像滑动,显著降低参数量。
-
平移不变性:特征检测不受位置影响。
-
层次化特征:
-
浅层:边缘、纹理(如Gabor滤波器效应)。
-
深层:语义信息(如物体部件、类别)。
-
-
四、循环神经网络(RNN)与LSTM
-
RNN基础
-
结构:隐藏状态 ℎ𝑡ht 传递时序信息。
-
应用场景:文本生成、时间序列预测、机器翻译。
-
缺陷:梯度消失/爆炸,难以捕捉长期依赖。
-
-
长短期记忆网络(LSTM)
-
核心门控机制:
门类型 公式 功能 遗忘门 决定丢弃哪些历史信息 输入门 更新细胞状态的新信息 输出门 控制当前隐藏状态的输出 -
细胞状态更新:
-
优势 :通过细胞状态长期记忆关键信息,缓解梯度消失。
-
五、优化技巧与调参
-
数据预处理
-
标准化 :零均值化(
X -= np.mean(X, axis=0)
)和归一化(X /= np.std(X, axis=0)
)。 -
数据增强:
-
图像:旋转、裁剪、加噪声。
-
文本:同义词替换、随机删除。
-
-
-
参数初始化
-
Xavier初始化:适应激活函数,保持输入输出方差一致。
-
He初始化 :专为ReLU设计,方差为
。
-
-
正则化技术
-
Dropout :训练时随机丢弃神经元(如丢弃率0.5),减少过拟合。
-
L2正则化 :惩罚大权重,损失函数添加
。
-
早停法:监控验证集损失,连续多次未改善则终止训练。
-
-
超参数选择
-
学习率:初始值常设为0.001,配合学习率衰减(如每10轮减半)。
-
批量大小:权衡内存与梯度稳定性(常用32/64/128)。
-
六、应用场景与前沿 
-
计算机视觉
-
图像分类:ResNet在ImageNet上Top-5错误率低于5%。
-
目标检测:Faster R-CNN(两阶段)、YOLO(单阶段实时检测)。
-
图像生成 :GAN生成逼真图像,StyleGAN实现可控生成。
-
-
自然语言处理
-
机器翻译:Transformer模型(如BERT、GPT-3)取代RNN。
-
情感分析:LSTM捕捉上下文依赖,BERT微调实现高精度。
-
-
跨领域应用
-
医疗影像:CNN辅助诊断肺结节、视网膜病变。
-
自动驾驶 :CNN处理实时路况,LSTM预测车辆轨迹。
-
七、总结与展望 
-
当前挑战
-
计算资源需求:大模型训练依赖高性能GPU/TPU集群。
-
可解释性:黑箱模型决策过程难以解释(如医疗领域)。
-
-
未来方向
-
轻量化模型:MobileNet、EfficientNet提升移动端部署效率。
-
自监督学习:利用无标注数据预训练(对比学习、掩码语言模型)。
-
多模态融合:联合处理图像、文本、语音(如CLIP、DALL-E)。
-
通过持续优化模型架构与训练策略,神经网络将继续推动人工智能在复杂任务中的突破,赋能工业、医疗、交通等领域的智能化升级。