笔记记录
层次
全连接层
卷积层
池化层
批量规范化层
激活函数
丢弃层
经典模型
LeNet
AlexNet
VGG
Nin
GoogleNet
ResNet
DenseNet
神经网络层的主要类别
python
"基础结构层": ["全连接层", "卷积层", "池化层"],
"序列处理层": ["RNN", "LSTM", "GRU", "Transformer"],
"归一化层": ["BatchNorm", "LayerNorm", "InstanceNorm"],
"正则化层": ["Dropout", "DropPath"],
"注意力机制": ["自注意力", "交叉注意力", "多头注意力"],
"嵌入层": ["词嵌入", "位置编码"],
"激活函数": ["ReLU", "Sigmoid", "Tanh", "Softmax"],
"特殊连接": ["残差连接", "跳跃连接"],
"采样层": ["上采样", "下采样", "转置卷积"]
神经网络经典架构时间线
python
"2012": ["AlexNet"], # 深度学习复兴
"2014": ["VGG", "GoogLeNet"], # 深度与宽度探索
"2015": ["ResNet", "UNet"], # 残差连接,医学影像
"2016": ["DenseNet"], # 密集连接
"2017": ["Transformer"], # 注意力革命
"2018": ["BERT", "GAN"], # 预训练模型,生成模型
"2020": ["Vision Transformer"] # CV的Transformer时代
架构选择指南
| 图像分类 | ResNet, EfficientNet | 平衡精度和效率 |
|---|---|---|
| 目标检测 | YOLO, Faster R-CNN | 实时vs高精度 |
| 语义分割 | U-Net, DeepLab | 医学影像,街景分割 |
| 机器翻译 | Transformer, BERT | 当前最优选择 |
| 文本生成 | GPT系列 | 自回归语言模型 |
| 图像生成 | GAN, VAE, Diffusion | 高质量图像合成 |
| 语音识别 | WaveNet, Conformer | 时序信号处理 |
实用建议
- 1.从预训练开始:使用在ImageNet等大数据集上预训练的模型
- 2.迁移学习:针对特定任务微调最后几层
- 3.架构搜索:使用EfficientNet等自动搜索的架构
- 4.计算预算:根据可用资源选择合适规模的模型
- 5.持续学习:关注新架构的发展,如Swin Transformer、ConvNeXt等