深度学习模型全分类图谱
-
- 一、基础神经网络架构
-
- [1. 前馈神经网络 (Feedforward Neural Networks)](#1. 前馈神经网络 (Feedforward Neural Networks))
- [2. 卷积神经网络 (CNN, Convolutional Neural Networks)](#2. 卷积神经网络 (CNN, Convolutional Neural Networks))
- [3. 循环神经网络 (RNN, Recurrent Neural Networks)](#3. 循环神经网络 (RNN, Recurrent Neural Networks))
- 二、注意力机制与Transformer架构
-
- [1. 注意力机制 (Attention Mechanism)](#1. 注意力机制 (Attention Mechanism))
- [2. Transformer基础架构](#2. Transformer基础架构)
- [3. 视觉Transformer (ViT)](#3. 视觉Transformer (ViT))
- [4. 多模态Transformer](#4. 多模态Transformer)
- 三、生成模型 (Generative Models)
-
- [1. 生成对抗网络 (GAN)](#1. 生成对抗网络 (GAN))
- [2. 扩散模型 (Diffusion Models)](#2. 扩散模型 (Diffusion Models))
- [3. 自回归生成模型](#3. 自回归生成模型)
- [4. 变分自编码器 (VAE)](#4. 变分自编码器 (VAE))
- 四、图神经网络 (GNN, Graph Neural Networks)
-
- [1. 图卷积网络 (GCN)](#1. 图卷积网络 (GCN))
- [2. 图神经网络变体](#2. 图神经网络变体)
- 五、强化学习中的深度模型 (Deep RL)
-
- [1. 值函数方法](#1. 值函数方法)
- [2. 策略梯度方法](#2. 策略梯度方法)
- [3. 演员-评论家 (Actor-Critic) 混合方法](#3. 演员-评论家 (Actor-Critic) 混合方法)
- [4. 离线强化学习 (Offline RL)](#4. 离线强化学习 (Offline RL))
- 六、自监督与预训练模型
-
- [1. 自监督学习方法](#1. 自监督学习方法)
- [2. 预训练+微调范式](#2. 预训练+微调范式)
- 七、模型训练技术与优化方法
-
- [1. 知识蒸馏 (Knowledge Distillation)](#1. 知识蒸馏 (Knowledge Distillation))
- [2. 模型压缩技术](#2. 模型压缩技术)
- [3. 参数高效微调 (PEFT)](#3. 参数高效微调 (PEFT))
- 八、混合架构与新兴方向
-
- [1. 状态空间模型 (SSM)](#1. 状态空间模型 (SSM))
- [2. 混合架构 (Hybrid Models)](#2. 混合架构 (Hybrid Models))
- [3. 神经符号结合模型](#3. 神经符号结合模型)
- [4. 脉冲神经网络 (SNN)](#4. 脉冲神经网络 (SNN))
- [5. 液态神经网络 (LNN)](#5. 液态神经网络 (LNN))
- 九、大模型分类 (LLM及多模态)
-
- [1. 按架构分类](#1. 按架构分类)
- [2. 按能力分类](#2. 按能力分类)
- [3. 按模态分类](#3. 按模态分类)
- 十、深度学习核心组件
-
- [1. 激活函数](#1. 激活函数)
- [2. 损失函数](#2. 损失函数)
- [3. 优化器](#3. 优化器)
- 十一、总结:深度学习模型全景图
一、基础神经网络架构
1. 前馈神经网络 (Feedforward Neural Networks)
核心特点:信号单向流动,无循环连接,是所有深度网络的基础。
1.1 多层感知机 (MLP, Multilayer Perceptron)
- 标准MLP:全连接层堆叠,每神经元与前一层全连接
- 深度MLP:更多隐藏层,增强非线性表达能力
- 变体 :
- 残差MLP (ResMLP):引入残差连接,解决梯度消失问题
- 注意力MLP (gMLP):加入注意力机制增强特征交互
1.2 全连接网络应用
- 基础分类/回归任务
- 作为其他模型的头部(Head)输出层
2. 卷积神经网络 (CNN, Convolutional Neural Networks)
核心特点:利用卷积核提取局部特征,参数共享大幅减少参数量,适合图像处理。
2.1 经典CNN架构
- LeNet-5:首个成功CNN,用于手写数字识别
- AlexNet:2012年ImageNet冠军,开启深度学习时代
- VGGNet:小卷积核(3×3)堆叠,层次化特征提取
- GoogLeNet/Inception系列 :
- Inception v1-v4:多尺度卷积并行,增加网络宽度
- Inception-ResNet:融合残差连接,训练更稳定
- ResNet :残差网络,解决深度网络训练难题
- ResNet-v2:预激活(pre-activation)版本
- Wide ResNet:增加通道数,减少深度
- DenseNet:密集连接,每一层与后续所有层连接,增强特征流动
- SENet:挤压-激励网络,引入通道注意力机制
2.2 轻量级CNN (Mobile Computing)
- MobileNet系列 :
- MobileNetV1:深度可分离卷积(depthwise + pointwise)
- MobileNetV2:倒残差结构(inverted residual),ReLU6激活
- MobileNetV3:结合NAS搜索与h-swish激活
- ShuffleNet系列 :
- 通道混洗(channel shuffle),增强组间信息流通
- ShuffleNetV2:更高效设计,计算密度优化
- EfficientNet系列 :
- B0-B7:通过复合缩放(compound scaling)平衡深度、宽度和分辨率
- EfficientNetV2:改进训练策略,提升训练效率
- GhostNet:通过廉价操作生成特征图,减少计算量
2.3 目标检测专用CNN
- 两阶段检测器主干:Faster R-CNN使用ResNet/FPN
- 单阶段检测器主干 :
- YOLO系列(v3-v8):使用CSPDarkNet,速度与精度平衡
- SSD:基于VGG,多尺度特征预测
2.4 语义分割专用CNN
- FCN:全卷积网络,将分类网络转为像素级预测
- U-Net系列 :
- U-Net:医学图像分割经典架构
- U-Net++:嵌套跳跃连接,增强特征融合
- Attention U-Net:加入注意力机制,聚焦重要区域
- ResUNet:结合残差连接,训练更稳定
- SegNet:编码-解码结构,池化索引保存空间信息
- DeepLab系列 :
- DeepLabv1-v3+:使用空洞卷积(atrous conv)捕捉大尺度特征
- ASPP:空洞空间金字塔池化,多尺度上下文聚合
- PSPNet:金字塔池化模块,全局上下文建模
2.5 视频理解CNN
- 3D CNN (C3D):扩展卷积到时间维度,捕捉时空特征
- I3D:Inflated 3D ConvNet,2D核膨胀到3D
- SlowFast:双路径架构,慢速路径捕捉语义,快速路径捕捉运动
- TSM:Temporal Shift Module,时间维度特征移位,无需额外参数
3. 循环神经网络 (RNN, Recurrent Neural Networks)
核心特点:具有循环连接,能捕捉序列依赖,处理时序数据。
3.1 基础RNN
- Simple RNN:基础循环单元,容易梯度消失/爆炸
- Elman/Jordan网络:早期RNN变体,引入上下文向量
3.2 长短期记忆网络 (LSTM)
- 标准LSTM :
- 细胞状态(cell state):长期记忆载体
- 输入/输出/遗忘门:精确控制信息流动
- BiLSTM:双向LSTM,同时捕捉前后文信息,适合序列标注
- Stacked LSTM:多层堆叠,增强特征抽象能力
3.3 门控循环单元 (GRU)
- 标准GRU:LSTM简化版,合并输入门和遗忘门,参数量少
- BiGRU:双向GRU,用于序列分类和回归任务
3.4 RNN应用架构
- Seq2Seq (序列到序列) :
- Encoder-Decoder框架:编码器压缩序列,解码器生成新序列
- 应用:机器翻译、文本摘要、语音识别
- 带注意力机制的Seq2Seq :
- 全局注意力:对齐编码器和解码器状态
- 局部注意力:降低计算复杂度,性能接近全局注意力
- 语言模型 (RNN-LM) :
- 预测序列中下一个元素,如文本生成、语音合成
二、注意力机制与Transformer架构
1. 注意力机制 (Attention Mechanism)
核心特点:动态聚焦输入序列关键部分,模拟人类注意力机制。
1.1 注意力类型
- 加性注意力:计算query与key的加权和,适合长序列
- 缩放点积注意力:点积后缩放,防止梯度消失,计算高效
- 自注意力:query=key=value,捕捉序列内部依赖关系
- 多头注意力:多个注意力头并行,捕捉不同子空间特征
- 交叉注意力:query来自一个序列,key和value来自另一序列,适合跨模态
2. Transformer基础架构
核心特点:完全基于自注意力,并行计算,捕捉全局依赖,解决RNN长距离依赖难题。
2.1 原始Transformer
- Encoder-Decoder结构 :
- Encoder:多层自注意力+前馈网络,编码全局上下文
- Decoder:自注意力+交叉注意力+前馈网络,生成输出序列
- 位置编码:解决序列顺序信息,包括正弦/余弦编码和可学习编码
2.2 Transformer变体
- Encoder-only架构 :
- BERT系列 :双向编码器表示
- BERT-Base/Large:基础版本
- RoBERTa:优化训练策略,去除NSP任务
- ALBERT:参数共享,减少参数量
- ELECTRA:用生成器训练判别器,更高效
- DeBERTa:解耦注意力,增强上下文理解
- BERT系列 :双向编码器表示
- Decoder-only架构 :
- GPT系列 :生成式预训练
- GPT-1/2/3/4:从语言模型到通用AI
- LLaMA系列:Meta开源模型,从7B到70B参数
- ChatGLM:国产对话模型
- Falcon:TII开发,高性能推理
- Claude:Anthropic开发,推理能力强
- GPT系列 :生成式预训练
- Encoder-Decoder架构 :
- T5 (Text-to-Text Transfer Transformer):统一文本到文本转换
- BART (Bidirectional AutoRegressive Transformer):去噪自编码器,适合摘要和翻译
3. 视觉Transformer (ViT)
核心特点:将Transformer应用于视觉,图像分块(patch)作为序列输入。
- ViT :
- 图像分割成16×16像素块,线性投影后输入Transformer
- 需要大规模预训练,在ImageNet-21k等数据集表现优异
- 变体:ViT-Base/Small/Large,根据参数量和分辨率调整
- DeiT:数据高效图像Transformer,通过知识蒸馏加速训练
- Swin Transformer :
- 移窗机制:计算限制在局部窗口,大幅降低复杂度
- 层次化特征提取:从细到粗,适合目标检测和分割
- 应用:多个视觉任务SOTA,如COCO检测、ADE20K分割
- PVT:金字塔视觉Transformer,构建层次化特征表示
- ConViT:卷积+Transformer混合,保持CNN局部归纳偏置,增强全局建模能力
4. 多模态Transformer
- CLIP :
- 图像-文本对比学习:学习跨模态表示,实现Zero-Shot分类
- 应用:图像检索、文本生成图像提示词优化
- 架构:两个独立编码器(图像和文本),共享投影空间
- ALBEF:结合BERT和图像编码器,增强跨模态对齐
- BLIP/BLIP-2:图文生成与理解,支持图像描述、问答等任务
- PaLM-E:具身AI模型,融合多模态与动作控制,实现复杂环境交互
三、生成模型 (Generative Models)
1. 生成对抗网络 (GAN)
核心特点:生成器与判别器博弈,生成逼真样本。
- DCGAN:深度卷积GAN,用于图像生成,人脸等领域表现出色
- WGAN: Wasserstein GAN,解决训练不稳定问题,提供更好的训练指标
- CycleGAN:无配对数据图像翻译,如马→斑马、夏季→冬季风景
- StyleGAN:生成高分辨率人脸,控制生成图像风格
- BigGAN:大规模GAN,生成高保真图像,需大量计算资源
2. 扩散模型 (Diffusion Models)
核心特点:通过逐步添加噪声再反向去噪生成样本,稳定性高,生成质量优异。
- DDPM:去噪扩散概率模型,扩散模型基础架构
- Latent Diffusion:在潜在空间扩散,降低计算复杂度,如Stable Diffusion
- Score-Based Generative Models:基于得分匹配(score matching)理论
- DDIM:确定性采样加速,生成质量接近DDPM,速度提升10-100倍
- 应用:图像生成(DALL-E 2、Midjourney、Stable Diffusion)、3D模型生成、视频合成
3. 自回归生成模型
核心特点:逐个元素生成,依赖之前生成结果。
- 基于RNN的:如CharRNN、LSTM语言模型,适合文本生成
- 基于Transformer的 :
- GPT图像生成:DALL-E系列
- 文本生成:GPT-4等大模型,支持长文本、代码生成、创意写作
- 其他 :
- PixelCNN:像素级自回归生成,图像生成
- Transformer-XL:长文本生成,减少上下文碎片化
4. 变分自编码器 (VAE)
核心特点:学习数据潜在空间分布,生成新样本。
- 编码器:将输入映射到潜在空间分布(均值+方差)
- 解码器:从潜在空间采样生成新样本
- 应用:图像生成、数据降维、异常检测、文本到图像生成的潜在空间优化
四、图神经网络 (GNN, Graph Neural Networks)
核心特点:处理图结构数据,通过节点和边信息学习图表示。
1. 图卷积网络 (GCN)
- 标准GCN:将卷积推广到图结构,聚合邻居节点特征
- ChebNet:基于切比雪夫多项式的谱域卷积
- GAT:图注意力网络,引入注意力机制,增强重要连接权重
- GraphSAGE:图采样与聚合,处理大规模图
- 应用:社交网络分析、推荐系统、知识图谱、分子结构预测、蛋白质折叠
2. 图神经网络变体
- GIN:图同构网络,捕捉图结构细微差异
- Graph Convolutional LSTM:结合GCN与LSTM,处理动态图
- Graph Transformer:将Transformer应用于图,捕捉全局依赖
- Hypergraph Neural Network:处理超图(边连接多个节点),适合复杂关系建模
五、强化学习中的深度模型 (Deep RL)
1. 值函数方法
- DQN (Deep Q-Network) :
- 用神经网络近似Q函数,处理高维状态空间
- 经验回放:存储历史经验,减少相关性
- 目标网络:稳定训练,减少波动
- 应用:Atari游戏、围棋(AlphaGo Zero的基础组件)
- Dueling DQN:将Q值分解为状态值和优势函数,提高学习效率
- C51:分位数回归Q学习,更好建模不确定性
2. 策略梯度方法
- A2C (Advantage Actor-Critic) :
- 单智能体异步策略梯度,同时学习策略和价值函数
- 应用:连续控制、机器人、自动驾驶
- A3C (Asynchronous Advantage Actor-Critic) :
- 多智能体异步并行,加速训练,降低方差
- 应用:复杂环境,如星际争霸、Dota 2
- PPO (Proximal Policy Optimization) :
- 裁剪重要性采样,限制策略更新幅度,稳定性高
- 应用:机器人控制、3D环境导航、AI辅助设计
- 变体:PPO-Clip、PPO-Penalty、PPO-LSTM
- TRPO:信任区域策略优化,更严格控制策略更新,性能稳定但计算复杂
3. 演员-评论家 (Actor-Critic) 混合方法
- DDPG (Deep Deterministic Policy Gradient) :
- 连续动作空间控制,结合DQN和策略梯度
- 应用:机器人关节控制、自动驾驶、无人机飞行
- 变体:TD3 (Twin Delayed DDPG),通过双Q网络和延迟更新提高稳定性
4. 离线强化学习 (Offline RL)
- CQL (Conservative Q-Learning) :
- 在已有数据集上训练,无需与环境交互
- 应用:医疗、金融等安全性要求高的领域
- BCQ (Behavioral Cloning with Quality) :
- 行为克隆+Q学习,解决分布偏移问题
- IQL (Implicit Quantile Learning) :
- 通过分位数回归处理不确定性,适应离线数据分布
六、自监督与预训练模型
1. 自监督学习方法
核心特点:从无标签数据中自动生成监督信号。
- 掩码语言模型 (MLM) :
- BERT采用:随机掩码部分token,预测被掩码token
- RoBERTa:全词掩码,提升训练效果
- 应用:文本理解、问答、文本分类
- 图像掩码建模 (MIM) :
- MAE (Masked Autoencoders):掩码图像块,重建未掩码部分
- SimMIM:简化MAE结构,提升训练效率
- 对比学习 :
- 拉近相似样本,拉远不相似样本,学习通用特征表示
- 损失函数:NT-Xent、InfoNCE、Triplet Loss
- 代表模型:
- SimCLR:通过数据增强和对比学习学习图像表示
- MoCo:动量编码器+负样本队列,减少批次依赖
- BYOL:无需负样本,通过预测自身变换版本学习表示
- 旋转预测:预测图像旋转角度(0/90/180/270度),学习视觉特征
- 自回归预测 :
- 文本:预测下一个token (GPT系列)
- 图像:预测像素值或patch,如PixelCNN
- 视频:预测下一帧,捕捉时序信息
2. 预训练+微调范式
核心特点:先在大规模数据预训练,再在特定任务微调。
- NLP预训练模型 :
- BERT:理解型任务(分类、NER、问答)
- GPT:生成型任务(文本创作、代码生成、对话)
- T5/BART:序列到序列任务(翻译、摘要)
- 中文模型:ERNIE、文心一言、通义千问、星火、Claude系列
- 视觉预训练模型 :
- ViT:图像分类、目标检测
- Swin Transformer:图像分割、视频理解
- DINO:自监督视觉特征学习,无需标注数据
- SAM:图像分割任务,可泛化到任意物体,"万能分割器"
- 多模态预训练模型 :
- CLIP:图像-文本匹配,Zero-Shot分类
- Flamingo:视觉-语言模型,图像理解+文本生成
- GPT-4V:多模态理解与生成,支持图像描述、视觉问答、文档分析
七、模型训练技术与优化方法
1. 知识蒸馏 (Knowledge Distillation)
核心特点:将教师模型知识迁移到学生模型,实现模型压缩与加速。
- 标准知识蒸馏 :
- 教师模型(大而强)→学生模型(小而快)
- 损失函数:L = (1-α)×交叉熵(硬标签) + α×KL散度(软标签)
- 软标签:教师模型输出的高温度(T>1)Softmax分布,包含类别间相似度信息
- 多任务蒸馏 :
- 教师模型是多任务模型,学生继承多个任务能力
- 应用:通用模型压缩,如将BERT知识蒸馏到MobileBERT
- 自蒸馏 :
- 单个模型同时作为教师和学生
- 实现方式:
- 同一模型不同阶段:早期模型→后期模型
- 同一模型不同尺度:深层特征→浅层特征
- 时间集成:模型EMA(指数移动平均)→当前模型
- 优势:无需额外存储教师模型,提升单模型性能
2. 模型压缩技术
- 剪枝 :
- 结构化剪枝:删除整层、整通道,保持模型结构,便于硬件加速
- 非结构化剪枝:删除单个权重,稀疏化矩阵,需专用硬件支持
- 应用:MobileNet剪枝、BERT剪枝,参数量减少50%+,精度损失<2%
- 量化 :
- 低比特量化:32位→16位/8位/4位/2位/1位,减少内存占用和计算量
- 量化感知训练(QAT):训练中模拟量化误差,提高量化后精度
- 应用:模型部署到移动设备、嵌入式系统,如TensorRT量化、ONNX Runtime量化
- 权重共享 :
- ALBERT:跨层参数共享,显著减少参数量
- 应用:大模型压缩,如T5到T5-XXL的参数共享版本
3. 参数高效微调 (PEFT)
- LoRA (Low-Rank Adaptation) :
- 冻结大部分参数,仅训练低秩矩阵,大幅减少可调参数
- 应用:大模型微调,如LLaMA微调只需训练0.1%参数
- 变体:LoRA+、QLoRA(量化LoRA),进一步减少内存占用
- 适配器(Adapter) :
- 在模型各层添加小型全连接网络,冻结原始参数
- 应用:BERT微调、GPT微调,参数量增加<1%,性能接近全微调
- 前缀微调 :
- 在输入前添加可训练前缀,引导模型生成,适合文本生成
- 应用:ChatGPT等对话模型,生成更符合对话风格的内容
八、混合架构与新兴方向
1. 状态空间模型 (SSM)
核心特点:通过状态转移矩阵建模序列,解决长序列依赖问题,计算复杂度线性于序列长度。
- Mamba模型 :
- 选择性状态空间模型(Selective SSM),核心是状态更新门控机制
- 架构:1D卷积+选择性SSM+前馈网络
- 优势:
- 长序列处理速度比Transformer快5倍
- 内存占用低,适合超长文本(百万tokens)
- 可与Transformer混合,互补优势
- 应用:语言建模、语音识别、时间序列预测、推荐系统
- Hyena :
- 卷积替代注意力,隐式全局卷积核
- 降低显存占用40%,长序列处理更高效
2. 混合架构 (Hybrid Models)
- CNN+Transformer :
- ConvNeXt:CNN架构重新设计,吸收Transformer特性(如LayerNorm)
- MobileViT:轻量级CNN提取局部特征,Transformer建模全局依赖,适合移动端
- CoAtNet:卷积+注意力组合,平衡局部与全局建模能力
- 应用:图像分类、目标检测,精度超纯CNN或纯Transformer
- RNN+Transformer :
- Transformer-XL:引入循环机制,提升长文本建模能力
- 应用:长文档理解、小说创作、代码生成
- GNN+Transformer :
- Graphormer:图结构数据与Transformer融合,处理知识图谱、社交网络
- 应用:知识推理、推荐系统、生物信息学(蛋白质相互作用预测)
3. 神经符号结合模型
- 神经-符号协同推理 :
- 神经网络提取感知特征,符号系统进行逻辑推理
- 应用:数学定理证明、知识图谱问答、复杂场景理解
- 可微逻辑 :
- 将逻辑操作(与/或/非)转化为可微函数,端到端训练
- 应用:视觉推理、自然语言推理,如DeepMind的AlphaGeometry(几何证明)
4. 脉冲神经网络 (SNN)
核心特点:事件驱动,模拟生物神经元脉冲,能耗极低(传统NN的1/100)。
- 基于脉冲时间编码:信息通过脉冲时间间隔表示
- 应用:低功耗嵌入式系统、边缘计算、类脑计算芯片
- 挑战:训练方法与传统ANN不同,需专门的脉冲反向传播算法
5. 液态神经网络 (LNN)
- 动态调整网络拓扑结构,适应环境变化
- 类似液体流动,能自适应改变连接方式
- 应用:环境监测、自适应控制系统、智能机器人
- 优势:对未知环境适应性强,泛化能力优异,抗干扰性好
九、大模型分类 (LLM及多模态)
1. 按架构分类
- 基础大模型 :
- Decoder-only:GPT-4、LLaMA-2、Claude 3、Gemini Ultra等,生成能力强
- Encoder-only:BERT、RoBERTa、DeBERTa等,理解能力强
- Encoder-Decoder:T5、BART、FLAN-T5等,序列转换能力强
- MoE架构 :
- 混合专家模型,每一层有多个"专家"网络,token路由至特定专家
- 代表:Switch Transformer(Google)、GLaM(Google)、Mixtral(8x7B)
- 优势:参数量可达万亿,推理成本仅增加30%,模型容量与计算效率平衡
2. 按能力分类
- LLM-Base :基础语言模型,仅进行预训练,无指令微调
- 代表:GPT-3.5-turbo基础版、LLaMA 1/2基础版
- 应用:研究基础模型特性、构建专用模型基础
- LLM-Instruct :指令微调模型,理解并执行用户指令
- 训练方法:SFT(监督微调),用高质量指令-响应对训练
- 代表:text-davinci-003、LLaMA-2-chat、Claude-instant
- 应用:对话系统、工具调用、任务执行
- LLM-Chat :对话优化模型,具备上下文理解和多轮对话能力
- 训练:SFT+RLHF(基于人类反馈的强化学习)
- 特点:
- 对话历史感知:维护多轮对话上下文
- 角色设定:支持系统提示和角色扮演
- 安全机制:内容过滤、有害内容拒绝
- 代表:ChatGPT、Claude 3、文心一言、通义千问、星火等
- LLM-Thinking :推理增强模型,支持复杂逻辑推理和多步骤思考
- 特点:
- 思维链(CoT):生成中间推理步骤,提高复杂问题解决能力
- 多视角思考:从不同角度分析问题,减少偏见
- 代表:GPT-4o、Claude 3推理版、DeepMind的Socratic模型
- 应用:数学证明、逻辑推理题、复杂决策支持
- 特点:
- LLM-Agentic :具备工具使用能力,可调用外部API、执行代码、与环境交互
- 核心组件:
- 规划器:分解任务,生成执行步骤
- 工具调用器:调用API、执行代码、查询知识库
- 反思器:评估结果,调整策略
- 代表:GPT-4o with plugins、Claude 3+、AutoGPT、BabyAGI
- 应用:自主研究、数据分析、编程辅助、个人助手
- 核心组件:
- LLM-Domain :垂直领域专用模型,针对特定行业优化
- 医疗:BioGPT、Med-PaLM、GPT-4 Healthcare
- 法律:LegalLLaMA、LexGLM、LawyerLLM
- 金融:FinGPT、BloombergGPT、Alpaca-Finance
- 代码:CodeLLaMA、AlphaCode、Tabnine
- 优势:领域知识更丰富,输出更专业、合规
- LLM-Distill :蒸馏后的轻量级模型,保持核心能力同时大幅减少参数量
- 代表:
- BERT→MobileBERT/ALBERT:参数量从330M→25M,精度接近
- GPT-4→GPT-4o-turbo:保持90%+能力,推理速度提升10倍
- 应用:移动端部署、嵌入式系统、实时响应场景
- 代表:
3. 按模态分类
- 语言大模型 :
- 专注文本理解和生成,NLP领域核心
- 代表:GPT-4、LLaMA-2、Claude 3、文心一言等
- 视觉大模型 :
- 专注图像处理和理解
- 代表:SAM(分割一切模型)、ViT、DINO(自监督视觉特征学习)
- 应用:图像分割、目标检测、医学影像分析、自动驾驶感知
- 多模态大模型 :
- 融合文本、图像、语音、视频等多种模态
- 代表:
- GPT-4V:支持图像+文本输入,理解和生成
- Gemini Ultra:Google多模态模型,支持图文理解、视频理解
- Flamingo:视觉-语言模型,支持图像问答、视觉推理
- DALL-E 3:文本→高质量图像生成
- 应用:图像描述、视觉问答、文档分析、创意内容生成
十、深度学习核心组件
1. 激活函数
核心特点:为神经网络引入非线性,使其能学习复杂函数。
- 线性激活 :
- 恒等函数:f(x)=x,无非线性,仅用于输出层或特定架构
- 非线性激活 :
- Sigmoid:f(x)=1/(1+e^(-x)),输出(0,1),梯度易消失,已较少使用
- Tanh :f(x)=(ex-e(-x))/(ex+e(-x)),输出(-1,1),零中心化,优于Sigmoid
- ReLU:f(x)=max(0,x),计算高效,缓解梯度消失,但存在Dead ReLU问题
- Leaky ReLU:f(x)=max(0.01x, x),解决Dead ReLU问题,负值有小梯度
- PReLU:参数化ReLU,负斜率可学习,适应性更强
- GELU:高斯误差线性单元,平滑ReLU,表现优异,Transformer标配
- Swish:f(x)=x·σ(x),平滑且非单调,性能优于ReLU
- SiLU:Sigmoid Linear Unit,Swish变体,在深层网络中表现出色
- Mish:f(x)=x·tanh(ln(1+e^x)),连续可微,增强特征表达
- h-swish:Swish的硬件优化版本,适合移动端计算,MobileNetV3使用
2. 损失函数
核心特点:衡量模型预测与真实标签差距,指导模型训练。
- 分类损失 :
- 交叉熵损失 :L = -Σ(y·log§),y为真实标签(0/1),p为预测概率
- 变体:二元交叉熵(BCELoss)、多类交叉熵(CrossEntropyLoss)
- 应用:图像分类、文本分类、多标签分类
- Focal Loss :
- 解决类别不平衡问题,降低易分类样本权重,聚焦难样本
- 应用:目标检测、长尾分类任务,如COCO检测、稀有疾病诊断
- 交叉熵损失 :L = -Σ(y·log§),y为真实标签(0/1),p为预测概率
- 回归损失 :
- MSE (均方误差):L = (1/N)Σ(y-p)^2,对离群点敏感
- MAE (平均绝对误差):L = (1/N)Σ|y-p|,对离群点更鲁棒
- Huber Loss:结合MSE和MAE优点,对中等误差用MSE,大误差用MAE
- Smooth L1 Loss:类似Huber Loss,用于目标检测的边界框回归
- 序列损失 :
- CTCLoss:连接时序分类损失,用于序列预测,如OCR、语音识别
- NLLLoss:负对数似然损失,用于自回归模型,如语言模型
- 蒸馏损失 :
- KL散度:L = KL(p_t || p_s) = Σ(p_t·log(p_t/p_s)),衡量两个分布差异
- 应用:知识蒸馏,软标签监督,如教师模型输出→学生模型输出
3. 优化器
核心特点:更新模型参数,最小化损失函数。
- 基于梯度下降 :
- SGD (随机梯度下降) :
- 基础优化器,参数更新方向为负梯度方向
- 变体:动量SGD、Nesterov加速SGD,提高收敛速度
- 应用:传统CNN训练,如ResNet训练、VGG训练
- Adagrad:自适应调整学习率,对频繁特征降低学习率,稀疏特征提高学习率
- Adadelta:Adagrad改进版,避免学习率过早衰减,无需手动设置学习率
- RMSprop:均方根传播,对梯度平方加权平均,适应性调整学习率
- Adam :Adaptive Moment Estimation,结合动量和自适应学习率
- 计算梯度一阶矩(均值)和二阶矩(方差)
- 更新规则:θ = θ - lr·m_t/√(v_t+ε),其中m_t是动量,v_t是RMSprop的分母
- 应用:广泛用于各类模型,包括Transformer、CNN、RNN
- 变体:AdamW(带权重衰减)、Adafactor(自适应因子,无需调参)
- SGD (随机梯度下降) :
- 二阶优化 :
- 牛顿法:使用Hessian矩阵(二阶导数),收敛快但计算复杂,适合小规模问题
- L-BFGS:有限内存BFGS,近似牛顿法,无需存储完整Hessian,适合大规模训练
十一、总结:深度学习模型全景图
深度学习模型分类体系庞大,可从多个维度理解:
| 分类维度 | 主要类别 | 代表模型 | 核心特点 | 应用场景 |
|---|---|---|---|---|
| 按架构 | CNN | ResNet, MobileNet | 局部特征提取,参数共享 | 图像识别、检测、分割 |
| RNN/LSTM/GRU | LSTM, GRU | 序列依赖捕捉,循环连接 | 文本、语音、时间序列 | |
| Transformer | BERT, GPT | 全局注意力,并行计算 | NLP、视觉、多模态 | |
| SSM | Mamba | 状态转移,线性复杂度 | 长序列建模、语音识别 | |
| 按功能 | 生成模型 | GAN, Diffusion | 学习数据分布,生成新样本 | 图像生成、内容创作 |
| 判别模型 | CNN分类器 | 判断类别,回归预测 | 分类、检测、识别 | |
| 按模态 | 单模态 | BERT(文本), ViT(图像) | 单一数据类型处理 | NLP、计算机视觉 |
| 多模态 | GPT-4V, Gemini | 融合多种数据类型 | 图文理解、视频分析 | |
| 按规模 | 轻量级模型 | MobileNet, TinyBERT | 参数少,计算高效 | 移动设备、嵌入式系统 |
| 大模型 | GPT-4, LLaMA-2 | 参数规模大(10B+),能力全面 | 通用AI、复杂推理 |
要真正掌握深度学习模型,关键是理解它们的设计思想 和适用场景,而非死记硬背。建议从基础架构(CNN/RNN)入手,理解其工作原理和数学基础,再逐步扩展到复杂架构(Transformer/SSM)和高级应用(大模型/多模态)。
记住:模型是解决问题的工具,选择合适模型需结合具体任务、数据特点和硬件条件。深度学习领域发展迅速,持续关注顶会(NeurIPS、ICML、CVPR、ACL)和开源项目,才能跟上技术前沿。