目录
[二、什么是3D CNN](#二、什么是3D CNN)
[三、3D CNN输入数据结构](#三、3D CNN输入数据结构)
[四、3D CNN核心结构](#四、3D CNN核心结构)
[六、3D池化层(3D Pooling)](#六、3D池化层(3D Pooling))
[七、3D CNN网络结构类型](#七、3D CNN网络结构类型)
[(一)标准3D CNN](#(一)标准3D CNN)
[八、3D CNN前向传播流程](#八、3D CNN前向传播流程)
[九、3D CNN与2D CNN对比](#九、3D CNN与2D CNN对比)
[十、3D CNN优势](#十、3D CNN优势)
[十一、3D CNN缺点](#十一、3D CNN缺点)
[十二、3D CNN训练流程](#十二、3D CNN训练流程)
[十三、3D CNN在视频领域应用](#十三、3D CNN在视频领域应用)
[十四、3D CNN在医疗领域应用](#十四、3D CNN在医疗领域应用)
[十五、3D CNN优化方向](#十五、3D CNN优化方向)
[十六、3D CNN结构总结](#十六、3D CNN结构总结)
[十七、3D CNN核心公式总结](#十七、3D CNN核心公式总结)
[十八、3D CNN发展趋势](#十八、3D CNN发展趋势)
一、前言
在传统计算机视觉中,2D卷积网络(2D CNN)已经非常成熟,广泛用于:
-
图像分类
-
目标检测
-
语义分割
但当输入数据从"单张图像"扩展到:
-
视频序列(时间维度)
-
医学体数据(CT/MRI)
-
体素数据(Voxel)
仅依赖2D CNN就会遇到一个核心问题:
无法建模时间或深度维度的连续变化
于是,3D CNN(3D Convolutional Neural Network)应运而生。
二、什么是3D CNN
(一)基本定义
3D CNN是一种:
在空间 + 时间(或深度)维度上同时进行卷积的神经网络
(二)核心目标
从"图像特征提取"升级为"时空特征建模"
(三)一句话理解
用立体卷积核去理解视频或三维数据
三、3D CNN输入数据结构
(一)标准输入格式
(B, C, D, H, W)
含义:
-
B:batch size
-
C:通道数
-
D:时间/深度
-
H:高度
-
W:宽度
(二)数据类型
3D CNN主要处理:
-
视频数据(D = 时间帧)
-
CT/MRI(D = 切片层)
-
体素数据
四、3D CNN核心结构
(一)整体结构
Input Volume
↓
3D Conv Layers
↓
3D Pooling
↓
Feature Extraction
↓
Fully Connected / Global Pooling
↓
Output
(二)关键模块
-
3D Convolution
-
3D Pooling
-
Activation Function
-
Classification Head
五、3D卷积层(核心)
(一)卷积核结构
kD × kH × kW
例如:
3 × 3 × 3
(二)计算方式
y(i,j,k)=\sum x(i+m,j+n,k+p)w(m,n,p)
(三)作用
同时提取空间 + 时间特征
六、3D池化层(3D Pooling)
(一)作用
降低时空分辨率
(二)类型
-
3D Max Pooling
-
3D Average Pooling
(三)效果
减少计算量 + 提取高层语义
七、3D CNN网络结构类型
(一)标准3D CNN
所有卷积均为3D卷积
特点:
-
建模能力强
-
计算成本高
(二)C3D模型
最经典视频3D CNN结构
特点:
-
3×3×3卷积
-
端到端视频分类
(三)I3D模型
Inflated 3D CNN
特点:
-
将2D CNN扩展为3D CNN
-
迁移学习能力强
(四)SlowFast网络
双流时空建模
-
Slow:语义信息
-
Fast:运动信息
八、3D CNN前向传播流程
(一)流程图
Video/Volume Input
↓
3D Conv Block
↓
3D Pooling
↓
Repeat N Layers
↓
Global Feature
↓
Classifier
(二)核心逻辑
逐层提取时空特征
九、3D CNN与2D CNN对比
| 维度 | 2D CNN | 3D CNN |
|---|---|---|
| 输入 | 图像 | 视频/体数据 |
| 卷积 | H×W | D×H×W |
| 建模能力 | 空间 | 空间+时间 |
| 计算量 | 低 | 高 |
十、3D CNN优势
(一)时空建模能力强
同时学习空间结构与时间变化
(二)适用于视频理解
-
动作识别
-
行为分析
(三)适用于医学影像
-
CT分割
-
MRI分析
十一、3D CNN缺点
(一)计算成本高
参数量显著增加
(二)显存占用大
(三)训练数据需求高
十二、3D CNN训练流程
(一)步骤
数据加载 → 模型前向 → loss计算 → 反向传播 → 参数更新
(二)损失函数
-
分类任务:Cross Entropy
-
多标签任务:BCE
(三)优化器
-
Adam
-
SGD + Momentum
十三、3D CNN在视频领域应用
(一)任务类型
-
动作识别
-
视频分类
-
行为检测
(二)典型应用
-
安防监控
-
体育分析
-
自动驾驶
(三)代表模型
-
C3D
-
I3D
-
SlowFast
十四、3D CNN在医疗领域应用
(一)数据类型
-
CT扫描
-
MRI影像
(二)任务
-
肿瘤检测
-
器官分割
-
病灶识别
(三)优势
直接建模三维结构信息
十五、3D CNN优化方向
(一)轻量化
-
2D+1D分解卷积
-
Mobile 3D CNN
(二)混合模型
-
CNN + Transformer
-
CNN + RNN
(三)多尺度建模
-
FPN结构
-
SlowFast双路径
十六、3D CNN结构总结
Input (D×H×W)
↓
3D Conv Layers
↓
3D Pooling
↓
Feature Volume
↓
Global Pooling
↓
Prediction Head
十七、3D CNN核心公式总结
y(i,j,k)=\sum x(i+m,j+n,k+p)w(m,n,p)
十八、3D CNN发展趋势
(一)Transformer替代趋势
-
Video Transformer
-
ViViT
(二)轻量化趋势
-
MobileNet3D
-
Efficient Video Models
(三)多模态融合
- 视频 + 音频 + 文本
十九、总结
3D CNN是2D CNN在三维数据上的自然扩展,它通过在空间与时间维度同时进行卷积,实现对视频与医学体数据的统一建模能力,是理解时空视觉任务的核心基础模型。
本文系统讲解了:
1、3D CNN定义;
2、输入数据结构;
3、3D卷积与池化;
4、网络结构类型;
5、前向传播流程;
6、训练方法;
7、视频与医疗应用;
8、优缺点分析;
9、优化方向;
10、发展趋势。
可以将3D CNN理解为:
"一种将空间与时间统一编码的深度神经网络结构,是视频理解与三维医学分析的核心建模工具。"
掌握3D CNN,就等于掌握了从"图像理解"迈向"时空理解"的关键网络结构基础。