4.1 视觉特征提取
4.1.1 卷积神经网络基础
4.1.1.1 经典架构回顾 (AlexNet/VGG/ResNet)
卷积神经网络(Convolutional Neural Networks, CNN)的复兴始于 AlexNet 在 ImageNet 竞赛中的突破性表现。Krizhevsky 等人提出的八层架构引入了 ReLU 非线性激活函数 f(x)=\\max(0,x) 替代传统的 Sigmoid 或 Tanh,有效缓解了深层网络的梯度消失问题。局部响应归一化(Local Response Normalization, LRN)层通过侧抑制机制增强泛化能力:
b_{x,y}\^i = \\frac{a_{x,y}\^i}{\\left(k + \\alpha \\sum_{j=\\max(0,i-n/2)}\^{\\min(N-1,i+n/2)} (a_{x,y}\^j)\^2 \\right)\^\\beta}
Dropout 正则化以概率 p 随机置零神经元输出,近似模型集成的贝叶斯平均效果。后续 VGG 网络通过堆叠小尺寸卷积核(3×3)替代大卷积核,在不损失感受野的前提下增加网络深度,十六至十九层的架构证明了深度对表征能力的关键作用。残差网络(ResNet)通过跳跃连接(skip connections)解决极深网络的退化问题,残差块学习恒等映射的残差 F(x) 而非直接映射 H(x):
y = F(x, \\{W_i\\}) + x
当 F(x) \\to 0 时,网络易于学习恒等映射。残差连接使梯度流通过 shortcut 路径直接反向传播,支持超过百层的网络训练。
4.1.1.2 现代视觉骨干网络 (ViT/ConvNeXt)
Vision Transformer(ViT)将自然语言处理中的 Transformer 架构迁移至计算机视觉,将图像分割为固定大小的非重叠 patches x_p \\in \\mathbb{R}\^{P\^2 \\cdot C},经线性投影映射至 D 维嵌入空间。标准 Transformer 编码器通过多头自注意力机制(Multi-Head Self-Attention, MHSA)捕获全局依赖:
\\text{Attention}(Q,K,V) = \\text{softmax}\\left(\\frac{QK\^T}{\\sqrt{d_k}}\\right)V
\\text{MHSA}(X) = \\text{Concat}(\\text{head}_1, \\dots, \\text{head}_h)W\^O
其中 \\text{head}_i = \\text{Attention}(XW_i\^Q, XW_i\^K, XW_i\^V)。位置嵌入(positional embeddings)编码空间信息,弥补自注意力的置换不变性。ConvNeXt 则对标准 ResNet 进行现代化改造,借鉴 Swin Transformer 的设计,采用深度可分离卷积、LayerNorm 替代 BatchNorm、GELU 激活函数及大卷积核(7×7),在纯卷积架构中达到与 Transformer 相当的性能,同时保持卷积的平移等变性与计算效率。
4.1.2 自监督视觉表征
4.1.2.1 对比学习框架 (SimCLR/MoCo)
自监督学习通过设计前置任务(pretext tasks)从数据本身构造监督信号。对比学习框架 SimCLR(Simple Contrastive Learning of Representations)通过数据增强生成同一图像的两个相关视图 x_i 与 x_j,经编码器 f(\\cdot) 与投影头 g(\\cdot) 映射至潜在空间 z_i, z_j。归一化温度缩放交叉熵损失(NT-Xent)最大化正样本对的相似度同时最小化负样本对:
L_{i,j} = -\\log \\frac{\\exp(\\text{sim}(z_i, z_j)/\\tau)}{\\sum_{k=1}\^{2N} \\mathbb{1}_{\[k \\neq i\]} \\exp(\\text{sim}(z_i, z_k)/\\tau)}
其中 \\text{sim}(u,v) = u\^T v / (\\\|u\\\|\\\|v\\\|) 为余弦相似度,\\tau 为温度参数。Momentum Contrast(MoCo)维护动态字典以存储大量负样本,通过动量更新编码器参数 \\theta_k:
\\theta_k \\leftarrow m\\theta_k + (1-m)\\theta_q
动量系数 m \\in \[0,1) 确保字典键的表示一致性,支持大容量负样本对比而无需超大批次训练。
4.1.2.2 掩码图像建模 (MAE/BEiT)
掩码自编码器(Masked Autoencoders, MAE)采用非对称编码器-解码器架构,高比例(75%)随机掩码图像块(patches),仅将可见 patches 输入 Vision Transformer 编码器,轻量级解码器重建像素级掩码区域。重建目标最小化归一化像素的均方误差:
L = \\frac{1}{\|M\|} \\sum_{i \\in M} \\\|\\tilde{x}_i - x_i\\\|\^2
其中 M 为掩码集合,\\tilde{x}_i 为解码器输出。BEiT(Bidirectional Encoder Representations from Image Transformers)将图像视为离散 token 序列,通过离散变分自编码器(dVAE)的码本将图像块量化为视觉 token,掩码语言建模目标预测离散视觉 token 而非原始像素,bridging 视觉与语言预训练范式的差异。
4.2 目标检测与分割
4.2.1 两阶段与单阶段检测器
4.2.1.1 Faster R-CNN 系列
目标检测的两阶段范式由 Faster R-CNN 确立,第一阶段区域提议网络(Region Proposal Network, RPN)在共享卷积特征上滑动小网络,预测锚框(anchors)的二分类(前景/背景)与边界框回归。RPN 损失函数结合分类交叉熵与平滑 L1 回归损失:
L(\\{p_i\\}, \\{t_i\\}) = \\frac{1}{N_{cls}} \\sum_i L_{cls}(p_i, p_i\^\*) + \\lambda \\frac{1}{N_{reg}} \\sum_i p_i\^\* L_{reg}(t_i, t_i\^\*)
其中 p_i 为预测概率,p_i\^\* 为真实标签(1 前景 / 0 背景),t_i 为边界框偏移量参数化坐标。第二阶段 Fast R-CNN 对候选区域执行 RoI 池化后分类与精细回归。RoIAlign 后续替代 RoI Pooling,通过双线性插值消除量化误差,保留亚像素精度。
4.2.1.2 YOLO 系列演进
You Only Look Once(YOLO)开创单阶段检测范式,将检测重新表述为单次回归问题。网络将输入图像划分为 S \\times S 网格,每个网格单元预测 B 个边界框及其置信度 \\text{Pr}(\\text{Object}) \\times \\text{IoU}_{\\text{pred}}\^{\\text{truth}} 与条件类别概率 \\text{Pr}(\\text{Class}_i \\mid \\text{Object})。边界框坐标相对于网格单元归一化:
b_x = \\sigma(t_x) + c_x, \\quad b_y = \\sigma(t_y) + c_y
b_w = p_w e\^{t_w}, \\quad b_h = p_h e\^{t_h}
其中 c_x, c_y 为网格单元左上角坐标,p_w, p_h 为先验框尺寸,\\sigma(\\cdot) 为 Sigmoid 函数。YOLOv3 引入多尺度预测与特征金字塔,YOLOv4/v5 优化 Bag of Freebies(BoF)与 Bag of Specials(BoS)训练技巧,YOLOv8 采用 Anchor-Free 设计与解耦头(Decoupled Head),将分类与回归分支分离,引入 Distribution Focal Loss 与 CIoU(Complete Intersection over Union)损失:
\\text{CIoU} = \\text{IoU} - \\frac{\\rho\^2(b, b\^{gt})}{c\^2} - \\alpha v
其中 \\rho 为中心点欧氏距离,c 为最小闭包框对角线长度,v 为长宽比一致性度量。
4.2.2 实例分割与全景分割
4.2.2.1 Mask R-CNN 架构
Mask R-CNN 扩展 Faster R-CNN 实现像素级实例分割,在边界框回归与分类分支并行添加掩码预测分支。RoIAlign 提取固定尺寸特征后,全卷积网络(FCN)为每个 RoI 预测 K \\times m \\times m 的二进制掩码(K 为类别数,m \\times m 为空间分辨率)。多任务损失函数整合三项:
L = L_{cls} + L_{box} + L_{mask}
掩码损失 L_{mask} 为逐像素的 Sigmoid 交叉熵,支持每个类别独立预测掩码避免类别间竞争。该架构保持检测精度同时实现高精度分割,为后续实例分割方法奠定结构基础。
4.2.2.2 基于 Transformer 的分割方法
DETR(Detection Transformer)将目标检测视为直接集合预测问题,摒弃锚框与 NMS 后处理。Transformer 编码器处理 CNN 特征图,解码器通过自注意力与编码器-解码器注意力并行预测 N 个对象查询(object queries)。匈牙利算法实现预测与真实标签的最优二分匹配:
\\hat{\\sigma} = \\arg \\min_{\\sigma \\in S_N} \\sum_{i=1}\^N L_{match}(y_i, \\hat{y}_{\\sigma(i)})
其中 L_{match} 结合分类与 GIoU(Generalized Intersection over Union)损失。Mask2Former 统一实例分割、语义分割与全景分割,采用掩码分类(mask classification)范式,经注意力机制预测的掩码嵌入与像素嵌入点积生成最终掩码,多尺度可变形注意力(Deformable Attention)捕获高分辨率细节:
\\text{DeformAttn}(z_q, p_q, x) = \\sum_{m=1}\^M W_m \\left\[ \\sum_{k=1}\^K A_{mqk} \\cdot W'_m x(p_q + \\Delta p_{mqk}) \\right\]
其中 p_q 为参考点,\\Delta p_{mqk} 为学习偏移量,A_{mqk} 为注意力权重。
4.3 三维视觉与几何理解
4.3.1 深度估计与立体视觉
4.3.1.1 单目深度估计
单目深度估计面临固有的尺度模糊性(scale ambiguity),神经网络学习从单张图像推断深度图 Z(u,v)。编码器-解码器架构结合跳跃连接融合多尺度特征,深度估计损失函数融合尺度不变对数误差、梯度平滑与法向一致性约束:
L = \\alpha \\sqrt{\\frac{1}{n} \\sum_i d_i\^2 - \\frac{\\lambda}{n\^2} (\\sum_i d_i)\^2} + \\beta \\frac{1}{n} \\sum_i (\|\\nabla_x d_i\| + \|\\nabla_y d_i\|) + \\gamma \\frac{1}{n} \\sum_i (1 - n_i\^T \\hat{n}_i)
其中 d_i = \\log Z_i - \\log \\hat{Z}_i 为对数深度差异。基于 Transformer 的方法(如 DepthFormer)利用全局注意力捕获长程几何关系,结合卷积局部性保持边缘精度。
4.3.1.2 立体匹配算法
立体视觉通过双目视差计算深度,视差 d 与深度 Z 满足:
Z = \\frac{f \\cdot B}{d}
其中 f 为焦距,B 为基线距离。半全局匹配(Semi-Global Matching, SGM)通过像素级互信息成本与路径聚合优化能量函数:
E(D) = \\sum_p C(p, D_p) + \\sum_{q \\in N_p} P_1 \\mathbb{1}\[\|D_p - D_q\|=1\] + \\sum_{q \\in N_p} P_2 \\mathbb{1}\[\|D_p - D_q\|\>1\]
第一项为数据项(像素差异度),第二、三项为平滑项惩罚小与大视差跳变。深度学习立体匹配网络(如 PSMNet)通过 3D 卷积对代价体(cost volume)正则化,结合堆叠沙漏(stacked hourglass)结构细化视差图。
4.3.2 点云处理与 3D 检测
4.3.2.1 PointNet/PointNet++
PointNet 直接处理原始点云数据 \\{x_1, x_2, \\dots, x_n\\},通过对称函数(symmetric function)解决点云无序性(permutation invariance)。共享多层感知机(MLP)独立处理每个点,最大池化(max pooling)聚合全局特征:
f(\\{x_1, \\dots, x_n\\}) \\approx g(\\max_{i=1,\\dots,n} \\{h(x_i)\\})
其中 h 与 g 为 MLP 近似函数。T-Net 学习输入与特征空间变换矩阵保证刚体变换不变性。PointNet++ 引入层次化特征学习,采样层(sampling)与分组层(grouping)构建点集嵌套结构,集合抽象(set abstraction)层聚合局部特征:
f(S) = \\max_{i=1,\\dots,n} \\{ \\text{MLP}(p_i - \\bar{p} \\oplus f_i) \\}
其中 S 为局部点集,\\bar{p} 为局部质心,\\oplus 为拼接操作。
4.3.2.2 基于体素和图的方法
VoxelNet 将点云量化为规则 3D 体素网格,体素特征编码(Voxel Feature Encoding, VFE)层将非空体素内点特征聚合为固定维表示:
V_{ijk} = \\frac{1}{N_{ijk}} \\sum_{p \\in P_{ijk}} \[x_p, y_p, z_p, r_p, f_p\]\^T
3D 稀疏卷积提取体素特征后压缩至鸟瞰图(BEV)执行 2D 检测。Point-GNN 将点云建模为图 G=(V,E),顶点为点特征,边由 k 近邻(k-NN)或半径邻域定义。图神经网络通过邻域聚合更新顶点特征:
h_i\^{(l+1)} = \\gamma\^{(l)} \\left( h_i\^{(l)}, \\square_{j \\in N(i)} \\phi\^{(l)} (h_i\^{(l)}, h_j\^{(l)}, e_{ij}) \\right)
其中 \\square 为置换不变聚合算子(max/mean/sum),\\phi 与 \\gamma 为 MLP。Point-GNN 引入自动对齐机制(auto-registration)与迭代箱合并(iterative box merging)提升定位精度。
4.4 视觉基础模型
4.4.1 SAM 与交互式分割
4.4.1.1 提示编码与掩码解码
Segment Anything Model(SAM)构建可提示(promptable)的分割系统,接受稀疏提示(点、框、文本)与密集提示(掩码)。图像编码器(Image Encoder)基于 Vision Transformer 提取图像嵌入,提示编码器(Prompt Encoder)将稀疏提示映射为位置编码与类型嵌入,密集提示经卷积下采样。轻量级掩码解码器(Mask Decoder)通过双向 Transformer(2 个块)融合图像与提示嵌入,预测三个掩码输出(整体、部分、子部分)以处理歧义性:
F_{\\text{fused}} = \\text{Transformer}(F_{\\text{image}}, F_{\\text{prompt}})
M_i = \\text{MLP}(F_{\\text{fused}}) \\odot F_{\\text{image}}, \\quad i \\in \\{1,2,3\\}
动态聚焦(dynamic focusing)机制通过迭代细化支持高分辨率预测。
4.4.1.2 零样本迁移能力
SAM 在海量多样化数据(SA-1B 数据集,1100 万张图像,10 亿掩码)上训练获得强泛化能力,无需针对特定域微调即可执行边缘检测、区域提议、实例分割与文本到掩码(通过 CLIP 文本编码器扩展)。提示工程使 SAM 适应多样化下游任务,如通过前景/背景点提示实现交互式分割,或结合目标检测器框提示实现自动实例分割。组合泛化能力支持未见对象类别与复杂场景的准确分割,体现基础模型的涌现特性。
4.4.2 DINO 与自监督特征
4.4.2.1 知识蒸馏框架
DINO(self-DIstillation with NO labels)通过自蒸馏学习视觉 Transformer 特征,无需标签数据。学生网络(Student)与动量教师网络(Teacher)架构相同,教师参数 \\theta_t 为学生参数 \\theta_s 的指数移动平均:
\\theta_t \\leftarrow \\lambda \\theta_t + (1-\\lambda) \\theta_s
输入图像经不同随机裁剪与增强生成全局与局部视图,学生处理所有视图,教师仅处理全局视图以避免信息泄露。蒸馏目标最小化学生输出 P_s 与教师中心化输出 P_t 的交叉熵:
\\min_{\\theta_s} E_{x_1, x_2} \[ H(P_{\\theta_t}(x_1), P_{\\theta_s}(x_2)) \]
中心化处理(centering)与锐化(sharpening)操作防止崩溃解(collapse solutions),Sinkhorn-Knopp 算法实现批次级标签分配。
4.4.2.2 视觉 Transformer 的涌现特性
DINO 训练的 Vision Transformer 展现显著涌现特性。自注意力图可视化揭示最后一层注意力聚焦于语义对象边界与部分,无需监督信号即学习对象分割(emergent segmentation)。特征空间呈现语义聚类结构,k-NN 分类器在 ImageNet 上达到 78.3% top-1 精度,证明自监督学习获得判别性表示。跨层特征分析表明,浅层捕获纹理与边缘,深层聚合语义对象,层次化表征与卷积网络类似但全局感受野增强长程依赖建模。自注意力头的专业化(specialization)现象,特定头关注位置信息、重复模式或语义类别,为理解视觉 Transformer 内部机制提供窗口。这些特性使 DINO 特征适用于零样本分类、图像检索与密集预测任务的预训练初始化。