第 4 章视觉感知与场景理解

4.1 视觉特征提取

4.1.1 卷积神经网络基础

4.1.1.1 经典架构回顾 (AlexNet/VGG/ResNet)

卷积神经网络（Convolutional Neural Networks, CNN）的复兴始于 AlexNet 在 ImageNet 竞赛中的突破性表现。Krizhevsky 等人提出的八层架构引入了 ReLU 非线性激活函数 $f(x)=\\max(0,x)$ 替代传统的 Sigmoid 或 Tanh，有效缓解了深层网络的梯度消失问题。局部响应归一化（Local Response Normalization, LRN）层通过侧抑制机制增强泛化能力：

b_{x,y}\^i = \\frac{a_{x,y}\^i}{\\left(k + \\alpha \\sum_{j=\\max(0,i-n/2)}\^{\\min(N-1,i+n/2)} (a_{x,y}\^j)\^2 \\right)\^\\beta}

Dropout 正则化以概率 $p$ 随机置零神经元输出，近似模型集成的贝叶斯平均效果。后续 VGG 网络通过堆叠小尺寸卷积核（3×3）替代大卷积核，在不损失感受野的前提下增加网络深度，十六至十九层的架构证明了深度对表征能力的关键作用。残差网络（ResNet）通过跳跃连接（skip connections）解决极深网络的退化问题，残差块学习恒等映射的残差 $F(x)$ 而非直接映射 $H(x)$ ：

y = F(x, \\{W_i\\}) + x

当 $F(x) \\to 0$ 时，网络易于学习恒等映射。残差连接使梯度流通过 shortcut 路径直接反向传播，支持超过百层的网络训练。

4.1.1.2 现代视觉骨干网络 (ViT/ConvNeXt)

Vision Transformer（ViT）将自然语言处理中的 Transformer 架构迁移至计算机视觉，将图像分割为固定大小的非重叠 patches $x_p \\in \\mathbb{R}\^{P\^2 \\cdot C}$ ，经线性投影映射至 $D$ 维嵌入空间。标准 Transformer 编码器通过多头自注意力机制（Multi-Head Self-Attention, MHSA）捕获全局依赖：

\\text{Attention}(Q,K,V) = \\text{softmax}\\left(\\frac{QK\^T}{\\sqrt{d_k}}\\right)V

\\text{MHSA}(X) = \\text{Concat}(\\text{head}_1, \\dots, \\text{head}_h)W\^O

其中 $\\text{head}_i = \\text{Attention}(XW_i\^Q, XW_i\^K, XW_i\^V)$ 。位置嵌入（positional embeddings）编码空间信息，弥补自注意力的置换不变性。ConvNeXt 则对标准 ResNet 进行现代化改造，借鉴 Swin Transformer 的设计，采用深度可分离卷积、LayerNorm 替代 BatchNorm、GELU 激活函数及大卷积核（7×7），在纯卷积架构中达到与 Transformer 相当的性能，同时保持卷积的平移等变性与计算效率。

4.1.2 自监督视觉表征

4.1.2.1 对比学习框架 (SimCLR/MoCo)

自监督学习通过设计前置任务（pretext tasks）从数据本身构造监督信号。对比学习框架 SimCLR（Simple Contrastive Learning of Representations）通过数据增强生成同一图像的两个相关视图 $x_i$ 与 $x_j$ ，经编码器 $f(\\cdot)$ 与投影头 $g(\\cdot)$ 映射至潜在空间 $z_i, z_j$ 。归一化温度缩放交叉熵损失（NT-Xent）最大化正样本对的相似度同时最小化负样本对：

L_{i,j} = -\\log \\frac{\\exp(\\text{sim}(z_i, z_j)/\\tau)}{\\sum_{k=1}\^{2N} \\mathbb{1}_{\[k \\neq i\]} \\exp(\\text{sim}(z_i, z_k)/\\tau)}

其中 $\\text{sim}(u,v) = u\^T v / (\\\|u\\\|\\\|v\\\|)$ 为余弦相似度， $\\tau$ 为温度参数。Momentum Contrast（MoCo）维护动态字典以存储大量负样本，通过动量更新编码器参数 $\\theta_k$ ：

\\theta_k \\leftarrow m\\theta_k + (1-m)\\theta_q

动量系数 $m \\in \[0,1)$ 确保字典键的表示一致性，支持大容量负样本对比而无需超大批次训练。

4.1.2.2 掩码图像建模 (MAE/BEiT)

掩码自编码器（Masked Autoencoders, MAE）采用非对称编码器-解码器架构，高比例（75%）随机掩码图像块（patches），仅将可见 patches 输入 Vision Transformer 编码器，轻量级解码器重建像素级掩码区域。重建目标最小化归一化像素的均方误差：

L = \\frac{1}{\|M\|} \\sum_{i \\in M} \\\|\\tilde{x}_i - x_i\\\|\^2

其中 $M$ 为掩码集合， $\\tilde{x}_i$ 为解码器输出。BEiT（Bidirectional Encoder Representations from Image Transformers）将图像视为离散 token 序列，通过离散变分自编码器（dVAE）的码本将图像块量化为视觉 token，掩码语言建模目标预测离散视觉 token 而非原始像素，bridging 视觉与语言预训练范式的差异。

4.2 目标检测与分割

4.2.1 两阶段与单阶段检测器

4.2.1.1 Faster R-CNN 系列

目标检测的两阶段范式由 Faster R-CNN 确立，第一阶段区域提议网络（Region Proposal Network, RPN）在共享卷积特征上滑动小网络，预测锚框（anchors）的二分类（前景/背景）与边界框回归。RPN 损失函数结合分类交叉熵与平滑 L1 回归损失：

L(\\{p_i\\}, \\{t_i\\}) = \\frac{1}{N_{cls}} \\sum_i L_{cls}(p_i, p_i\^\*) + \\lambda \\frac{1}{N_{reg}} \\sum_i p_i\^\* L_{reg}(t_i, t_i\^\*)

其中 $p_i$ 为预测概率， $p_i\^\*$ 为真实标签（1 前景 / 0 背景）， $t_i$ 为边界框偏移量参数化坐标。第二阶段 Fast R-CNN 对候选区域执行 RoI 池化后分类与精细回归。RoIAlign 后续替代 RoI Pooling，通过双线性插值消除量化误差，保留亚像素精度。

4.2.1.2 YOLO 系列演进

You Only Look Once（YOLO）开创单阶段检测范式，将检测重新表述为单次回归问题。网络将输入图像划分为 $S \\times S$ 网格，每个网格单元预测 $B$ 个边界框及其置信度 $\\text{Pr}(\\text{Object}) \\times \\text{IoU}_{\\text{pred}}\^{\\text{truth}}$ 与条件类别概率 $\\text{Pr}(\\text{Class}_i \\mid \\text{Object})$ 。边界框坐标相对于网格单元归一化：

b_x = \\sigma(t_x) + c_x, \\quad b_y = \\sigma(t_y) + c_y

b_w = p_w e\^{t_w}, \\quad b_h = p_h e\^{t_h}

其中 $c_x, c_y$ 为网格单元左上角坐标， $p_w, p_h$ 为先验框尺寸， $\\sigma(\\cdot)$ 为 Sigmoid 函数。YOLOv3 引入多尺度预测与特征金字塔，YOLOv4/v5 优化 Bag of Freebies（BoF）与 Bag of Specials（BoS）训练技巧，YOLOv8 采用 Anchor-Free 设计与解耦头（Decoupled Head），将分类与回归分支分离，引入 Distribution Focal Loss 与 CIoU（Complete Intersection over Union）损失：

\\text{CIoU} = \\text{IoU} - \\frac{\\rho\^2(b, b\^{gt})}{c\^2} - \\alpha v

其中 $\\rho$ 为中心点欧氏距离， $c$ 为最小闭包框对角线长度， $v$ 为长宽比一致性度量。

4.2.2 实例分割与全景分割

4.2.2.1 Mask R-CNN 架构

Mask R-CNN 扩展 Faster R-CNN 实现像素级实例分割，在边界框回归与分类分支并行添加掩码预测分支。RoIAlign 提取固定尺寸特征后，全卷积网络（FCN）为每个 RoI 预测 $K \\times m \\times m$ 的二进制掩码（ $K$ 为类别数， $m \\times m$ 为空间分辨率）。多任务损失函数整合三项：

L = L_{cls} + L_{box} + L_{mask}

掩码损失 $L_{mask}$ 为逐像素的 Sigmoid 交叉熵，支持每个类别独立预测掩码避免类别间竞争。该架构保持检测精度同时实现高精度分割，为后续实例分割方法奠定结构基础。

4.2.2.2 基于 Transformer 的分割方法

DETR（Detection Transformer）将目标检测视为直接集合预测问题，摒弃锚框与 NMS 后处理。Transformer 编码器处理 CNN 特征图，解码器通过自注意力与编码器-解码器注意力并行预测 $N$ 个对象查询（object queries）。匈牙利算法实现预测与真实标签的最优二分匹配：

\\hat{\\sigma} = \\arg \\min_{\\sigma \\in S_N} \\sum_{i=1}\^N L_{match}(y_i, \\hat{y}_{\\sigma(i)})

其中 $L_{match}$ 结合分类与 GIoU（Generalized Intersection over Union）损失。Mask2Former 统一实例分割、语义分割与全景分割，采用掩码分类（mask classification）范式，经注意力机制预测的掩码嵌入与像素嵌入点积生成最终掩码，多尺度可变形注意力（Deformable Attention）捕获高分辨率细节：

\\text{DeformAttn}(z_q, p_q, x) = \\sum_{m=1}\^M W_m \\left\[ \\sum_{k=1}\^K A_{mqk} \\cdot W'_m x(p_q + \\Delta p_{mqk}) \\right\]

其中 $p_q$ 为参考点， $\\Delta p_{mqk}$ 为学习偏移量， $A_{mqk}$ 为注意力权重。

4.3 三维视觉与几何理解

4.3.1 深度估计与立体视觉

4.3.1.1 单目深度估计

单目深度估计面临固有的尺度模糊性（scale ambiguity），神经网络学习从单张图像推断深度图 $Z(u,v)$ 。编码器-解码器架构结合跳跃连接融合多尺度特征，深度估计损失函数融合尺度不变对数误差、梯度平滑与法向一致性约束：

L = \\alpha \\sqrt{\\frac{1}{n} \\sum_i d_i\^2 - \\frac{\\lambda}{n\^2} (\\sum_i d_i)\^2} + \\beta \\frac{1}{n} \\sum_i (\|\\nabla_x d_i\| + \|\\nabla_y d_i\|) + \\gamma \\frac{1}{n} \\sum_i (1 - n_i\^T \\hat{n}_i)

其中 $d_i = \\log Z_i - \\log \\hat{Z}_i$ 为对数深度差异。基于 Transformer 的方法（如 DepthFormer）利用全局注意力捕获长程几何关系，结合卷积局部性保持边缘精度。

4.3.1.2 立体匹配算法

立体视觉通过双目视差计算深度，视差 $d$ 与深度 $Z$ 满足：

Z = \\frac{f \\cdot B}{d}

其中 $f$ 为焦距， $B$ 为基线距离。半全局匹配（Semi-Global Matching, SGM）通过像素级互信息成本与路径聚合优化能量函数：

E(D) = \\sum_p C(p, D_p) + \\sum_{q \\in N_p} P_1 \\mathbb{1}\[\|D_p - D_q\|=1\] + \\sum_{q \\in N_p} P_2 \\mathbb{1}\[\|D_p - D_q\|\>1\]

第一项为数据项（像素差异度），第二、三项为平滑项惩罚小与大视差跳变。深度学习立体匹配网络（如 PSMNet）通过 3D 卷积对代价体（cost volume）正则化，结合堆叠沙漏（stacked hourglass）结构细化视差图。

4.3.2 点云处理与 3D 检测

4.3.2.1 PointNet/PointNet++

PointNet 直接处理原始点云数据 $\\{x_1, x_2, \\dots, x_n\\}$ ，通过对称函数（symmetric function）解决点云无序性（permutation invariance）。共享多层感知机（MLP）独立处理每个点，最大池化（max pooling）聚合全局特征：

f(\\{x_1, \\dots, x_n\\}) \\approx g(\\max_{i=1,\\dots,n} \\{h(x_i)\\})

其中 $h$ 与 $g$ 为 MLP 近似函数。T-Net 学习输入与特征空间变换矩阵保证刚体变换不变性。PointNet++ 引入层次化特征学习，采样层（sampling）与分组层（grouping）构建点集嵌套结构，集合抽象（set abstraction）层聚合局部特征：

f(S) = \\max_{i=1,\\dots,n} \\{ \\text{MLP}(p_i - \\bar{p} \\oplus f_i) \\}

其中 $S$ 为局部点集， $\\bar{p}$ 为局部质心， $\\oplus$ 为拼接操作。

4.3.2.2 基于体素和图的方法

VoxelNet 将点云量化为规则 3D 体素网格，体素特征编码（Voxel Feature Encoding, VFE）层将非空体素内点特征聚合为固定维表示：

V_{ijk} = \\frac{1}{N_{ijk}} \\sum_{p \\in P_{ijk}} \[x_p, y_p, z_p, r_p, f_p\]\^T

3D 稀疏卷积提取体素特征后压缩至鸟瞰图（BEV）执行 2D 检测。Point-GNN 将点云建模为图 $G=(V,E)$ ，顶点为点特征，边由 k 近邻（k-NN）或半径邻域定义。图神经网络通过邻域聚合更新顶点特征：

h_i\^{(l+1)} = \\gamma\^{(l)} \\left( h_i\^{(l)}, \\square_{j \\in N(i)} \\phi\^{(l)} (h_i\^{(l)}, h_j\^{(l)}, e_{ij}) \\right)

其中 $\\square$ 为置换不变聚合算子（max/mean/sum）， $\\phi$ 与 $\\gamma$ 为 MLP。Point-GNN 引入自动对齐机制（auto-registration）与迭代箱合并（iterative box merging）提升定位精度。

4.4 视觉基础模型

4.4.1 SAM 与交互式分割

4.4.1.1 提示编码与掩码解码

Segment Anything Model（SAM）构建可提示（promptable）的分割系统，接受稀疏提示（点、框、文本）与密集提示（掩码）。图像编码器（Image Encoder）基于 Vision Transformer 提取图像嵌入，提示编码器（Prompt Encoder）将稀疏提示映射为位置编码与类型嵌入，密集提示经卷积下采样。轻量级掩码解码器（Mask Decoder）通过双向 Transformer（2 个块）融合图像与提示嵌入，预测三个掩码输出（整体、部分、子部分）以处理歧义性：

F_{\\text{fused}} = \\text{Transformer}(F_{\\text{image}}, F_{\\text{prompt}})

M_i = \\text{MLP}(F_{\\text{fused}}) \\odot F_{\\text{image}}, \\quad i \\in \\{1,2,3\\}

动态聚焦（dynamic focusing）机制通过迭代细化支持高分辨率预测。

4.4.1.2 零样本迁移能力

SAM 在海量多样化数据（SA-1B 数据集，1100 万张图像，10 亿掩码）上训练获得强泛化能力，无需针对特定域微调即可执行边缘检测、区域提议、实例分割与文本到掩码（通过 CLIP 文本编码器扩展）。提示工程使 SAM 适应多样化下游任务，如通过前景/背景点提示实现交互式分割，或结合目标检测器框提示实现自动实例分割。组合泛化能力支持未见对象类别与复杂场景的准确分割，体现基础模型的涌现特性。

4.4.2 DINO 与自监督特征

4.4.2.1 知识蒸馏框架

DINO（self-DIstillation with NO labels）通过自蒸馏学习视觉 Transformer 特征，无需标签数据。学生网络（Student）与动量教师网络（Teacher）架构相同，教师参数 $\\theta_t$ 为学生参数 $\\theta_s$ 的指数移动平均：

\\theta_t \\leftarrow \\lambda \\theta_t + (1-\\lambda) \\theta_s

输入图像经不同随机裁剪与增强生成全局与局部视图，学生处理所有视图，教师仅处理全局视图以避免信息泄露。蒸馏目标最小化学生输出 $P_s$ 与教师中心化输出 $P_t$ 的交叉熵：

\\min_{\\theta_s} E_{x_1, x_2} \[ H(P_{\\theta_t}(x_1), P_{\\theta_s}(x_2)) \]

中心化处理（centering）与锐化（sharpening）操作防止崩溃解（collapse solutions），Sinkhorn-Knopp 算法实现批次级标签分配。

4.4.2.2 视觉 Transformer 的涌现特性

DINO 训练的 Vision Transformer 展现显著涌现特性。自注意力图可视化揭示最后一层注意力聚焦于语义对象边界与部分，无需监督信号即学习对象分割（emergent segmentation）。特征空间呈现语义聚类结构，k-NN 分类器在 ImageNet 上达到 78.3% top-1 精度，证明自监督学习获得判别性表示。跨层特征分析表明，浅层捕获纹理与边缘，深层聚合语义对象，层次化表征与卷积网络类似但全局感受野增强长程依赖建模。自注意力头的专业化（specialization）现象，特定头关注位置信息、重复模式或语义类别，为理解视觉 Transformer 内部机制提供窗口。这些特性使 DINO 特征适用于零样本分类、图像检索与密集预测任务的预训练初始化。

第 4 章 视觉感知与场景理解