课程提纲：计算机视觉——从原理解析到产业落地

计算机视觉是一门研究如何使机器"看"的科学，即用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

在计算机中，图像被表示为矩阵（Matrix）或张量（Tensor）。

对于一张高为 HHH、宽为 WWW 的彩色图像，通常表示为 H×W×3H \times W \times 3H×W×3 的张量（RGB三通道）。

I∈RH×W×C I \in \mathbb{R}^{H \times W \times C} I∈RH×W×C

其中像素值通常归一化到 [0,1][0, 1][0,1] 或 [0,255][0, 255][0,255] 区间。

在深度学习爆发前，CV 依赖手工特征（Hand-crafted Features）。

卷积与滤波 ：利用卷积核（Kernel）提取边缘、模糊或锐化图像。

二维离散卷积公式：
S(i,j)=(I∗K)(i,j)=∑m∑nI(i−m,j−n)K(m,n) S(i, j) = (I * K)(i, j) = \sum_{m} \sum_{n} I(i-m, j-n) K(m, n) S(i,j)=(I∗K)(i,j)=m∑n∑I(i−m,j−n)K(m,n)
特征描述子：SIFT (Scale-Invariant Feature Transform)、HOG (Histogram of Oriented Gradients)、ORB。这些算法用于寻找图像中的关键点，具有旋转和尺度不变性。

CNN 是现代 CV 的基石，具有局部感知（Local Connectivity）和权值共享（Weight Sharing）的特性。

卷积层 (Convolution Layer)：提取特征。
激活函数 (Activation Function) ：引入非线性。最常用的是 ReLU：
f(x)=max⁡(0,x) f(x) = \max(0, x) f(x)=max(0,x)
池化层 (Pooling Layer)：下采样，减少参数，扩大感受野（Receptive Field）。
经典架构演进：
- LeNet-5：CNN 鼻祖。
- AlexNet：深度学习爆发点，引入 GPU 训练和 Dropout。
- ResNet (残差网络) ：解决了深层网络梯度消失问题。核心公式为残差连接：
  y=F(x,{Wi})+x y = F(x, \{W_i\}) + x y=F(x,{Wi})+x
  
  其中 F(x)F(x)F(x) 是残差映射，xxx 是恒等映射。

近年来，NLP 领域的 Transformer 架构被引入 CV。

Patch Embedding ：将图像切分为 16×1616 \times 1616×16 的小块（Patches），展平后作为序列输入。
自注意力机制 (Self-Attention) ：捕捉全局依赖关系。
Attention(Q,K,V)=softmax(QKTdk)V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk QKT)V

其中 QQQ (Query), KKK (Key), VVV (Value) 均由输入特征线性变换而来。

定义：判断图像中主要物体的类别。
损失函数 ：交叉熵损失（Cross Entropy Loss）。
L=−∑c=1Myo,clog⁡(po,c) L = -\sum_{c=1}^{M} y_{o,c} \log(p_{o,c}) L=−c=1∑Myo,clog(po,c)
SOTA 模型：EfficientNet, ViT, ConvNeXt.

定义：不仅要分类，还要定位物体的位置（Bounding Box）。
技术流派：
1. Two-Stage (两阶段) ：先生成候选框，再分类与回归。代表作：Faster R-CNN。
2. One-Stage (单阶段) ：端到端直接预测。代表作：YOLO (You Only Look Once) 系列, SSD。
评估指标 ：IoU (Intersection over Union) 和 mAP (mean Average Precision)。
IoU=Area of OverlapArea of Union \text{IoU} = \frac{\text{Area of Overlap}}{\text{Area of Union}} IoU=Area of UnionArea of Overlap

语义分割 (Semantic Segmentation) ：像素级分类，不区分同类个体。
- 经典架构：U-Net（Encoder-Decoder 结构，广泛用于医疗影像）。
实例分割 (Instance Segmentation) ：区分同类中的不同个体。
- 经典架构：Mask R-CNN。

人脸识别 ：人脸检测 -> 关键点对齐 -> 特征提取 -> 向量比对。
- 损失函数进化：Softmax -> Center Loss -> ArcFace (基于角度的余弦距离)。
行人重识别 (ReID)：跨摄像头追踪特定目标。
行为分析：跌倒检测、打架识别、人群密度估计。

CV 项目 80% 的时间在处理数据。

数据标注：LabelMe, CVAT 等工具。
数据增强 (Data Augmentation)：几何变换（旋转、翻转）、颜色变换、Mixup、Mosaic（YOLOv4 引入）。目的是提高模型泛化能力。

模型训练通常在 PyTorch/TensorFlow 上，但落地需要转换。

中间格式：ONNX (Open Neural Network Exchange)。
推理引擎 ：
- NVIDIA TensorRT：GPU 端极致加速（层融合、精度量化 FP16/INT8）。
- OpenVINO：Intel CPU 端加速。
- NCNN/TNN：移动端（Android/iOS）部署。
量化 (Quantization)：将模型从 FP32 压缩到 INT8，体积减小 4 倍，速度提升，精度略损。