计算机视觉(CV)

一、CV是什么?

计算机视觉是让计算机"看懂"世界的学科,核心是从图像或视频中提取、理解和重构有用信息。它不仅是识别"是什么",更是理解"在哪里"、"在做什么"和"为什么"。


二、CV的五大核心任务

任务 解决的问题 典型应用
图像分类 这张图里有什么?(全局标签) 内容审核、相册自动归类
目标检测 哪里有某类物体?(框出位置) 自动驾驶车辆检测、安防监控
语义分割 每个像素属于哪类?(像素级分类) 医学影像分析、遥感地物识别
实例分割 区分同一类别的不同个体 自动驾驶多目标追踪、工业质检
关键点检测 检测特定结构点(如人体关节) 动作识别、AR特效、姿态估计

除此之外,还包括图像生成 (扩散模型)、图像超分/修复3D视觉 (深度估计、点云处理)和多模态理解(图文匹配)等重要方向。


三、技术演进:三大范式转换

1. 传统时代(2012年前)
  • 手工特征 + 浅层分类器:如SIFT、HOG特征配合SVM。

  • 局限:泛化差,依赖专家经验,无法应对复杂场景。

2. 深度学习时代(2012---2020)
  • 标志:AlexNet在ImageNet夺冠,开启CNN时代。

  • 经典架构

    • ResNet:残差连接,让网络可超深(152层),至今仍是骨干网络首选。

    • UNet:编码-解码结构,医学图像分割的基石。

  • 里程碑:2015年ResNet在ImageNet上超越人类识别水平。

3. Transformer + 大模型时代(2020至今)
  • ViT(Vision Transformer):将图像拆成"Patch序列",用自注意力机制建模全局关系,取代CNN的局部感受野。

  • 多模态大模型:如CLIP(图文对齐)、SAM(分割一切)、Sora(视频生成)。

  • 趋势:从"专用小模型"走向"基础模型 + 微调",像GPT-4V、Gemini已具备通用视觉理解能力。


四、关键技术概念速查

  • 卷积核:在图像上滑动的特征提取器,相当于"局部模板匹配"。

  • 池化:降采样操作,减少计算量并增强平移不变性。

  • 特征金字塔(FPN):融合多尺度特征,解决小目标检测难题。

  • 注意力机制:让模型聚焦于图像中最相关的区域,解释性更强。

  • 数据增强:旋转、裁剪、色彩抖动等,是提升泛化最有效的手段之一。

  • 迁移学习:在ImageNet等大数据集上预训练,再在下游任务上微调,几乎成为标配。


五、典型应用场景与落地挑战

✅ 已成熟落地
  • 人脸识别(支付/门禁)------误差率已低于万分之一。

  • OCR文字识别(文档扫描/车牌)------端到端识别准确率超99%。

  • 工业质检(表面缺陷检测)------替代人眼,速度提升数十倍。

  • 医疗影像辅助诊断(肺结节/眼底筛查)------部分场景达专家级水平。

⚠️ 仍在突破中
  • 自动驾驶感知(极端天气、夜间、罕见场景)------长尾问题仍是核心瓶颈。

  • 具身智能(机器人操作)------需要结合力觉、触觉和物理常识推理。

  • 视频理解与推理(理解动作因果链)------远超单帧图像难度。

常见落地痛点
  • 数据标注成本高(尤其分割和3D标注)。

  • 域迁移(训练集是白天晴天,测试遇雨雪雾天则性能骤降)。

  • 对抗攻击(轻微像素扰动即可让模型误判)。

  • 推理延迟(大模型在边缘设备上的部署优化)。


六、学习路线建议(分阶段)

阶段 重点内容 推荐资源
入门 Python + 图像基础(OpenCV) + 机器学习基础 斯坦福CS231n(经典课程)、OpenCV官方教程
进阶 PyTorch实现CNN/ResNet/UNet,跑通检测和分割 李沐《动手学深度学习》、MMDetection/YOLO源码
深入 Transformer(ViT/DETR)、多模态、生成模型 原论文 + HuggingFace实战、周志华《机器学习》补充理论
前沿 跟随顶会(CVPR/ICCV/ECCV)、复现SOTA模型 Papers with Code、GitHub Trending

避坑建议:不要一上来就调参,先手推一遍BP和卷积计算;优先跑通完整项目(如用YOLO训练自己的数据集),比看十本书更有效。


七、未来5年关键趋势

  1. 大模型"大一统":一个基础模型同时处理检测、分割、生成、问答。

  2. 世界模型:让AI理解物理规律(重力、碰撞、遮挡),不止于统计模式。

  3. 数据高效学习:少样本/零样本、自监督学习成为主流。

  4. 神经渲染 + 3D:NeRF、3D高斯泼溅将重塑AR/VR和数字人。

  5. 边缘端智能:专用AI芯片 + 模型量化剪枝,让CV无处不在。

  6. 具身智能:CV成为机器人"眼睛",结合大语言模型实现任务规划。


八、一句话总结

计算机视觉正从"看见"走向"看懂"和"预判",核心驱动力是模型架构的持续进化和数据规模的量级突破。 未来,它将与语言、机器人、物理模拟深度融合,成为通用人工智能(AGI)的关键感知底座。