一、CV是什么?
计算机视觉是让计算机"看懂"世界的学科,核心是从图像或视频中提取、理解和重构有用信息。它不仅是识别"是什么",更是理解"在哪里"、"在做什么"和"为什么"。
二、CV的五大核心任务
| 任务 | 解决的问题 | 典型应用 |
|---|---|---|
| 图像分类 | 这张图里有什么?(全局标签) | 内容审核、相册自动归类 |
| 目标检测 | 哪里有某类物体?(框出位置) | 自动驾驶车辆检测、安防监控 |
| 语义分割 | 每个像素属于哪类?(像素级分类) | 医学影像分析、遥感地物识别 |
| 实例分割 | 区分同一类别的不同个体 | 自动驾驶多目标追踪、工业质检 |
| 关键点检测 | 检测特定结构点(如人体关节) | 动作识别、AR特效、姿态估计 |
除此之外,还包括图像生成 (扩散模型)、图像超分/修复 、3D视觉 (深度估计、点云处理)和多模态理解(图文匹配)等重要方向。
三、技术演进:三大范式转换
1. 传统时代(2012年前)
-
手工特征 + 浅层分类器:如SIFT、HOG特征配合SVM。
-
局限:泛化差,依赖专家经验,无法应对复杂场景。
2. 深度学习时代(2012---2020)
-
标志:AlexNet在ImageNet夺冠,开启CNN时代。
-
经典架构:
-
ResNet:残差连接,让网络可超深(152层),至今仍是骨干网络首选。
-
UNet:编码-解码结构,医学图像分割的基石。
-
-
里程碑:2015年ResNet在ImageNet上超越人类识别水平。
3. Transformer + 大模型时代(2020至今)
-
ViT(Vision Transformer):将图像拆成"Patch序列",用自注意力机制建模全局关系,取代CNN的局部感受野。
-
多模态大模型:如CLIP(图文对齐)、SAM(分割一切)、Sora(视频生成)。
-
趋势:从"专用小模型"走向"基础模型 + 微调",像GPT-4V、Gemini已具备通用视觉理解能力。
四、关键技术概念速查
-
卷积核:在图像上滑动的特征提取器,相当于"局部模板匹配"。
-
池化:降采样操作,减少计算量并增强平移不变性。
-
特征金字塔(FPN):融合多尺度特征,解决小目标检测难题。
-
注意力机制:让模型聚焦于图像中最相关的区域,解释性更强。
-
数据增强:旋转、裁剪、色彩抖动等,是提升泛化最有效的手段之一。
-
迁移学习:在ImageNet等大数据集上预训练,再在下游任务上微调,几乎成为标配。
五、典型应用场景与落地挑战
✅ 已成熟落地
-
人脸识别(支付/门禁)------误差率已低于万分之一。
-
OCR文字识别(文档扫描/车牌)------端到端识别准确率超99%。
-
工业质检(表面缺陷检测)------替代人眼,速度提升数十倍。
-
医疗影像辅助诊断(肺结节/眼底筛查)------部分场景达专家级水平。
⚠️ 仍在突破中
-
自动驾驶感知(极端天气、夜间、罕见场景)------长尾问题仍是核心瓶颈。
-
具身智能(机器人操作)------需要结合力觉、触觉和物理常识推理。
-
视频理解与推理(理解动作因果链)------远超单帧图像难度。
常见落地痛点
-
数据标注成本高(尤其分割和3D标注)。
-
域迁移(训练集是白天晴天,测试遇雨雪雾天则性能骤降)。
-
对抗攻击(轻微像素扰动即可让模型误判)。
-
推理延迟(大模型在边缘设备上的部署优化)。
六、学习路线建议(分阶段)
| 阶段 | 重点内容 | 推荐资源 |
|---|---|---|
| 入门 | Python + 图像基础(OpenCV) + 机器学习基础 | 斯坦福CS231n(经典课程)、OpenCV官方教程 |
| 进阶 | PyTorch实现CNN/ResNet/UNet,跑通检测和分割 | 李沐《动手学深度学习》、MMDetection/YOLO源码 |
| 深入 | Transformer(ViT/DETR)、多模态、生成模型 | 原论文 + HuggingFace实战、周志华《机器学习》补充理论 |
| 前沿 | 跟随顶会(CVPR/ICCV/ECCV)、复现SOTA模型 | Papers with Code、GitHub Trending |
避坑建议:不要一上来就调参,先手推一遍BP和卷积计算;优先跑通完整项目(如用YOLO训练自己的数据集),比看十本书更有效。
七、未来5年关键趋势
-
大模型"大一统":一个基础模型同时处理检测、分割、生成、问答。
-
世界模型:让AI理解物理规律(重力、碰撞、遮挡),不止于统计模式。
-
数据高效学习:少样本/零样本、自监督学习成为主流。
-
神经渲染 + 3D:NeRF、3D高斯泼溅将重塑AR/VR和数字人。
-
边缘端智能:专用AI芯片 + 模型量化剪枝,让CV无处不在。
-
具身智能:CV成为机器人"眼睛",结合大语言模型实现任务规划。
八、一句话总结
计算机视觉正从"看见"走向"看懂"和"预判",核心驱动力是模型架构的持续进化和数据规模的量级突破。 未来,它将与语言、机器人、物理模拟深度融合,成为通用人工智能(AGI)的关键感知底座。