AI 术语通俗词典：CV（计算机视觉）

在人工智能的诸多分支中，CV（计算机视觉）是与人类感知能力最直接相关的领域之一。它的目标是让计算机像人眼和大脑一样，能够"看懂"图像和视频，从而实现识别、理解与决策。

一、术语定义

CV（Computer Vision，计算机视觉）是人工智能与图像处理、模式识别的交叉学科，研究如何让机器通过图像或视频来获取、处理、分析和理解环境信息。

CV 研究的核心问题是：

如何让计算机具备类似人类的视觉理解能力？

二、研究目标

计算机视觉的研究目标可以分为三个层次：

1、感知（Perception）：识别图像中的基本元素，如边缘、颜色、形状。

2、理解（Understanding）：识别和定位目标、检测动作、解析场景。

3、决策（Decision-making）：基于视觉输入进行推理或采取行动，例如自动驾驶中的刹车与转向。

示意图由 DALL-E 生成

类比理解：

计算机视觉就像给计算机装上了一双"眼睛"（摄像头）和一个"小脑袋"（算法模型），让它既能看得清（感知），又能看得懂（理解），最终能采取行动（决策）。

三、典型任务

1、图像分类（Image Classification）

判断图像属于哪一类。

例：猫 vs 狗，良性肿瘤 vs 恶性肿瘤。

2、目标检测（Object Detection）

不仅要识别类别，还要定位物体在图像中的位置。

例：自动驾驶识别"行人、车辆、红绿灯"。

3、图像分割（Segmentation）

将图像逐像素划分区域，识别边界和形状。

例：医学图像中分割出肿瘤区域。

4、姿态估计（Pose Estimation）

分析人体的关节点与动作。

例：健身辅助、动作捕捉。

5、视频理解（Video Understanding）

分析视频中的行为与事件。

例：识别"摔倒检测"、"运动动作识别"。

6、图像生成与修复（Image Generation & Restoration）

结合生成式模型，修复破损图像、生成虚拟场景。

四、技术演进

1、传统方法（1960s ~ 2010s 初）

基于特征工程：边缘检测（Canny）、SIFT、HOG 等。

局限：需要人工设计特征，泛化能力有限。

2、深度学习时代（2012 ~）

2012 年，AlexNet 在 ImageNet 挑战赛上取得重大突破，Top-5 错误率降至 15.3%（此前约为 26.2%）。

CNN（卷积神经网络）成为图像识别核心工具。

ResNet、EfficientNet 等进一步提升准确率和计算效率。

3、多模态与 Transformer（2017 ~）

Transformer 架构引入 CV：Vision Transformer（ViT）。

优势：能捕捉长距离依赖，适合统一处理图像与文本。

代表成果：CLIP（图文对齐模型）、SAM（Segment Anything Model, 分割任意模型）。

五、CV 与其他领域的关系

1、与 NLP（自然语言处理）结合：多模态 AI，如图文检索、图生文、文生图。

2、与 Robotics（机器人学）结合：视觉导航、机械臂抓取。

3、与医学结合：医疗影像诊断与手术辅助。

可以说，CV 是 AI 与现实世界之间的"眼睛"，为自动化和智能化社会提供基础支撑。

六、挑战与问题

1、数据依赖：训练需要大量标注图像，成本高。

2、鲁棒性不足：在光照、角度、遮挡等变化下易出错。

3、隐私与伦理：人脸识别、大规模监控引发社会担忧。

4、泛化问题：在新环境中表现可能下降，需要更强的迁移学习能力。

📘 小结

定义：计算机视觉（CV）让机器具备"看"的能力。

目标：感知、理解、决策，模仿人类视觉。

任务：分类、检测、分割、姿态估计、视频理解、生成修复。

发展：从特征工程 → 深度学习 CNN → Transformer 与多模态。

意义：CV 是人工智能连接真实世界的重要入口，广泛应用于医疗、交通、安全、娱乐等领域。

可以说，没有计算机视觉，就很难谈及自动驾驶、智慧医疗与智能安防的落地。

"点赞有美意，赞赏是鼓励"