人工智能100问☞第33问：什么是计算机视觉？

计算机视觉就是让计算机拥有"看"和"理解"图像与视频的能力，就像人类用眼睛和大脑感知世界一样。

想象你有一双眼睛，但如果你不大脑分析，只看到一堆光和颜色，是不是就像看不懂？计算机视觉就是在教会"电脑的眼睛"看懂照片和视频里的内容，让它能识别、理解甚至分析图像。

比如：

你拍张自拍，手机能识别人脸对焦；

相册会自动分类"人""风景""动物"；

无人车能看到红灯、识别行人；

这背后全靠的是计算机视觉。

通俗总结一句话：计算机视觉就是让电脑学会"看图说话"，从图像和视频中看懂这个世界。

计算机视觉（Computer Vision）是人工智能的一个重要分支，旨在赋予计算机"视觉能力"，使其能够从图像或视频中感知、理解、分析甚至推理现实世界的信息。其核心目标是实现对视觉内容的自动化认知，类似于人类通过眼睛和大脑处理视觉信息的过程。

1、核心任务：

图像分类（Image Classification）：判断图像属于哪个类别（如猫/狗/车）。

目标检测（Object Detection）：找出图像中所有的物体并标注位置。

图像分割（Segmentation）：像素级别划分图像中不同区域。

姿态估计、三维重建、图像生成等更复杂的高级任务。

2、技术基础：

卷积神经网络（CNN）是最核心的技术之一；

辅以深度学习、边缘检测、特征提取等图像处理技术；

近年来视觉Transformer、多模态学习等也日益重要。

3、应用领域：

安防监控（人脸识别）

医疗诊断（医学影像分析）

智能制造（缺陷检测）

自动驾驶（车道线、行人、交通标识识别）

零售（智能结算、客流分析）等。

1 、ISO/IEC 23053:2022 （国际标准）

计算机视觉是一种通过修改预先训练模型来执行不同相关任务的技术，旨在利用源领域的知识减少目标领域的数据需求和计算成本。

2 、北京智源研究院（2023 ）

计算机视觉通过预训练模型的通用特征提取能力（如BERT、VGG），将自然语言处理或计算机视觉中的知识迁移到下游任务中，实现少样本学习（Few-shot Learning）。

3 、OpenCV （2024 ）

计算机视觉或机器视觉是人工智能的一个子领域，它有助于机器和计算机系统从数字图像、视频和其他视觉数据中获取有价值的信息。