计算机视觉核心任务

1. 计算机视频重要分类

计算机视觉的重要任务可以大致分为以下几类:

1. 图像分类(Image Classification)

识别图像属于哪个类别,例如猫、狗、汽车等。

  • 应用场景:物品识别、人脸识别、医疗影像分类。
  • 代表模型:ResNet、EfficientNet、ViT(Vision Transformer)。

2. 目标检测(Object Detection)

识别图像中目标的位置(边界框)及类别。

  • 应用场景:自动驾驶、安防监控、人流统计。
  • 代表模型:Faster R-CNN、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)。

3. 语义分割(Semantic Segmentation)

对图像中的每个像素进行分类,区分不同物体类别。

  • 应用场景:医学影像分析(病灶检测)、自动驾驶(车道识别)。
  • 代表模型:U-Net、DeepLabV3+、SegFormer。

4. 实例分割(Instance Segmentation)

类似语义分割,但能够区分同类别不同实例的像素区域。

  • 应用场景:自动驾驶(车辆、人等实例级分割)、工业检测。
  • 代表模型:Mask R-CNN、YOLACT、CondInst。

5. 姿态估计(Pose Estimation)

检测人体、动物或物体的关键点(关节点、骨架等)。

  • 应用场景:行为分析、运动捕捉、AR(增强现实)。
  • 代表模型:OpenPose、HRNet、DETR。

6. 目标跟踪(Object Tracking)

在视频序列中跟踪目标的轨迹。

  • 应用场景:无人机跟踪、视频监控、运动分析。
  • 代表模型:SiamRPN、SORT、DeepSORT。

7. 光流估计(Optical Flow Estimation)

计算图像像素点的运动矢量场,用于运动分析。

  • 应用场景:视频稳定、动作检测、自动驾驶。
  • 代表模型:RAFT、PWC-Net、FlowNet2.0。

8. 三维重建(3D Reconstruction)

从 2D 图像或点云恢复 3D 结构。

  • 应用场景:SLAM(同时定位与建图)、AR/VR、医学成像。
  • 代表模型:Colmap、NeRF(神经辐射场)、MonoDepth。

9. 超分辨率(Super Resolution)

提升图像分辨率,使低质量图像变得清晰。

  • 应用场景:医学影像增强、老照片修复、视频增强。
  • 代表模型:ESRGAN、SRGAN、SwinIR。

10. 图像去噪(Image Denoising)

去除图像中的噪声,提高清晰度。

  • 应用场景:遥感影像处理、夜间摄影增强。
  • 代表模型:DnCNN、BM3D、Noise2Noise。

11. 生成对抗网络(GANs)

生成高质量的图像、风格迁移等。

  • 应用场景:AI 绘画、图像风格化、深度伪造(Deepfake)。
  • 代表模型:StyleGAN、CycleGAN、BigGAN。

12. 图像/视频理解(Image/Video Understanding)

对图像或视频的内容进行高层次分析。

  • 应用场景:智能监控、自动驾驶、视频摘要。
  • 代表模型:CLIP、SlowFast、TimeSformer。

2. 图像分类 vs. 目标检测

对比维度 图像分类(Image Classification) 目标检测(Object Detection)
任务定义 识别整幅图像的类别 识别图像中所有目标的位置和类别
输出结果 单个类别标签 多个类别标签 + 目标的边界框(Bounding Box)
输入数据 单张图像 单张图像(含多个目标)
难度 相对较低 较高,需要额外的目标定位
计算复杂度 高(涉及回归和分类任务)
核心技术 卷积神经网络(CNN)、ViT CNN + 回归网络(YOLO、Faster R-CNN 等)
核心特点 * 仅关注全局特征,不关心目标位置 * 计算量较小,适合移动端和实时应用 * 需要定位多个目标 * 计算复杂度高,对硬件要求高
主要方法 * 经典CNN架构(AlexNet、VGG、ResNet) * 轻量级模型(MobileNet、EfficientNet) * 视觉Transformer(ViT、Swin Transformer) * 单阶段(One-Stage):YOLO、SSD(速度快) * 两阶段(Two-Stage):Faster R-CNN(精度高) * 基于Transformer:DETR(无需Anchor,端到端)
应用场景 图像检索、人脸识别、医学影像分类 自动驾驶、人群统计、工业检测

3.目标检测与图像分割、语义分割、实例分割

|----------|----------------------------|---------------------------------|---------------------------------|
| 对比维度 | 目标检测(Object Detection) | 语义分割(Semantic Segmentation) | 实例分割(Instance Segmentation) |
| 任务定义 | 识别目标并画出边界框(Bounding Box) | 识别每个像素的类别 | 识别每个像素的类别,并区分同类别的不同实例 |
| 输出结果 | 目标类别 + 目标位置(矩形框) | 每个像素的类别掩码(Mask) | 每个像素的类别掩码 + 不同实例的分割 |
| 关注点 | 物体的整体位置 | 物体的精确边界 | 物体的精确边界 + 实例区分 |
| 计算复杂度 | 中 | 高 | 更高 |
| 模型架构 | YOLO、Faster R-CNN、SSD | FCN、DeepLabV3+、U-Net | Mask R-CNN、YOLACT、CondInst |
| 适用场景 | 自动驾驶、监控、人脸检测 | 医学影像、卫星遥感、环境分析 | 自动驾驶、实例级目标识别、工业检测 |

4. 目标检测与目标跟踪

对比维度 目标检测(Object Detection) 目标跟踪(Object Tracking)
任务定义 在图像中识别目标并定位(Bounding Box) 在视频中跟踪同一目标的运动轨迹
输入数据 单张图像或视频帧 连续的视频帧
输出结果 目标类别 + 目标边界框 目标 ID + 目标边界框(跨帧一致)
核心技术 CNN、区域提议(RPN)、Anchor 目标检测 + 相关性计算(如光流、匹配)
计算复杂度 较高(每帧都需重新检测) 低(仅在关键帧检测,其他帧追踪)
适用场景 自动驾驶、安防监控、工业检测 运动分析、无人机跟踪、视频监控
代表模型 YOLO、Faster R-CNN、SSD SORT、DeepSORT、SiamRPN、ByteTrack
相关推荐
头发够用的程序员1 小时前
Ultralytics 代码库深度解读【六】:数据加载机制深度解析
人工智能·pytorch·python·深度学习·yolo·边缘计算·模型部署
X_Cosmic2 小时前
从零开始:YOLO11 训练 DOTA OBB 遥感数据旋转框目标检测
python·yolo·目标检测
棒棒的皮皮2 小时前
【深度学习】YOLO模型精度优化全攻略
人工智能·深度学习·yolo·计算机视觉
棒棒的皮皮4 小时前
【深度学习】YOLO实战之模型训练
人工智能·深度学习·yolo·计算机视觉
数据光子4 小时前
【YOLO数据集】遛狗未牵绳目标检测
人工智能·python·yolo·目标检测·计算机视觉
kisshuan123966 小时前
基于YOLOv5的熊猫个体识别与分类系统_2
yolo·计算机视觉·分类
duyinbi75176 小时前
油茶果壳籽质量分类检测:基于YOLOv8-NMSFree的创新方案_1
yolo·分类·数据挖掘
WJSKad12357 小时前
如何构建yolov8-seg-bifpn污水管道分类系统 空管道_污水管道_水管三种类型识别_1
yolo·分类·数据挖掘
棒棒的皮皮20 小时前
【深度学习】YOLO模型评估之指标、可视化曲线分析
人工智能·深度学习·yolo·计算机视觉
MF_AI21 小时前
大型烟雾火灾检测识别数据集:25w+图像,2类,yolo标注
图像处理·人工智能·深度学习·yolo·计算机视觉