了解视频分类任务与数据集——从数据组织到时空建模的完整认知

目录

一、前言

二、什么是视频分类任务

(一)基本定义

(二)输入输出形式

(三)任务特点

[三、视频分类 vs 图像分类](#三、视频分类 vs 图像分类)

四、视频数据的结构

(一)基本结构

(二)张量形式

(三)关键点

五、视频分类任务类型

(一)单标签分类

(二)多标签分类

(三)细粒度分类

(四)时序动作识别(扩展)

六、视频分类任务流程

(一)整体流程

(二)关键步骤

七、视频数据预处理

(一)帧采样策略

1、均匀采样

2、随机采样

3、密集采样

(二)帧数统一

(三)常见预处理

八、视频分类主流模型

[(一)2D CNN + LSTM](#(一)2D CNN + LSTM)

[(二)3D CNN](#(二)3D CNN)

(三)C3D

(四)I3D

(五)SlowFast

(六)Transformer类模型

九、视频分类常见数据集

十、UCF101数据集

(一)简介

(二)特点

(三)类别示例

十一、HMDB51数据集

(一)特点

(二)类别

[十二、Kinetics-400 / 600 / 700](#十二、Kinetics-400 / 600 / 700)

(一)简介

(二)特点

(三)重要性

[十三、Something-Something V2](#十三、Something-Something V2)

(一)特点

(二)示例

(三)优势

十四、数据集对比

十五、视频分类评价指标

[(一)Top-1 Accuracy](#(一)Top-1 Accuracy)

[(二)Top-5 Accuracy](#(二)Top-5 Accuracy)

[(三)Mean Accuracy](#(三)Mean Accuracy)

十六、视频分类难点

(一)时间建模复杂

(二)计算成本高

(三)数据标注昂贵

(四)背景干扰

十七、视频分类应用场景

(一)安防监控

(二)自动驾驶

(三)内容推荐

(四)医疗分析

十八、视频分类流程总结

十九、总结


一、前言

在计算机视觉中,视频理解是比图像理解更进一步的任务。

如果说图像分类是:

复制代码
识别"这一张图是什么"

那么视频分类就是:

复制代码
识别"一段视频在做什么"

视频不再是静态信息,而是:

  • 空间信息(每一帧画面)

  • 时间信息(帧与帧之间变化)

因此视频分类任务本质是:

复制代码
时空联合建模问题

二、什么是视频分类任务

(一)基本定义

视频分类任务是:

复制代码
对一段视频整体进行类别预测的任务

(二)输入输出形式

  • 输入:视频(连续帧)

  • 输出:类别标签

例如:

视频内容 类别
打篮球 sports
做饭 cooking
开车 driving

(三)任务特点

复制代码
一个标签对应一段时序数据

三、视频分类 vs 图像分类

对比项 图像分类 视频分类
输入 单张图像 多帧序列
信息 空间 空间 + 时间
难度
模型 CNN 3D CNN / Transformer

四、视频数据的结构

(一)基本结构

复制代码
Video = Frame1 + Frame2 + ... + FrameN

(二)张量形式

常见表示:

复制代码
(B, T, C, H, W)

含义:

  • B:batch size

  • T:时间帧数

  • C:通道

  • H:高度

  • W:宽度


(三)关键点

复制代码
时间维度是视频任务的核心

五、视频分类任务类型

(一)单标签分类

复制代码
一个视频 → 一个类别

例如:

  • UCF101数据集

(二)多标签分类

复制代码
一个视频 → 多个动作标签

例如:

  • 人同时走路+说话

(三)细粒度分类

  • 相似动作区分

  • 如:慢跑 vs 快跑


(四)时序动作识别(扩展)

  • 检测动作发生时间段

六、视频分类任务流程

(一)整体流程

复制代码
视频输入
   ↓
帧采样
   ↓
特征提取
   ↓
时空建模
   ↓
分类器
   ↓
输出标签

(二)关键步骤

  • 帧采样(Sampling)

  • 时空特征建模

  • 分类头


七、视频数据预处理

(一)帧采样策略

1、均匀采样

复制代码
每隔固定帧取一帧

2、随机采样

用于训练增强


3、密集采样

用于高精度任务


(二)帧数统一

复制代码
不同视频长度 → 统一T帧

(三)常见预处理

  • Resize

  • Normalize

  • Crop

  • Flip


八、视频分类主流模型

(一)2D CNN + LSTM

复制代码
CNN提特征 + LSTM建模时间

(二)3D CNN

复制代码
直接时空卷积

(三)C3D

  • 经典3D CNN

(四)I3D

  • 2D CNN扩展为3D CNN

(五)SlowFast

复制代码
双速率时序建模

(六)Transformer类模型

  • Video Transformer

  • TimeSformer


九、视频分类常见数据集


十、UCF101数据集

(一)简介

复制代码
最经典的视频动作识别数据集之一

(二)特点

  • 101类动作

  • 13,000+视频

  • 来自YouTube


(三)类别示例

  • Basketball

  • Diving

  • Cooking


十一、HMDB51数据集

(一)特点

复制代码
更小但更复杂

(二)类别

  • 51类动作

  • 人体动作更细粒度


十二、Kinetics-400 / 600 / 700

(一)简介

复制代码
Google推出的大规模视频数据集

(二)特点

  • 400+类别

  • 超过30万视频

  • 真实场景


(三)重要性

复制代码
视频分类领域ImageNet级别数据集

十三、Something-Something V2

(一)特点

复制代码
强调动作与物体交互

(二)示例

  • "push something"

  • "open something"


(三)优势

  • 强时间依赖

  • 弱空间依赖


十四、数据集对比

数据集 规模 特点
UCF101 基础动作
HMDB51 复杂动作
Kinetics 真实场景
Something-Something 时序交互

十五、视频分类评价指标


(一)Top-1 Accuracy

Accuracy=\frac{Correct}{Total}


(二)Top-5 Accuracy

复制代码
预测前5中包含正确类别

(三)Mean Accuracy

多类别平均精度


十六、视频分类难点


(一)时间建模复杂

复制代码
动作是连续变化的

(二)计算成本高

视频数据量巨大


(三)数据标注昂贵

需要人工标注整段视频


(四)背景干扰

复杂场景影响识别


十七、视频分类应用场景


(一)安防监控

  • 异常行为检测

  • 人群分析


(二)自动驾驶

  • 行人行为预测

  • 车辆动作识别


(三)内容推荐

  • 短视频标签分类

  • 内容审核


(四)医疗分析

  • 手术动作识别

十八、视频分类流程总结

复制代码
Video Input
   ↓
Frame Sampling
   ↓
Feature Extraction (CNN)
   ↓
Temporal Modeling (3D CNN / Transformer)
   ↓
Classification Head
   ↓
Output Label

十九、总结

视频分类任务是计算机视觉中从"图像理解"迈向"时空理解"的重要一步,它需要模型同时理解空间结构与时间变化,因此比图像分类复杂得多。

本文系统讲解了:

1、视频分类任务定义;

2、与图像分类区别;

3、数据结构;

4、预处理流程;

5、主流模型;

6、经典数据集(UCF101、HMDB51、Kinetics等);

7、评价指标;

8、应用场景;

9、核心挑战;

10、整体流程。

可以将视频分类理解为:

"一种基于时序帧数据进行全局语义判断的视觉任务,是连接图像理解与视频理解的基础核心问题。"

掌握视频分类,就是掌握时空视觉任务的起点。