VisDrone2019-DET 无人机小目标检测数据集

一、数据集概览

VisDrone 是由天津大学机器学习与数据挖掘实验室 AISKYEYE 团队发布的大规模无人机视角目标检测基准数据集,对应 ICCV 2019 的 "Vision Meets Drone" 挑战赛。

1.1 数据规模

子集 图像数量 说明
训练集 (train) 6,471 张 用于模型训练
验证集 (val) 548 张 用于超参数调优与模型选择
测试集 (test-dev) 1,610 张 含标注,可进行论文实验与结果发布
  • 总标注框数量:超过 260 万个边界框

  • 图像来源:288 个视频片段 + 10,209 张静态图像

1.2 采集特点

  • 地理位置:中国 14 个不同城市,相距数千公里

  • 场景类型:城市、乡村等多种环境

  • 目标对象:行人、车辆、自行车等交通相关目标

  • 密度分布:稀疏场景与拥挤场景均有覆盖

  • 采集条件:多种无人机平台、不同天气与光照条件

  • 数据多样性:有利于提升模型泛化能力


二、目标类别

数据集包含 10 个预定义类别,如下表所示:

类别ID 英文名称 中文名称
0 pedestrian 行人
1 people 人群
2 bicycle 自行车
3 car 小汽车
4 van 面包车
5 truck 卡车
6 tricycle 三轮车
7 awning-tricycle 带篷三轮车
8 bus 公交车
9 motor 摩托车

三、目录结构

复制代码
dataset_visdrone/
├── data.yaml                    # YOLO 数据集配置文件
├── VisDrone2019-DET-train/      # 训练集
│   ├── images/                  # 训练图像
│   └── labels/                  # 训练标签 (YOLO格式)
├── VisDrone2019-DET-val/        # 验证集
│   ├── images/                  # 验证图像
│   └── labels/                  # 验证标签
└── VisDrone2019-DET-test-dev/   # 测试集
    ├── images/                  # 测试图像
    └── labels/                  # 测试标签

四、标注格式

4.1 YOLO 格式说明

本数据集已转换为 YOLO 标准格式 。每个图像对应一个同名的 .txt 标签文件,每行代表一个目标:

复制代码
<class_id> <x_center> <y_center> <width> <height>
字段 含义 取值范围
class_id 类别ID 0~9
x_center 边界框中心 x 坐标(归一化) [0, 1]
y_center 边界框中心 y 坐标(归一化) [0, 1]
width 边界框宽度(归一化) [0, 1]
height 边界框高度(归一化) [0, 1]

坐标均为相对图像尺寸的归一化值。

4.2 标注示例

复制代码
3 0.026429 0.956190 0.052857 0.074286   # car - 小汽车
8 0.982143 0.737619 0.035714 0.075238   # bus - 公交车
0 0.208929 0.655714 0.007857 0.025714   # pedestrian - 行人(小目标)

五、小目标特性

VisDrone 数据集非常适合小目标检测研究,具有以下典型特点:

5.1 目标尺度小

  • 无人机航拍高度较高,目标在图像中占据像素较少

  • 行人、车辆等目标常表现为几十像素甚至更小

  • 大量目标的宽度或高度归一化后小于 0.02(即占图像 2% 以下)

5.2 密集分布

  • 交通路口、人行道等场景中目标密集

  • 遮挡严重,增加检测难度

5.3 多尺度混合

  • 同一张图像中存在近大远小现象

  • 尺度跨度大,对多尺度特征提取要求高

5.4 类别分布不均

  • 小汽车 (car)、自行车 (bicycle)、公交车 (bus) 等出现频率较高

  • 部分类别如带篷三轮车等样本较少


六、与无人机小目标检测研究的契合度

本数据集适用于:

  • 无人机航拍场景:典型俯视/斜视视角

  • 小目标检测:大量小尺度目标,符合研究需求

  • 实际应用:交通监控、人群统计、安防巡检等

适用于《基于深度学习的无人机航拍小目标检测算法研究》等课题。


七、特殊标注说明

原始 VisDrone 标注包含以下特殊处理:

  • 忽略区域 (Ignore Regions):因分辨率低或过于拥挤而难以精确标注的区域

  • 其他类别 (Others):如工程车、叉车、油罐车等罕见类型,评估时不计入

本数据集已转换为 YOLO 格式,上述区域在转换中已做相应处理。


八、配置文件说明

data.yaml 用于 YOLO 等框架的数据集配置,主要字段如下:

复制代码
path: <数据集根目录路径>
train: VisDrone2019-DET-train/images
val: VisDrone2019-DET-val/images
test: VisDrone2019-DET-test-dev/images
​
nc: 10   # 类别数量
​
names:
  0: pedestrian
  1: people
  2: bicycle
  3: car
  4: van
  5: truck
  6: tricycle
  7: awning-tricycle
  8: bus
  9: motor

使用前请将 path 修改为本机数据集的实际路径。


九、参考文献

如在论文中使用本数据集,建议引用:

复制代码
@article{zhu2021detection,
  title={Detection and tracking meet drones challenge},
  author={Zhu, Pengfei and Wen, Longyin and Du, Dawei and Bian, Xiao and Fan, Heng and Hu, Qinghua and Ling, Haibin},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  volume={44},
  number={11},
  pages={7380--7399},
  year={2021},
  publisher={IEEE}
}

十、相关链接

相关推荐
流年似水~1 小时前
MCP协议实战:从零搭建一个让Claude能“看见“数据库的工具服务
数据库·人工智能·程序人生·ai·ai编程
乔江seven1 小时前
【李沐 | 动手学深度学习】17 深度学习硬件:CPU 和 GPU
人工智能·深度学习·深度学习硬件·cpu和gpu
深海鱼在掘金1 小时前
深入浅出 LangChain —— 第二章:环境搭建与快速上手
人工智能·typescript·langchain
qq_411262422 小时前
四博 AI 机械臂台灯智能音箱方案
人工智能·智能音箱
qq_411262422 小时前
基于 ESP32-S3 + VB6824 的四博三模联网 AI 智能音箱方案设计
人工智能·智能音箱
qq_411262422 小时前
四博 AI 双目智能音箱技术方案
人工智能·智能音箱
甲维斯2 小时前
测一波MiMo 2.5 Pro,看看真实实力!
人工智能
qq_411262422 小时前
四博 AI 双目智能音箱技术拆解
人工智能·智能音箱
xwz小王子2 小时前
Science Robotics 让机器人学会“削果皮”:一种曲面物体操作任务转移的新方法
人工智能·机器人