无人机低空视角:针对人群密集场景的检测、跟踪和计数技术

无人机低空视角:针对人群密集场景的检测、跟踪和计数技术

DroneCrowd

Paper

无人机在人群中的检测、跟踪和计数:基准研究

简介

本文提出了一种时空多尺度注意力网络(STANet),用于解决由无人机捕捉的视频剪辑中的密集人群的密度图估计、定位和跟踪问题,涵盖了各种人群密度、视角和飞行高度。我们的STANet方法通过聚合顺序帧中的多尺度特征图来利用时间一致性,然后同时预测密度图、定位目标并在人群中关联它们。我们设计了一个由密度图损失、定位损失和关联损失三个项组成的多任务损失函数,并采用逐步应用注意力模块的粗到细过程,以强化网络对判别性时空特征的利用,以提高性能。整个网络以端到端的方式进行训练。在情景中使用非最大抑制和最小代价流框架生成目标的轨迹。由于现有的人群计数数据集主要关注于静态摄像机中的人群计数,而不是无人机上的密度图估计、计数和跟踪,因此我们收集了一个新的大规模基于无人机的数据集,称为DroneCrowd,包括112个视频剪辑,共33600个高分辨率帧(即1920x1080),捕捉了70个不同情景。通过大量的努力,我们的数据集提供了20800个人的轨迹,480万个头部标注以及序列中的多个视频级属性。我们在两个具有挑战性的公共数据集(上海科技和UCF-QNRF)以及我们的DroneCrowd上进行了广泛的实验证明STANet在性能上优于现有技术水平。

数据集

ECCV2020挑战

VisDrone 2020人群计数挑战要求参与算法对每个帧中的人数进行计数。挑战将提供112个具有挑战性的序列,包括82个用于训练的视频序列(总共2420帧)和30个用于测试的序列(总共900帧),可在下载页面上获得。我们在每个视频帧中用点手动标注人物。

DroneCrowd(1.03 GB):百度云(提取码:h0j8)| 谷歌云

DroneCrowd(完整版)

这个完整版本包括112个视频剪辑,共33600个高分辨率帧(即1920x1080),捕捉了70个不同的场景。通过大量的努力,我们的数据集提供了20800个人的轨迹,480万个头部标注以及序列中的多个视频级属性。

DroneCrowd 百度云(提取码:ml1u)| 谷歌云

相关推荐
贵州数擎科技有限公司8 小时前
NumPy 从数组操作理解深度学习的计算本质
人工智能·numpy
山海AI手册8 小时前
030、AI应用前端展示:Streamlit快速构建交互式Web应用
前端·人工智能
菱玖8 小时前
RAG 技术详解
人工智能·语言模型·aigc
d1z8888 小时前
(十八)32天GPU测试从入门到精通-TensorRT-LLM 部署与优化day16
人工智能·python·深度学习·gpu·tensorrt
前端摸鱼匠8 小时前
YOLOv11 在零售领域实战:利用公开的商品检测数据集 (如 SKU110K 的子集),训练一个 YOLOv11 模型,用于识别货架上的各种商品
人工智能·yolo·目标检测·ai·目标跟踪·视觉检测·零售
imbackneverdie8 小时前
分享一些高级感科研绘图配色
图像处理·人工智能·ai·aigc·ai绘画·贴图·科研绘图
行者-全栈开发8 小时前
AI 驱动的智能行程规划系统:腾讯地图 Map Skills 实战
人工智能·路径规划·ai agent·多人协同·tool calling·mcp 协议·poi 检索
antzou8 小时前
语音识别 (ASR)
人工智能·语音识别·onnx·asr·paraformer
逸风尊者8 小时前
2026 主流 Claw 类产品技术报告
人工智能·后端·算法
两万五千个小时8 小时前
Claude Code 源码:工具 Plan 模式
人工智能·程序员·架构