CityFlow：面向多目标多相机车辆跟踪与重识别的城市级基准

摘要

利用交通摄像头作为传感器进行城市交通优化，推动了对多目标多相机（MTMC）跟踪技术前沿的需求。本文提出了 CityFlow，一个城市规模的交通摄像头数据集，包含来自 10 个路口的 40 个相机、总长超过 3 小时的同步高清视频，其中两个同步相机之间的最远距离为 2.52.52.5 km。据我们所知，CityFlow 在城市环境的空间覆盖范围和相机/视频数量上是规模最大的数据集。该数据集包含超过 20 万个标注边界框，涵盖了多样的场景、视角、车辆模型和城市交通流状况。我们还提供了相机几何和校准信息以辅助时空分析。此外，我们还提供了一个子集用于基于图像的车辋重识别（ReID）任务。我们在该数据集上对 MTMC 跟踪、多目标单相机（MTSC）跟踪、目标检测和基于图像的 ReID 的基线/前沿方法进行了广泛的实验评估，分析了不同网络架构、损失函数、时空模型及其组合对任务效果的影响。随着我们的基准在 2019 年 AI City Challenge 上发布，我们同时推出了一个评估服务器，允许研究人员比较他们最新技术的性能。我们期望该数据集能推动该领域的研究，促进技术发展，并最终在现实世界中实现部署的交通优化。

1. 引言

城市利用交通摄像头作为城域传感器来优化交通流和管理突发事件的机会是巨大的。我们所欠缺的是在各种天气条件下，跨越不同路口多个相机的大范围车辆跟踪能力。为了实现这一目标，必须解决三个不同但紧密相关的研究问题：1) 在单个相机内检测和跟踪目标，即多目标单相机（MTSC）跟踪；2) 跨多个相机的目标重识别，即 ReID；3) 跨相机网络的目标检测和跟踪，即多目标多相机（MTMC）跟踪。MTMC 跟踪可视为相机内的 MTSC 跟踪与基于图像的 ReID 以及时空信息的结合，用于连接相机间的目标轨迹，如图 1 所示。

近年来，基于人的 ReID 和 MTMC 跟踪问题受到了广泛关注 $58, 34, 61, 46, 22, 21, 11, 14, 8, 57, 34, 50, 7, 60$ 。也有一些工作提供了用于基于车辆的 ReID 的数据集 $28, 26, 52$ 。尽管在这些数据集上的前沿性能已通过最新方法得到提升，但该任务的准确性仍远低于行人 ReID。车辆 ReID 的两个主要挑战是类间变异小和类内变异大，即不同视角的形状变化往往大于不同制造商生产的车型之间的相似性 $10$ 。我们注意到，为了保护驾驶员的隐私，捕获的车牌信息------尽管对车辆 ReID 极为有用------不应被使用 $2$ 。

图 1. MTMC 跟踪结合了 MTSC 跟踪、基于图像的 ReID 和时空信息。相机 #1 和相机 #2 中的彩色曲线是 MTSC 跟踪得到的轨迹，需要通过视觉-时空关联进行跨相机连接。

现有目标 ReID（无论是行人还是车辆）基准的一个主要限制是空间覆盖范围有限且相机数量少------这与它们需要运行的城市级部署规模脱节。在具有相机几何信息的两个基于行人的基准 DukeMTMC $34, 50$ 和 NLPR_MCT $7$ 中，相机覆盖范围小于 300×300 m2300 \times 300 \mathrm{~m}^2300×300 m2，分别只有 6 个和 8 个视角。基于车辆的 ReID 基准，如 VeRi-776 $28$ 、VehicleID $26$ 和 PKU-VD $52$ ，不提供原始视频或相机校准信息。相反，这些数据集假设 MTSC 跟踪是完美的，即图像特征在每个相机内按正确身份分组，这并不能反映真实的跟踪系统。此外，在后两个数据集 $26, 52$ 中，只有车辆的前视图和后视图可用，因此视角的变异性有限。这些现有的车辆 ReID 基准都没有促进 MTMC 车辆跟踪的研究。

在本文中，我们提出了一个新的基准------称为 CityFlow------用于城市级 MTMC 车辆跟踪，如图 2 所示。据我们所知，这是第一个在相机数量、同步高质量视频的性质以及数据集所捕获的大空间范围方面达到城市级的 MTMC 跟踪基准。与之前的基准相比，CityFlow 包含来自美国一个中等城市大量路口（10 个）的最多相机数量（40 个），并覆盖了多种场景，如城市街道、住宅区和高速公路。路口的交通视频既带来了复杂的挑战，也为视频分析提供了重要机遇，超越了交通流优化，扩展到行人安全。我们仔细标注了超过 20 万个边界框，并提供了将像素位置与 GPS 坐标关联的单应性矩阵，以实现精确的空间定位。与基于人的 MTMC 跟踪基准 $57, 34, 50$ 类似，我们也提供了一个子集用于基于图像的车辆 ReID。在本文中，我们描述了我们的基准，并在基于图像的 ReID、目标检测、MTSC 跟踪和 MTMC 跟踪方面进行了大量基线/前沿方法的实验。为了进一步推进 ReID 和 MTMC 跟踪的前沿，我们还向研究社区发布了一个评估服务器。

2. 相关工作

表 1 总结了用于评估人和车辆 ReID 的公开可用基准。该表分为基于图像的行人 ReID、基于视频的 MTMC 人体跟踪、基于图像的车辆 ReID 和基于视频的 MTMC 车辆跟踪几个模块。

迄今为止最流行的基于图像的行人 ReID 基准是 Market1501 $58$ 、CUHK03 $22$ 和 DukeMTMC-reID $34, 61$ 。小规模基准，如 CUHK01 $21$ 、VIPeR $11$ 、PRID $14$ 和 CAVIAR $8$ ，仅提供用于评估的测试集。最近，Zheng 等人发布了迄今为止最大规模的基准 MSMT17 $61$ 。这些基准上的大多数前沿方法利用度量学习对目标身份进行分类，常用的损失函数包括难三元组损失 $13$ 、交叉熵损失 $40$ 、中心损失 $48$ 等。然而，由于这些场景中相机数量相对较少，数据集之间的领域差距不可忽视，因此用于领域自适应的迁移学习引起了越来越多的关注 $45$ 。

另一方面，深度学习特征的计算成本很高，因此利用视频级信息的时空推理对于现实世界的应用至关重要。数据集 Market1501 $58$ 和 DukeMTMC-reID $34, 61$ 在基于视频的 ReID 中分别有对应的 MARS $57$ 和 DukeMTMC $34, 50$ 。尽管 MARS $57$ 中提供了轨迹信息，但原始视频和相机几何信息不公开，因此无法利用时空知识关联轨迹。然而，DukeMTMC $34, 50$ 和 NLPR_MCT $7$ 都提供了相机网络拓扑，从而可以建立相机间的链接。这些场景更真实但也非常有挑战性，因为它们需要视觉-时空推理的共同努力。尽管如此，由于人行进速度通常较慢，且相机视图之间的间隙较小，它们在时空域中的关联相对容易。

VeRi-776 $28$ 因其高质量的标注和相机几何信息的可用性而成为最广泛使用的车辆 ReID 基准。然而，该数据集不提供用于 MTMC 跟踪目的的原始视频和校准信息。此外，该数据集仅包含城市高速公路的场景，因此视角之间的变化相当有限。最后同样重要的是，它们隐式地假设 MTSC 跟踪工作完美。至于其他基准 $26, 52$ ，它们仅设计用于具有前后视图的图像级比较。由于许多车辆共享相同的型号，且不同车型可能看起来高度相似，车辆 ReID 的解决方案不应仅依赖外观特征。利用时空信息来正确解决城市级问题至关重要。研究社区迫切需要能够进行 MTMC 车辆跟踪分析的基准。

图 2. 所提出数据集的城市环境和相机分布。红色箭头表示相机的位置和方向。展示了一些相机视图的例子。注意，与其他车辆 ReID 基准不同，原始视频和校准信息将提供。
表 1. 用于人/车辆基于图像特征的重识别（ReID）和基于视频的跨相机跟踪（MTMC）的公开可用基准。对于每个基准，表格显示了相机数量、标注边界框数量、每个身份的平均边界框数量，以及原始视频、相机几何和多视角的可用性。

类别	子类	基准	#相机	#边界框	#框/ID	视频	几何	多视角
行人	ReID	Market1501 $58$	6	32,668	30.8	×	×	✓
		DukeMTMC-reID $34, 61$	8	36,411	20.1	×	×	✓
		MSMT17 $45$	15	126,441	21.8	×	×	✓
		CUHK03 $22$	2	13,164	19.3	×	×	×
		CUHK01 $21$	2	3,884	4.0	×	×	×
		VIPeR $11$	2	1,264	2.0	×	×	×
		PRID $14$	2	1,134	1.2	×	×	×
		CAVIAR $8$	2	610	8.5	×	×	×
	MTMC	MARS $57$	6	1,191,003	944.5	×	×	✓
		DukeMTMC $34, 50$	8	4,077,132	571.2	✓	✓	✓
		NLPR_MCT $7$	12	36,411	65.8	✓	✓	✓
车辆	ReID	VeRi-776 $28$	20	49,357	63.6	×	✓	✓
		VehicleID $26$	2	221,763	8.4	×	×	×
		PKU-VD1 $52$	-	846,358	6.0	×	×	×
		PKU-VD2 $52$	-	807,260	10.1	×	×	×
	MTMC	CityFlow (本文)	40	229,680	344.9	✓	✓	✓

3. CityFlow 基准

在本节中，我们详细介绍所提出基准的统计数据。我们还解释了数据的收集和标注方式，以及我们如何评估基线方法。

3.1. 数据集概述

所提出的数据集包含从美国一个中等城市的 10 个路口的 40 个相机收集的 3.25 小时视频。两个最远同步相机之间的距离为 2.5km2.5\mathrm{km}2.5km，这是所有现有基准中最长的。该数据集涵盖了多样化的位置类型，包括路口、道路路段和高速公路。凭借最大的空间覆盖范围以及多样化的场景和交通状况，它是第一个支持城市级视频分析的基准。该基准还提供了第一个支持车辆 MTMC 跟踪的公共数据集。

数据集分为 5 个场景，总结在表 2 中。总共有 229,680 个标注边界框，对应 666 个车辆身份，每个身份至少经过 2 个相机。图 3 显示了 CityFlow 中车辆类型和颜色的分布。每个视频的分辨率至少为 960p，大多数视频的帧率为 10 FPS。此外，在每个场景中，每个视频的开始时间偏移量可用，可用于同步。出于隐私考虑，使用 DeepStream $1$ 检测到的车牌和人脸已在所有视频中被遮蔽并手动精炼。CityFlow 还展示了基于人的 MTMC 跟踪基准 $34, 50, 7$ 中不存在的其他挑战。同一路口的相机有时共享重叠的视野（FOV），一些相机使用鱼眼镜头，导致其捕获的镜头产生强烈的径向畸变。此外，由于车辆速度相对较快，运动模糊可能导致目标检测和数据关联失败。图 4 显示了基准中标注的一个示例。该数据集将在不久的将来扩展到包含更多不同条件下的数据。

表 2. 所提出数据集中的 5 个场景，显示了总时间、相机数量（有些相机在场景间共享）、边界框数量和身份数量，以及场景类型（高速公路或住宅区/城市街道）和交通流（使用北美服务水平标准（LOS） $37$ ）。场景 1、3 和 4 用于训练，而场景 2 和 5 用于测试。

场景	时间(分钟)	#相机	#边界框	#身份	场景类型	LOS
1	17.1	35	20,772	95	高速公路	A
2	13.5	24	20,956	145	高速公路	B
3	23.3	36	6,174	18	住宅区	A
4	17.9	72	17,302	71	住宅区	A
5	123.0	81	164,476	337	住宅区	B
总计	195.0	40	229,680	666

图 3. CityFlow 中按车辆身份统计的车辆颜色和类型分布。

3.2. 数据标注

为了高效地标注跨多个相机的车辆轨迹，我们采用了轨迹级标注方案。首先，我们遵循跟踪-检测范式，使用目标检测 $32$ 和 MTSC 跟踪 $43$ 的前沿方法在所有视频中生成带噪轨迹。然后手动校正检测和跟踪错误，包括不对齐的边界框、假阴性、假阳性和身份切换。最后，我们利用时空线索手动关联跨相机轨迹。

每个场景的相机几何信息与数据集一起提供。我们还提供了基于平面近似假设下，2D 图像平面与 GPS 坐标定义的地面平面之间的相机单应性矩阵。相机校准的演示如图 5 所示，该图基于一组 3D 点与其 2D 像素位置之间的对应关系来估计单应性矩阵。首先，在每个视频的采样帧图像中手动选择 5 到 14 个地标点。然后，从 Google Maps $3$ 推导出对应的真实世界 GPS 坐标。该问题的目标代价函数是像素重投影误差，目标单应性矩阵有 8 个自由度。该优化问题可以通过最小中值平方和 RANSAC 等方法有效求解。在我们的基准中，由于 Google Maps 的精度有限，收敛的重投影误差平均为 11.52 像素。当相机存在径向畸变时，在校准之前先通过拉直弯曲的交通车道线进行手动校正。

3.3. 用于基于图像的 ReID 的子集

从 CityFlow 中采样的子集，称为 CityFlow-ReID，专门用于基于图像的 ReID 任务。CityFlow-ReID 总共包含 56,277 个边界框，其中来自 333 个目标身份的 36,935 个边界框构成训练集，测试集由来自另外 333 个身份的 18,290 个边界框组成。其余 1,052 张图像为查询图像。平均每个车辆有 84.50 个图像特征，来自 4.55 个相机视角。

3.4. 评估服务器

随着我们的基准在 2019 年 AI City Challenge 上发布，我们同时推出了一个在线评估服务器。这允许持续评估和全年提交结果。排行榜展示所有提交结果的性能排名。基于相同真值的通用评估方法确保了公平比较。此外，研究社区可以方便地参考前沿技术。

3.5. 实验设置和评估指标

对于基于图像的 ReID 评估，结果由一个矩阵表示，该矩阵将每个查询映射到按距离排序的测试图像。遵循 $58$ ，使用两个指标来评估算法的准确性：平均精度均值（mAP），衡量所有查询的平均精度（精确率-召回率曲线下的面积）的均值；以及 rank-KKK 命中率，表示至少一个真正例排在前 KKK 个位置内的可能性。在我们的评估服务器中，由于存储空间有限，采用每个查询前 100 个匹配计算的 mAP 进行比较。更多细节在补充材料中提供。

对于 MTMC 跟踪的评估，我们采用了 MOTChallenge $5, 24$ 和 DukeMTMC $34$ 基准使用的指标。关键指标包括多目标跟踪准确率（MOTA）、多目标跟踪精度（MOTP）、ID F1 分数（IDF1）、大部分被跟踪的目标（MT）和误报率（FAR）。MOTA 计算考虑三种误差来源的准确率：假阳性、假阴性/漏检目标和身份切换。而 MOTP 考虑标注边界框与预测边界框之间的不对齐。IDF1 衡量正确识别的检测数量占真值检测和计算检测平均数的比例。与 MOTA 相比，IDF1 有助于解决误差来源之间的模糊性。MT 是被跟踪假设覆盖其生命周期至少 80%80\%80% 的真值轨迹的比例。最后，FAR 衡量每帧图像的平均假阳性数量。

图 4. CityFlow 上的标注，红色虚线表示跨相机视图的目标身份关联。

图 5. 相机校准，包括在透视图像（右）中手动选择地标点，以及带有 GPS 坐标的俯视地图视图（左）。黄色虚线表示地标点之间的关联，而细彩色实线显示使用估计的单应性矩阵投影到图像上的地平面网格。

4. 评估的基线

本节描述我们使用 CityFlow 基准评估的前沿基线系统。

4.1. 基于图像的 ReID

对于行人 ReID 问题，前沿方法应用带有不同损失函数的度量学习，如难三元组损失（Htri） $13$ 、交叉熵损失（Xent） $40$ 、中心损失（Cent） $48$ 及其组合来训练分类器 $62$ 。在我们的实验中，我们比较了各种卷积神经网络（CNN）模型 $12, 54, 16, 51, 17, 38, 36$ 的性能，所有这些模型都使用相同的学习率（3×10−43\times10^{-4}3×10−4）、轮数（60）、批量大小（32）和优化器（Adam）。所有训练模型在这些超参数设置下完全收敛。生成的特征维度在 960 到 3,072 之间。

对于车辆 ReID 问题，最近的工作 $18$ 探索了用于行人 ReID 前沿解决方案的三元组嵌入中基于批次的采样的进展。他们比较了不同的采样变体，并在所有车辆 ReID 基准 $28, 26, 52$ 上展示了最先进的结果，优于基于多视角的嵌入和大多数时空正则化方法（见表 7）。选择的采样变体包括 batch all（BA）、batch hard（BH）、batch sample（BS）和 batch weighted（BW），采用自 $13, 35$ 。实现使用 MobileNetV1 $15$ 作为骨干网络架构，设置特征向量维度为 128，学习率为 3×10−43\times10^{-4}3×10−4，批量大小为 18×418 \times 418×4。

另一个前沿车辆 ReID 方法 $43$ 是 CVPR 2018 AI City Challenge Workshop $31$ 车辆 ReID 赛道的获胜者，该方法基于融合视觉和语义特征（FVS）。该方法从在 CompCars 基准 $53$ 上预训练的 GoogLeNet $39$ 中提取 1,024 维 CNN 特征。不使用度量学习，而是使用 Bhattacharyya 范数计算特征向量对之间的距离。在我们的实验中，我们还探索了使用 L2\mathrm{L}_2L2 范数、L1\mathrm{L}1L1 范数和 L∞\mathrm{L}{\infty}L∞ 范数进行邻近计算。

4.2. 单相机跟踪和目标检测

大多数前沿 MTSC 跟踪方法遵循跟踪-检测范式。在我们的实验中，我们首先使用众所周知的方法如 YOLOv3 $32$ 、SSD512 $27$ 和 Faster R-CNN $33$ 生成检测边界框。对于所有检测器，我们使用在 COCO 基准 $25$ 上预训练的默认模型，感兴趣的目标类别包括汽车、卡车和巴士。我们对所有方法使用相同的检测分数阈值（0.2）。

MTSC 跟踪中的离线方法通常表现更好，因为所有聚合的轨迹片段都可用于数据关联。在线方法通常利用鲁棒的外观特征来弥补缺乏未来信息的不足。我们在 CityFlow 上实验了两种类型的方法，介绍如下。DeepSORT $49$ 是一种在线方法，结合深度学习特征、基于卡尔曼滤波的跟踪和匈牙利算法进行数据关联，在 MOTChallenge MOT16 基准 $30$ 上取得了显著性能。TC $43$ 是一种离线方法，通过优化包括平滑损失、速度变化损失、时间间隔损失和外观变化损失在内的加权组合代价函数进行轨迹片段聚类，赢得了 CVPR 2018 AI City Challenge Workshop $31$ 的交通流分析任务。最后，MOANA $42, 41$ 是另一种在线方法，在 MOTChallenge 2015 3D 基准 $19$ 上实现了最先进的性能，采用类似的时空数据关联方案，但使用自适应外观模型来解决遮挡和目标分组问题。

4.3. 时空分析

时空关联的直觉是，车辆的运动模式是可预测的，因为它们通常遵循车道，且速度变化平缓。Liu 等人 $29$ 提出了一个渐进式多模态车辆 ReID 框架（PROVID），其中采用了基于时空的重排序方案。时空相似性通过计算跨相机的时间差和物理距离的比率来衡量。

更复杂的算法应用概率模型来学习相机对之间的转移。例如，一种基于双向高斯混合模型特征（2WGMMF）的方法 $20$ 通过使用高斯分布学习相机视图之间的转移时间，在 NLPR_MCT 基准 $7$ 上达到了最先进的准确率。然而，在 FVS $43$ 中，由于没有提供训练数据，时间分布是基于相机之间的估计距离预定义的。这两种方法都需要手动选择相机视图中的进入/退出区域，但 2WGMMF 可以在线学习相机链接模型。

5. 实验评估结果

在本节中，我们分析了各种前沿方法在 CityFlow 基准上的性能，并将我们的基准与现有基准进行比较。

5.1. 基于图像的 ReID

首先，我们评估前沿 ReID 方法在 CityFlow-ReID 上的性能，这是我们基准中用于基于图像的 ReID 的子集（见第 3.3 节）。我们的目标是确定 CityFlow-ReID 对现有方法是否具有挑战性。

非度量学习方法。 CNN 输出的深度特征可以直接使用标准距离度量进行比较。表 3 显示了 FVS 方法 $43$ 使用各种距离度量的结果。总体而言，非度量学习的性能较差。此外，该模型在用于细粒度车辆分类的数据集 $53$ 上预训练，这相比在车辆 ReID 数据集上预训练会损害一些性能提升。

行人 ReID 中的度量学习方法。 表 4 显示了最先进的行人 ReID 度量学习方法在 CityFlow-ReID 数据集上的结果，使用不同的损失函数和网络架构。与非度量学习方法（表 3）相比，性能有了很大提升。特别是，难三元组损失最为鲁棒。难三元组损失和交叉熵损失相结合产生了最好的结果。在 CNN 架构方面，DenseNet121 $17$ 在大多数情况下达到了最高的准确率，因为它受益于整个网络中信息和梯度的改进流动。

在其他基准上的行人 ReID 方法。 尽管上述努力探索了网络架构和组合度量学习损失，但我们在 CityFlow-ReID 基准上的最高 mAP 仍低于 35%35\%35%。相比之下，表 5 $62, 56, 59, 55$ 显示了相同方法在其他公共基准上的性能，使用相同的实现和超参数。总体而言，性能显著更好，从而验证了 CityFlow-ReID 确实更具挑战性。

车辆 ReID 中的度量学习方法。 表 6 显示了最先进的车辆 ReID 方法 $18$ 在所提出数据集上的结果。在这个实验中，我们使用基于 MobileNetV1 $15$ 的实现比较了采样变体（BA、BH、BS 和 BW），如前所述。

在 rank-1 命中率方面的结果仅略差于行人 ReID 中难三元组损失和交叉熵损失组合的结果（见表 4）。这种准确率的降低可能是由于相对简单的网络架构（MobileNetV1 $15$ ）和计算效率高的 128 维嵌入。表 6 再次展示了 CityFlow-ReID 的挑战性。

在其他基准上的车辆 ReID 方法。 为了验证我们的方法确实具有竞争力，表 7 $18$ 显示了几个最先进的车辆 ReID 方法在公共基准上的性能。

这些结果也总结在图 6 的累积匹配曲线（CMC）图中。图 7 显示了性能的定性可视化。我们观察到

图 6. CityFlow-ReID 上基于图像的 ReID 方法的 CMC。表 4 中所有最先进的行人 ReID 方案均使用 DenseNet121 $17$ 。 ! $在这里插入图片描述$ (https://i-blog.csdnimg.cn/direct/2cfcba84cd0b48258589b59dc8542236.png) 图 7. CityFlow-ReID 中两个示例查询的基于图像 ReID 方法的定性性能。每个查询的行从上到下分别显示 FVS（Bhattacharyya 范数）、Xent、Htri、Cent、Xent+Htri、BA 和 BS 的结果。每行显示该方法找到的前 10 个匹配。表 4 中所有最先进的行人 ReID 方案均使用 DenseNet121 $17$ 。

表 3. 来自领先车辆 ReID 方法 FVS $43$ 的 CNN 特征在使用各种度量标准时在 CityFlow-ReID 基准上的性能。

范数	mAP	Rank-1	Rank-5	Rank-10
Bhattacharyya	6.3%	20.8%	24.5%	27.9%
L2\mathrm{L}_2L2	5.9%	20.4%	24.9%	27.9%
L1\mathrm{L}_1L1	6.2%	20.3%	24.8%	27.8%
L∞\mathrm{L}_{\infty}L∞	3.2%	17.0%	23.6%	27.6%

表 4. 最先进的行人 ReID 度量学习方法在 CityFlow-ReID 上的结果，显示 mAP 和 rank-1（括号内），以百分比表示。所有网络均在 ImageNet $9$ 上预训练。每行/每列的最佳架构和损失函数分别高亮显示，阴影单元格表示 mAP 和 rank-1 的整体最佳。

损失	ResNet50 $12$	ResNet50M $54$	ResNeXt101 $51$	SEResNet50 $16$	SEResNeXt50 $16$	DenseNet121 $17$	InceptionResNetV2 $38$	MobileNetV2 $36$
Xent $40$	25.5 (41.3)	25.3 (42.1)	26.6 (42.4)	23.8 (40.4)	26.8 (45.2)	23.2 (39.9)	20.8 (35.5)	14.7 (26.0)
Htri $13$	28.7 (42.9)	27.9 (40.1)	30.0 (41.3)	26.3 (38.7)	28.2 (40.4)	30.5 (45.8)	23.7 (37.2)	0.4 (0.3)
Cent $48$	7.6 (18.2)	7.9 (21.5)	8.1 (19.3)	10.0 (25.9)	10.2 (25.6)	10.7 (27.9)	6.0 (15.2)	7.9 (18.4)
Xent+Htri	29.4 (45.9)	29.4 (49.7)	32.0 (48.8)	30.0 (47.2)	30.8 (49.1)	31.0 (51.7)	25.6 (42.2)	11.2 (16.3)
Xent+Cent	23.1 (37.5)	26.5 (47.3)	24.9 (40.9)	26.2 (43.7)	28.4 (47.5)	27.8 (48.1)	23.5 (39.5)	12.3 (24.0)

表 5. 最先进的行人 ReID 度量学习方法在其他公共基准上的性能，显示 mAP 和 rank-1（括号内），以百分比表示。底部行（来自 $62$ ）显示表 4 中的方法与最先进水平具有竞争力。

方法	Market1501 $58$	DukeMTMC-reID $34, 61$	MSMT17 $45$
HA-CNN $23$	75.6 (90.9)	63.2 (80.1)	37.2 (64.7)
MLFN $6$	74.3 (90.1)	63.2 (81.1)	37.2 (66.4)
GLAD $47$	-	-	34.0 (61.4)
Res50+Cent	75.3 (90.8)	64.0 (81.0)	38.4 (69.6)
Res50M+Cent	76.0 (90.2)	64.0 (81.6)	38.0 (69.0)
SERes50+Cent	75.9 (91.9)	63.7 (81.5)	39.8 (71.1)
Dense121+Cent	68.0 (87.8)	58.8 (79.7)	35.0 (67.6)

表 6. 最先进的车辆 ReID 度量学习方法，使用不同采样变体，在 CityFlow-ReID 上的性能。

方法	mAP	Rank-1	Rank-5	Rank-10
MoV1+BA $18$	31.3%	49.6%	65.0%	71.2%
MoV1+BH $18$	32.0%	48.4%	65.2%	71.4%
MoV1+BS $18$	31.3%	49.0%	63.1%	70.9%
MoV1+BW $18$	30.8%	50.1%	64.9%	71.4%

表 7. 最先进的车辆 ReID 度量学习方法在其他公共基准上的性能，显示 mAP 和 rank-1（括号内），以百分比表示。性能是在 VehicleID、PKU-VD1 和 PKU-VD2 的最大测试集上评估的。底部行显示了我们比较中的方法（来自表 6）。

方法	VeRi-776 $28$	VehicleID $26$	PKU-VD1 $52$	PKU-VD2 $52$
GSTE $4$	59.5 (96.2)	72.4 (74.0)	-	-
VAMI $63$	50.1 (77.0)	- (47.3)	-	-
OIFE $44$	48.0 (89.4)	- (67.0)	-	-
CCL $26$	-	45.5 (38.2)	-	-
MGR $52$	-	-	51.1 (-)	55.3 (-)
MoV1+BA $18$	66.9 (90.1)	76.0 (66.7)	-	-
MoV1+BH $18$	65.1 (87.3)	76.9 (67.6)	-	-
MoV1+BS $18$	67.6 (90.2)	78.2 (69.3)	58.3 (58.3)	62.4 (69.4)
MoV1+BW $18$	67.0 (90.0)	78.1 (69.4)	-	-

5.2. MTSC 跟踪和目标检测

可靠的跨相机跟踪建立在每个相机内的准确跟踪（MTSC）之上。表 8 显示了最先进的 MTSC 跟踪方法 $49, 42, 43$ 结合领先的目标检测算法 $32, 27, 33$ 在 CityFlow 上的结果。注意，在 MTSC 跟踪评估中不考虑假阳性，因为只标注了穿越多个相机的车辆。关于目标检测器，SSD512 $27$ 表现最好，而 YOLOv3 $32$ 和 Faster R-CNN $33$ 显示出相似的性能。对于 MTSC 跟踪器，TC $43$ 是唯一的离线方法，根据大多数评估指标表现更好。DeepSORT $49$ 和 MOANA $42$ 在 MOTA 上表现相似，但 DeepSORT 的 ID F1 分数要高得多。尽管如此，MOANA 能够成功跟踪大多数轨迹。

表 8. CityFlow 上最先进的 MTSC 跟踪和目标检测方法。指标在第 3.5 节中解释。

方法	IDF1	Recall	FAR	MT	MOTA	MOTP
DS+YOLO	78.9%	67.6%	8.6	77	86.4%	65.8%
DS+SSD	79.5%	69.2%	8.3	75	86.9%	65.5%
DS+FRCNN	78.9%	66.9%	15.3	76	86.7%	65.5%
TC+YOLO	79.1%	68.1%	8.5	87	86.8%	66.0%
TC+SSD	79.7%	70.4%	7.4	89	87.0%	65.6%
TC+FRCNN	78.7%	68.5%	12.0	95	86.8%	65.9%
MO+YOLO	77.8%	69.0%	8.5	96	86.6%	66.0%
MO+SSD	72.8%	68.0%	6.3	98	86.0%	65.9%
MO+FRCNN	75.6%	69.5%	10.8	109	86.6%	66.0%

5.3. MTMC 跟踪

MTMC 跟踪是视觉-时空推理的联合过程。对于这些实验，我们首先应用 MTSC 跟踪，然后从每个轨迹中采样多个特征以提取和比较外观特征。每个车辆采样的实例数量根据经验选择为 3。

表 9 显示了各种时空关联、MTSC 跟踪和基于图像的 ReID 方法在 CityFlow 上的结果。注意，PROVID $29$ 首先比较视觉特征，然后使用时空信息进行重排序；而 2WGMMF $20$ 和 FVS $43$ 首先基于在线学习或手动测量建模时空转移，然后仅对高置信度的配对进行基于图像的 ReID。还要注意，由于评估中只包含跨越多个相机的轨迹，与 MTSC 跟踪不同，在 MTMC 跟踪准确率计算中考虑假阳性。

总体而言，最可靠的时空关联方法是 FVS，它利用了手动指定的转移时间概率模型。相比之下，2WGMMF 在大多数情况下达到了与 FVS 相当的性能，这是因为在线学习的转移时间分布应用于训练集和测试集共享的那些相机。没有概率建模的 PROVID 结果较差。从表 9 我们还可以得出结论，基于图像的 ReID 和 MTSC 跟踪方法的选择对整体性能有显著影响，因为这些方法在其子任务中取得优越性能也有助于提高 MTMC 跟踪的准确率。

表 9. CityFlow 上使用不同时空关联、MTSC 跟踪（基于 SSD512 $27$ ）和基于图像的 ReID 方法组合的 MTMC 跟踪。每个单元格显示 ID F1 分数。每行/列的最佳性能高亮显示，阴影单元格表示整体最佳。对于 Xent、Htri、Cent 和 Xent+Htri 的比较使用 DenseNet121 $17$ 。

时空关联	MTSC 跟踪	基于图像的 ReID
		FVS.Bh.
PROVID $29$	DeepSORT $49$	21.5%
	TC $43$	22.1%
	MOANA $42$	21.7%
2WGMMF $20$	DeepSORT $49$	25.0%
	TC $43$	27.6%
	MOANA $42$	20.2%
FVS $43$	DeepSORT $49$	24.9%
	TC $43$	27.6%
	MOANA $42$	21.2%

6. 结论

我们提出了一个城市级基准 CityFlow，它支持基于视频的 MTMC 跟踪和基于图像的 ReID 任务。我们的主要贡献有三点。首先，CityFlow 是面向交通理解的城市级应用的首次尝试。它在空间覆盖范围和涉及的相机/路口数量上拥有所有现有 ReID 数据集中最大的规模。此外，它包含了广泛的场景和交通流状况。其次，CityFlow 也是第一个支持基于车辆的 MTMC 跟踪的基准，通过提供原始视频的标注、相机几何和校准信息。所提供的时空信息可用于解决基于图像的 ReID 中的歧义性。第三，我们进行了广泛的实验，评估了最先进方法在我们基准上的性能，比较和分析了各种视觉-时空关联方案。我们表明，我们的场景具有挑战性，反映了部署系统需要运行的真实情况。最后，CityFlow 还可能为新的研究问题开辟道路，例如车辆姿态估计、视角生成等。