摘要
基于事件的视觉受到人类视觉系统的启发,提供了变革性的功能,例如低延迟、高动态范围和降低功耗。本文对事件相机进行了全面的调查,并追溯了事件相机的发展历程。它介绍了事件相机的基本原理,将其与传统的帧相机进行了比较,并强调了它的独特性和操作差异。调查涵盖了来自领先制造商的各种事件相机型号、关键技术里程碑和有影响力的研究贡献。它探索了不同领域的各种应用,并讨论了促进研究发展所必需的真实世界和合成数据集。此外,还讨论了事件相机模拟器在测试和开发中的作用。这项调查旨在巩固事件相机的现状,并激发这个快速发展领域的进一步创新。为了支持研究社区,GitHub 页面对过去和未来的研究文章进行了分类并整合了宝贵的资源。
1 理解基于事件的视觉------引言
基于事件的视觉代表了视觉传感技术的范式转变,其灵感来源于人类视觉系统检测和响应环境变化的能力(因此也被称为神经形态视觉)。和以固定时间间隔捕捉静态图像的传统帧式相机不同,基于事件的视觉技术则利用事件相机连续监测每个像素的光强变化。这些相机仅在发生重大变化时才会产生 "事件",从而生成反映实时场景动态的动态数据流。基于事件的视觉模仿了人类感知的异步性质,即对每个像素独立检测和记录变化。这种方法具有极高的时间分辨率,这对于准确捕捉快速移动的物体和动态场景至关重要,而不会出现帧相机通常伴随的运动模糊现象。事件相机仅关注变化而不关注静态信息,因此能更有效地管理数据,从而显著降低冗余和带宽要求。
对事件的实时捕捉和处理可实现对场景变化的即时响应,因此基于事件的视觉技术特别适用于需要快速决策的应用。该技术侧重于检测对数尺度(log函数)而非绝对值的变化,因此能够有效处理各种照明条件,避免了传统系统中常见的曝光过度或曝光不足等问题。这种适应性在室外光线条件恶劣的环境中尤为重要。此外,由于事件相机只处理变化,因此与传统相机相比,它们所需的数据带宽和计算能力更低。这种效率可显著节省能源,使基于事件的视觉成为电池供电设备和长期监控应用的理想选择。异步特性还有助于高效处理和分析数据,专注于相关变化,实现更快、更准确的处理。
事件相机具有低延迟、高动态范围、低功耗和高效数据处理等显著特点,因此被广泛应用于各种应用领域,包括物体检测 [72]、移动物体分割 [167-169,190]、物体跟踪 [211,283]、物体分类 [12,235]、 手势/动作识别 [6,46,141]、流量/深度/姿势估计 [11,174,175,301,302]、语义分割 [4,243]、视频去模糊 [107,139]、视频生成 [145,258]、神经辐射场 (NERF) [119,217]、视觉里程计 [25,279,298,306]、高分辨率视频重建 [29,249,289] 和运动捕捉 [90,166,274]。
本综述旨在让研究人员全面了解事件相机的现状。它提供了研究趋势的背景,以说明人们对该领域日益增长的兴趣(第 2 节)。本综述解释了事件相机的工作原理(第 3 节),并将其与传统帧相机进行了对比(第 4 节)。它研究了来自领先制造商的各种事件相机型号,提供了功能方面的比较以帮助选择相机(第 5 节)。概述了关键的里程碑工作,为未来的研究方向奠定了基础(第 6 节)。此外,本综述讨论了基于事件的视觉的各种应用领域,介绍了不同领域的杰出工作(第 7 节)。还包括对关键的基于事件的数据集(第 8 节)和推进研究和开发所必需的模拟器的概述(第 9 节)。
本次调查的目的是整合基于事件的视觉系统资源,强调技术进步和实际应用,同时作为该领域功能和选项的全面指南。GitHub 资源页面是本次调查的补充,它将定期更新,为研究人员提供基于事件的视觉的最新发展,促进明智的决策并推动持续创新。
2 基于事件的视觉的兴起:背景
近年来,基于事件的视觉研究界取得了重大进展,发表的论文数量不断增加就是明证(见图 1)。从 2010 年的少量论文开始,该领域不断扩大,到 2023 年学术活动大幅增加,达到顶峰。这一显著增长,尤其是从 2019 年开始,归功于各个供应商提供的事件相机可用性的增加,以及引入先进的基于事件的模拟器。CVPR、ECCV、ICCV 和 WACV 等主要计算机视觉会议上,基于事件的视觉研究论文数量显著增加。例如,在 CVPR 上发表的基于事件的视觉论文数量显著增加,从 2018 年的几篇增加到 2024 年的相当多的数量。专门针对基于事件的视觉研讨会进一步促进了该领域研究的传播。这一趋势表明,在更广泛的计算机视觉社区中,该领域的影响力不断扩大,认可度不断提高。。
在 20 世纪 90 年代末和 21 世纪初,神经形态视觉领域取得了显著进展,包括开发机器人神经形态传感器 [81]、脉冲神经控制器 [57]、仿生视觉传感器 [237] 和神经形态视觉开源工具包 [104]。关键工作还包括对人工人类视觉技术的综述[47]、嵌入式实时跟踪系统 [140] 和基于脉冲处理的多芯片系统 [253]。此外,还讨论了无帧动态数字视觉 [44],为平衡机器人引入了 AER 动态视觉传感器 [38,39],开发了动态立体视觉系统 [225],并引入了活动驱动传感器 [43]。值得注意的是,[19] 组织了一次关于仿生视觉的研讨会。
从 2010 年代初到 2020 年,显著的进展包括探索基于事件的异步双目立体匹配 [216]、人形机器人的嵌入式神经形态视觉 [10]、多核卷积处理器模块 [21]、微粒子跟踪的高速视觉 [181]、时间相关特征提取 [14, 137] 和识别算法 [158]。研究人员在基于事件的视觉流 [11]、SLAM [267]/3D SLAM [266]、具有快速反应能力的机器人守门员[42],以及关于视网膜传感器的综述 [199]等方面采用了先进技术。此外,2010 年代中期还探索了用于高速视觉特征跟踪的多核算法 [125]、连续时间轨迹估计 [173]、事件寿命估计和视觉跟踪 [172]、立体匹配 [56] 和 三维感知的脉冲神经网络模型 [185]。出现了事件驱动分类器 [240]、用于减少噪声的时空滤波器 [112]、低延迟线跟踪 [54]、基于图的物体分类 [12] 和步态识别 [262] 等创新技术。2010 年代后期,人们对基于事件的视觉 [61] 和用于自动驾驶的神经形态视觉 [28] ,以及用于神经形态视觉感知的时空特征学习 [13]进行了全面的研究。在2020 年代初,事件相机和模拟器的迅速出现对该领域产生了重大影响,并取得了第 6 节中论述的里程碑式的成就。
3. 事件相机的工作原理:内部剖析
基于事件的视觉在处理场景的方式上与传统的基于帧的视觉有着根本的不同。受人类视网膜的启发,视杆细胞、双极细胞和视网膜神经节细胞可独立检测和传输视觉信号(见图 2 (a)),传感器中每个像素的作用都是异步捕捉场景中视觉信息的任何变化。传感器的这种自主原理为实时处理视觉数据提供了一种独特而有效的方法。事件相机的工作机制包括几个关键步骤。每个像素都独立、连续且异步地处理进入的光线。光子撞击每个像素中的光电二极管,被转换为电流,并转化为电压信号。产生的电压与每个像素的参考电压进行连续比较,以检测光强度的对数变化。
如图 2 (b) 所示,每当电压差超过预定阈值时,就会触发一个事件 ⟨x, y, p, t⟩,记录像素坐标 (x, y)、变化时间 t 和极性 p ∈ {−1, +1}表示光强度的增加或减少。这些事件在发生时输出,通过连续的数据流而不是一系列静态帧来反映场景随时间的变化。数据流可视化为 3D 空间中的双通道表示。其中,两个维度构成了捕捉事件在图像坐标中位置的空间部分,第三个维度表示其时间坐标,精确指示事件发生的时间。这种空间-时间表示法最大限度地减少了数据冗余,并通过其稀疏结构实现了对场景动态方面的高效处理。
4. 事件相机与帧相机:比较
与传统的帧式相机相比,事件相机因其独特的工作原理而具有多项优势。事件相机中的每个像素都会在检测到变化的瞬间将其记录下来,因此可以捕捉到快速移动的物体和动态场景,从而实现高时间分辨率(>10,000 fps)。运动模糊是基于帧的系统中常见的问题 [40] ,当物体在相机的曝光时间内快速移动时,就会发生运动模糊,导致物体在图像中模糊不清。然而,帧式相机的每个像素都必须等待帧的整体曝光时间,而事件相机则不同,它能立即对场景中的变化做出反应。这种即时响应有助于事件相机实现低延迟,并显著减少运动模糊,如图 3 所示。在机器人和自动驾驶等需要实时监控和快速响应的应用中,这种能力至关重要 [55, 187]。
虽然现代帧式相机可以实现高帧率,但其代价是需要很大的带宽和存储空间,这可能会限制其性能。与传统的帧式相机相比,事件相机只记录场景中的变化,产生的数据更少。数据带宽的减少使得事件相机成为带宽或存储容量有限的应用的理想选择。对变化而非绝对光照度的关注进一步确保了只捕捉相关信息,减少了冗余。这些优势对嵌入式系统和边缘设备系统最为重要,因为它们的处理能力、内存和存储能力通常有限,而高效、精简的数据输出可使它们受益匪浅[75, 120, 134, 219, 238]。
此外,事件相机可在各种照明条件下有效工作。事件相机专注于光照强度的对数变化,从而避免了曝光过度、曝光不足和光照条件突变(突然变化)等通常会影响传统相机的问题。事件传感器的高动态范围(>120 dB)远远超过了不超过 95 dB 的高质量帧相机的动态范围[91]。这使它们适用于具有挑战性光照的环境(见图 3),如光照变化的室外场景。其出色的低照度截止(0.08 Lux)促使人们进一步探索各种低照度应用 [159,278,288]。总之,这些优势使事件相机成为各种应用的理想选择。
5. 事件相机模型(型号):概述
2017 年,开创性研究 [6, 175] 采用了早期的事件相机,如 DVS 128 [93] 和 DAVIS 240 [92],为该领域的高级应用奠定了基础。此后,事件相机技术取得了长足进步,iniVation [101]、Prophesee [207]、Lucid Vision Lab (TRT009S-EC、TRT003S-EC) [124]、Celepixe (CeleX5-MIP、CeleX-V) 和 Insightness (SiliconEye Rino 3 EVK) [103] 等知名制造商推出了创新的事件相机模型。其中,iniVation 和 Prophesee 已成为领导者,DAVIS 346 [97]、Prophesee EVK4 [203] 和 DAVIS 240 [92] 等模型在研究界越来越受到重视。本节将评述 iniVation 和 Prophesee 的各种事件相机。
iniVation 是神经形态视觉系统领域的领先公司,因其生物启发技术而闻名,该技术可提供超低延迟、高动态范围和低功耗。他们目前的产品系列包括具有 VGA 分辨率、110 dB 动态范围和每秒 1.65 亿个事件的 DVXplorer [98];具有 QVGA 分辨率、110 dB 动态范围和每秒 1 亿个事件的 DVXplorer Lite [99];具有 QVGA 分辨率、110 dB 动态范围和每秒 1 亿个事件的 DVXplorer Lite [99];具有 QVGA+ 分辨率和每秒多达 1200 万个事件的 DAVIS 346 [97];以及具有 120 dB 动态范围的DAVIS 346 AER,它提供事件和帧的输出 [94]。此外,DVXplorer S Duo[100]将基于事件的传感器与全局快门彩色图像传感器集成在一起,并由 Nvidia Jetson Nano SOM 驱动。此外,他们的 Stereo Kit [102] 包括两个设备、镜头、三脚架和其他用于高级立体视觉探索的配件。请注意,一些早期产品,如 DVXplorer Mini、DVS 240、DAVIS 240、eDVS、DVS 128、DVL-5000,已被 iniVation 停产,不再可用。此外,iniVation 还提供软件解决方案,如用于用户友好可视化的 DV [95]、用于基于 C++/Python 处理的 DV-Processing [96]、ROS 集成,以及用于事件相机使用的底层库。表 1 总结了 iniVation 事件相机的主要特点和功能。
Prophesee 提供用于探索基于事件的视觉的评估套件,包括 USB 摄像头和嵌入式启动套件。USB 摄像头包括配备 IMX636 传感器(1280x720px)[208] 的 Metavision EVK4-HD [203],可提供高动态范围(>120 dB)和低像素延迟(<100 µs); 配备 GenX320 传感器(320x320px)[201]的 Metavision EVK3- GENX320以超低功耗(低至 36 µW)和高动态范围(>120 dB)而闻名;以及配备 IMX636 传感器和 USB 3.0 接口的 Metavision EVK3-HD [202]。嵌入式入门套件包括 Metavision 入门套件--AMD Kria KV260 [205],结合了 IMX636 [236] 和 GenX320 传感器,适用于基于 FPGA 的开发;以及 Metavision 入门套件--STM32F7 [206],针对 STM32-F7 MCU 和 GenX320 传感器进行了优化,适用于低功耗应用。Metavision SDK [204] 提供了一套全面的工具,包括可视化应用程序、编程指南以及用于定制解决方案开发和样本记录的 C++ 和 Python API。表 2 总结了 Prophesee 事件相机的主要特点和功能。
6. 开拓进取:基于事件的视觉里程碑
本节将回顾在 2017 年至 2024 年(7 月)期间,基于事件的视觉领域具有里程碑意义的重要作品,重点介绍塑造该领域的关键进展,如图 4 所示。2017 年,[6] 推出了一个使用 TrueNorth 处理器的低功耗、完全基于事件的手势识别系统,以最小的功耗实现了实时准确性。[175]发布了一个综合数据集和模拟器,结合了全局快门和基于事件的传感器,推进了机器人和视觉应用的算法。[129]开发了 CIFAR10-DVS 数据集,将 CIFAR-10 图像转换为事件流,利用基于帧图像的重复闭环平滑(RCLS)运动,为事件驱动的物体分类提供了宝贵的基准。
2018 年,[161] 通过调整深度神经网络来处理事件数据,增强了自动驾驶汽车的转向预测能力。[235] 推出了 HATS,这是一种特征表示和机器学习架构,可提高物体分类准确性,,并发布了首个基于事件的大型真实世界数据集。[300]发布了多车辆立体事件相机数据集(MVSEC),为 3D 感知任务提供同步事件流和 IMU 数据。[212]开发了用于生成高质量合成事件数据的开源模拟器 ESIM,[301]还推出了用于从事件流中进行光流估计的自监督框架 EV-FlowNet。2019 年,[302] 提出了一种无监督学习框架,利用离散体积表示法从事件流中预测光流和深度。[213]开发了一种利用递归神经网络从事件数据重建高质量视频的方法,用于物体分类和视觉惯性里程测量。[189]引入了基于事件的双积分(EDI)模型,从单个模糊帧和事件数据生成清晰的高帧率视频,解决了运动模糊问题。此外,[214] 利用在模拟数据上训练的递归网络改进了强度图像和彩色视频重建。
2020 年,[196] 发布了高分辨率(1Mpx)数据集和具有时间一致性损失的递归结构,从而改进了物体检测。[68]将传统视频数据集转换为用于检测和分割任务的合成事件数据,加强了模型训练,而[224]则开发了一种神经网络,用于从事件数据中快速高效地重建图像。2021 年,[71] 引入了高分辨率 DSEC 立体数据集,以改善具有挑战性照明条件下的自动驾驶。[85]开发了 v2e 工具箱,用于从强度帧生成逼真的合成 DVS 事件,从而提高物体检测能力,尤其是在夜间。[251] 提出了 "时间透镜",这是一种帧插值方法,可提高图像质量并处理动态场景。[298]提出了一种具有实时鲁棒性的基于事件的立体视觉里程测量系统。[113]引入了 N-ImageNet 数据集,以支持使用事件摄像机进行细粒度物体识别。
2022 年,[283] 推出了 STNet,这是一种用于单目标跟踪的脉冲变换器网络,它结合了全局空间和时间线索,具有极高的准确性和速度。[241]开发了 EFNet,这是一种利用跨模态注意力的两阶段复原网络,利用 REBlur 数据集设定了运动去模糊的新基准。[222]提出了 AEGNN,通过将事件处理为稀疏、不断演化的时空图,降低了计算复杂度和延迟。[249]提出了 Time Lens++,利用参数非线性流和多尺度融合增强帧插值。2023 年,[217] 提出了 EventNeRF,它使用单色事件流实现了具有高质量 RGB 渲染的密集 3D 重建。[72]开发了循环视觉变换器(RVT),达到了最先进的物体检测性能,同时缩短了推理时间并提高了参数效率。[89]引入了 Ev-NeRF,将神经辐射场与事件数据相适应,以改进极端条件下的强度图像重建。
2024 年,[261] 引入了高分辨率数据和分层知识提炼,以提高视觉对象跟踪的速度和准确性。文献[2](SEVD)提供了用于稳健交通参与者检测的合成多视角数据,而文献[252](eTraM)则提供了 10 小时基于事件的交通监控数据,展示了事件相机在不同场景中的有效性。这些里程碑式的事件展示了基于事件的视觉技术的快速进步和不断增长的潜力。
7. 事件相机的实际应用:多样化的任务和影响
基于事件的视觉技术通过在检测、跟踪、分类、识别和估算等广泛任务中引入新功能,正在为众多领域带来变革。本节重点介绍图 5 所示的关键任务,并探讨其对不同应用领域的重大影响。在检测和跟踪方面,具有高时间分辨率和低延迟的事件相机推动了物体检测、关键点检测和跟踪方面的进步。场景自适应稀疏变换器[194]、脉冲[283]和递归视觉变换器[72]以及自监督学习[66]等创新技术提高了这些领域的准确性,使监控和自动驾驶[26]等应用受益匪浅。在分类和识别方面,事件相机明显改善了物体分类、手势和步态识别以及动作识别,尤其是在动态或复杂场景中。通过平均时间表面直方图 [235] 和时空事件云[260],事件相机捕捉详细时间信息的能力提高了物体分类能力。
此外,事件相机还能大大增强光流、运动/姿势和深度估计等估计任务。事件相机的高速和低延迟特性允许精确计算运动、方位和深度,这对理解场景动态和改善三维感知至关重要。主要进展包括用于运动估计的渐进式时空对齐[86]、全局最优对比度最大化[142]以及用于光流的切向拉长高斯信念传播[226]。这些发展对于机器人、增强现实和自主导航领域的应用至关重要。在立体和光度分析方面,基于事件的视觉支持事件立体[32]、光度立体[280]等先进技术、事件相机能够根据偏振估计物体的偏振和形状 [176],提供高分辨率深度图和详细的表面属性。对于分割任务,包括语义分割 [243]、运动/物体分割 [239] 和分割任何模型 [30],事件相机在动态和高速场景中表现出色,能够精确地理解场景并隔离物体。将基于事件的数据与传统的基于帧的数据[273]、激光雷达或红外数据[73, 294]融合,可通过结合互补信息进一步增强环境制图等应用。
基于事件的视觉技术极大地推动了重建和图像处理任务,为视频重建[268, 303]、图像重建[191, 259]、视频帧插值[150, 281]、事件去噪[9]和运动去模糊[33, 241]做出了贡献。在与生成相关的任务中,它有助于视频生成和增强[145, 258]、视频到事件的转换[68]和超分辨率[88, 153],从而促进高质量内容的创建和分析。在里程测量和 SLAM 方面,基于事件的视觉在视觉里程测量 [311] 和同步定位与映射 [27] 中发挥了关键作用,提供了精确的导航和映射能力。表 3 重点介绍了在各种任务和应用领域中使用事件相机的著名作品,强调了基于事件的视觉在应对复杂挑战和推动创新方面的变革性影响。
8. 数据促进创新:基于事件的视觉数据集
基于事件的视觉数据集为训练和评估算法提供了资源,对推动该领域的发展至关重要。使用事件相机拍摄的真实世界数据集涵盖了各种场景,而来自模拟器的合成数据集则为实验提供了可控数据。本节回顾了著名的数据集,总结见表 4 和表 5,详细列表请参见 GitHub 页面。
8.1 真实世界数据集
EventVOT [261] 数据集使用 Prophesee EVK4 高清摄像机提供高分辨率视觉物体跟踪数据,涵盖无人机、行人、车辆和球类运动等各种目标类别,并跨越各种运动速度和照明条件。 eTraM [252] 数据集提供了一个全面的交通监控数据集,包含 Prophesee EVK4 高清摄像机提供的 10 小时数据,其中包括跨越八个交通参与者类别的 200 万个边界框注释。SeAct [295] 引入了一个语义丰富的数据集,用于事件文本动作识别,该数据集由 DAVIS 346 摄像机收集,并使用 GPT-4 生成的动作说明进行了增强。DVS-Lip [247] 是使用 DAVIS 346 摄像机记录的读唇数据集,包含 100 个单词和细粒度的动作信息。DSEC [71] 提供了驾驶场景的立体数据,包括激光雷达和 GPS 测量数据,在各种光照条件下收集了 53 个序列。GEN1 [41] 提供了一个大规模汽车检测数据集,在不同驾驶条件下收集了超过 39 小时的数据。
1 MPX [196] 数据集包括来自 100 万像素事件摄像头的高分辨率数据,为汽车场景中的物体检测提供了 2500 万个边界框。N-Cars[235]通过 ATIS 摄像机采集了 80 分钟的视频,记录了城市环境中的物体分类。MVSEC [300] 包含同步立体数据,用于在不同环境中进行 3D 感知,而 DDD17 [15] 则提供基于事件和帧的驾驶数据,记录时间超过 12 小时。DvsGesture [6]是一个手势识别数据集,包含在不同光照条件下使用 DVS 128 摄像机记录的 11 种手势和手臂手势的 1 342 个实例。此外,Event Camera Dataset [175] 提供了使用 DAVIS 摄像机进行姿态估计、视觉里程测量和 SLAM 的数据。
8.2 合成数据集
SEVD 数据集[2]在 CARLA 模拟器中使用多个 DVS 摄像机提供了一个全面的基于事件的合成视觉数据集。该数据集可捕捉各种照明和天气条件下的多视角数据,用于自我和固定交通感知,包括 RGB 图像、深度图、光流和分割注释,以促进多样化的交通监控。事件-KITTI[294]数据集通过从白天生成事件流和合成夜间图像对 KITTI 进行了扩展,有助于场景流分析和运动融合。ESfP-Synthetic [176] 数据集通过使用偏振器渲染场景并使用 ESIM 模拟事件,重点关注偏振产生的形状。
N-ImageNet [113] 数据集来自 ImageNet,使用移动事件相机设置,是细粒度物体识别的基准,解决了显示器刷新机制带来的伪影问题。CIFAR10-DVS [129] 数据集将 CIFAR-10 转换为事件流,通过逼真的图像运动为事件驱动的物体分类提供了一个中等难度数据集。最后,N-MNIST 和 N-Caltech [184] 数据集利用云台相机平台将 MNIST 和 Caltech101 转换为脉冲神经形态数据集,促进了神经形态视觉和传感器运动的研究。这些合成数据集共同推进了基于事件的视觉,为各种应用提供了支持。
9. 模拟现实:基于事件的模拟器
基于事件的模拟器对于推进基于事件的视觉系统至关重要,它以可控、经济高效的方式为算法验证和应用探索提供合成数据。著名的模拟器包括 DAVIS 模拟器 [175],该模拟器通过时间插值生成高时间精度的事件流、强度帧和深度图。ESIM [212] 对其进行了扩展,提供了一个开源平台,用于对三维场景中的摄像机运动进行建模,生成事件和全面的地面实况数据。
v2e 模拟器[85]将传统视频帧转换为基于事件的真实数据,解决了高斯事件阈值不匹配等非理想问题。ICNS 模拟器[111]通过整合真实像素噪声分布,提高了噪声精度。DVS-Voltmeter [138]采用随机方法模拟现实事件,将高帧率视频中的电压变化和噪声效应纳入其中。V2CE 工具箱[291]通过动态感知时间戳推理改进了视频到事件的转换。此外,CARLA DVS 摄像头[234]实现了用高频执行模拟事件生成,以模拟微秒分辨率并根据场景动态调整传感器频率,而 Prophesee 视频到事件模拟器[200]提供了一个 Python 脚本,用于将基于帧的视频转换为基于事件的对应视频。这些模拟器对于开发和测试基于事件的视觉系统至关重要,推动了该领域的创新。表6 总结了最常用的基于事件的模拟器。
10. 结论
事件相机对视觉传感技术产生了重大影响,本综述概述了事件相机的演变过程,解释了其工作原理,并重点介绍了事件相机与传统帧式相机的不同之处。它回顾了各种模型和关键里程碑,全面概述了当今基于事件的视觉技术。事件相机在不同领域的广泛应用证明了其灵活性和潜力。本书强调了真实世界和合成数据集在推动该领域发展方面的重要性,以及模拟器在改进测试和开发方面的作用。随着研究的不断深入,巩固和共享知识对于应对新挑战和促进进一步创新至关重要。所提供的 GitHub 页面将成为研究界的宝贵资源,可访问过去的研究,并不断更新正在进行的研究和其他相关资料。