
1. 研究背景与问题
核心痛点:传统基于帧(Frame-based)的视觉惯性里程计(VI-SLAM)系统在面对高速运动(引入运动模糊)或极端光照环境(HDR 场景)时,传感器自身的物理局限导致系统极易失效。
事件相机的矛盾:虽然事件相机具备高动态范围(HDR)和微秒级时序分辨率,但现有的事件处理方法往往被迫在"高精度(离线/非实时)"与"实时性(机载运行)"之间进行妥协,或依赖于消耗巨大的计算资源,难以适配无人机(UAV)等嵌入式载体。
研究核心问题:是否可以仅利用事件相机作为唯一的视觉传感模态,实现无人机的实时自主闭环控制与大规模状态估计?
2. 核心贡献

提出 AERO-VIS 系统:一个基于 OKVIS2 框架扩展的、完全异步处理的立体事件-惯性 SLAM 系统,专门针对机载计算资源进行了极致优化。
优化输入表示与网络结构:创新性地提出了基于"恒定事件计数(Constant Event Count)"的 MCTS_{Ne} 表示法,并设计了名为 SuperLitE 的轻量级关键点检测与描述网络,在保持高精度的同时,将机载推理耗时降低了约 90%。
首个闭环 UAV 控制演示:在工程上首次成功验证了完全依赖机载事件感知进行闭环 UAV 控制,并在高动态、HDR 等极端场景中展现了优于传统帧基系统的鲁棒性。
3. 相关工作

特征基方法:如 ESVIO 等方法虽然通过滑窗优化实现了一定程度的实时性,但往往需要额外引入帧相机数据以保证稳定性,纯事件模式下的表现受限。
直接法:如 ESVO2 等,虽然实现了 VGA 分辨率下的实时处理,但计算资源需求较高,主要针对桌面级 GPU 开发。
数据驱动方法:如 SuperEvent 等虽然大幅提升了关键点检测性能,但缺乏实时处理架构设计,无法满足嵌入式平台的部署需求。
4. 方法/模型/数据

异步系统架构:AERO-VIS 解耦了事件预处理(Preprocessing)与状态估计(Frontend/Backend)线程。系统利用多通道时间表面(MCTS)作为输入,通过"冻结/解冻"机制在 GPU 上异步更新状态,确保前端始终处理最新观测,极大降低了系统延迟。


5. 主要结果与证据

数据集验证:在 rpg-stereo、TUM-VIE 和 VECtor 等基准数据集上,AERO-VIS 在计算资源受限的嵌入式设备上实现了与离线桌面级算法相媲美甚至更优的绝对轨迹误差(ATE)。
HDR 与高动态鲁棒性:在模拟 HDR 场景和剧烈晃动(Aggressive Motion)实验中,AERO-VIS 表现出极强的稳定性。相比于 OKVIS2(帧基),AERO-VIS 在极端光影变化下能够持续追踪,未发生崩溃。
长时运行能力:在 20 分钟、2 公里的城市真实场景步行实验中,系统不仅成功闭环,且漂移率维持在 1-2% 以内,无需任何外部辅助。
6. 应用与实践意义
赋能机载感知:证明了纯事件相机方案在机载领域的可行性,为无人机在复杂光照、高速运动下的自主导航提供了明确的技术落地路径。
架构范式:AERO-VIS 的"异步架构+轻量化数据驱动前端"设计思路,为后续开发低功耗、高实时的视觉惯性里程计系统提供了通用框架。
7.落地底座方案:开启"深度即战斗力"的感知入口
如果把 EventHub 看作事件双目模型训练侧的一次补课,那么真正落到机器人、AGV、户外清洁设备这类场景时,前端硬件仍然需要给模型提供足够稳定的双目事件输入。
围绕这一方向,ShiMeta Pi 目前提供两类产品形态。

一类是面向高精度感知的 【灵光一号】双目视觉系统。它更适合对深度细节要求高的场景,比如工业 AGV、户外机器人、复杂环境避障等。高分辨率双目输入配合事件立体匹配模型,可以输出更细的深度结构,让设备在边缘、障碍物和动态目标附近获得更可靠的空间判断。

另一类是面向轻量化部署的 事件相机(EVS)模组系列。这类方案更适合紧凑型具身智能设备,强调小体积、低延迟和边缘端直连。通过 MIPI 等原生接口,双目事件流可以更直接地进入 Jetson Orin 等算力平台,减少中间转换带来的延迟,更方便做实时视差估计和前端感知集成。
简单说,前者偏向高精度深度感知,后者偏向轻量化实时部署。对于希望把事件双目从论文模型推进到真实设备里的团队,这两类产品对应的是两条不同的落地路径。
最后:边缘计算环境下的异步流水线工程对齐
在将 AERO-VIS 这种前沿算法落地于 NVIDIA Jetson Orin NX 等嵌入式平台时,工程实现上存在几个关键的适配要点:
异步流水线的资源竞争控制:AERO-VIS 采用了线程解耦策略,Preprocessing 线程与 SLAM Frontend 异步运行。工程上,必须通过高效的互斥锁(Mutex)或环形缓冲区(Circular Buffer)实现 MCTS_{Ne} Tensor 的安全更新,防止在推理过程中发生读写撕裂,同时确保后端优化线程(Backend Optimization)不会因为频繁的闭环检测(Loop Closure)抢占前端的实时调度资源。
算力受限下的推理优化链路:由于 SuperLitE 架构虽然轻量,但在高分辨率事件流下依然有较大吞吐压力,论文中采用了 CUDA Graph Capture 技术,减少了 Kernel 启动开销。这对于实时性要求极高的无人机系统至关重要,能确保在复杂场景下(如运动速度加快导致事件密度激增时)推理时延维持在恒定低位,避免状态估计链路因阻塞而产生过大的时间戳滞后。
机载环境的各种不可控干扰:无人机高速旋转产生的振动会导致事件流呈现出特有的高频噪声特征,AERO-VIS 通过 MCTS_{Ne} 的输入标准化处理,一定程度上缓解了振动对特征提取的干扰。工程上,这种设计思路不仅适用于纯事件流,若未来考虑引入帧流作为补充,其"异步解耦"的设计理念同样是构建多模态融合方案的基石。