基本信息
题目:Super-LIO: A Robust and Efficient LiDAR-Inertial Odometry System with a Compact Mapping Strategy
作者:Liansheng Wang, Xinke Zhang, Chenhui Li, Dongjiao He, Yihan Pan, Jianjun Yi
方向:LiDAR-Inertial Odometry, Real-Time Robotics, Resource-Constrained Systems
核心关键词:LIO、IESKF、OctVox、HKNN、紧凑建图、嵌入式部署、ARM 平台
是否开源 :https://github.com/Liansheng-Wang/Super-LIO.git
一句话总结 :
Super-LIO 是一个面向资源受限平台的高效 LIO 系统,它没有从滤波框架本身大改,而是重点优化了 地图结构 和 近邻搜索:通过 OctVox 控制地图点密度,通过 HKNN 加速 scan-to-map 匹配,从而在保持精度的同时显著降低运行时间和 CPU 占用。

Introduction
LiDAR-Inertial Odometry 是机器人定位与建图中的基础模块,常用于移动机器人、无人机和自动驾驶场景。随着机器人系统中感知、规划、语言导航、多机器人协同等模块越来越多,LIO 不再是唯一消耗算力的模块,因此在嵌入式平台上既要保证实时性,又要尽可能少占用 CPU 和内存。
传统 LIO 的主要计算瓶颈通常来自 scan-to-map registration ,尤其是大量点云与地图之间的最近邻搜索。FAST-LIO2 使用 iKD-Tree 提高了增量更新效率,Faster-LIO 使用 iVox 等哈希体素结构减少插入和访问开销,但这些方法仍然可能受到局部点云密度、体素分辨率、邻域搜索范围等因素影响。Super-LIO 的动机就在于:与其让地图点越来越多、搜索越来越重,不如从源头上设计一个更紧凑、更均匀、更适合搜索的数据结构。
分析:
- 应用背景:无人机、移动机器人等平台算力有限,LIO 不能只追求精度,也要关注 CPU、内存和实时性。
- 问题聚焦:现有 LIO 中,地图结构和 KNN 搜索决定了 scan-to-map 匹配的效率。
- 解决思路:Super-LIO 通过 OctVox 控制地图密度,通过 HKNN 提升对应点搜索效率,从系统层面降低运行开销。
研究问题与目标
本文关注的问题可以概括为:
在不牺牲 LIO 精度和鲁棒性的前提下,如何让 LIO 在 X86 和 ARM 等不同算力平台上更加高效、稳定、低资源占用?
具体目标包括:
- 构建一种更紧凑的地图表示,避免局部点云过密导致搜索开销增加。
- 设计一种更高效的 KNN 搜索策略,在保证邻近点质量的同时减少无效候选点遍历。
- 将上述模块集成到滤波式 LIO 框架中,并在多种数据集和硬件平台上验证。
- 面向实际机器人部署,尤其是无人机、手持设备、嵌入式计算平台等资源受限场景。
主要贡献
论文的主要贡献可以归纳为三点:
- 提出 OctVox 紧凑地图结构
每个体素被划分为 2×2×2 个子体素,每个子体素最多维护一个代表点,因此每个体素最多存储 8 个代表点。这样既限制了点云密度,又能保持空间覆盖的均匀性。 - 提出 HKNN 启发式 KNN 搜索策略
HKNN 利用 OctVox 的子体素结构,预先生成按空间距离排序的候选子体素遍历列表,并结合早停机制减少不必要的候选点计算。 - 构建完整 Super-LIO 系统并进行跨平台验证
论文在 M2DGR、NCLT、MCD、NTU VIRAL 等公开数据集以及自采数据集上进行实验,并同时测试 X86 和 ARM 平台,验证了系统在精度、效率、CPU 占用和鲁棒性方面的表现。
分析:
- 这篇论文的创新点不是提出一个全新的状态估计框架,而是抓住 LIO 工程实现中的核心瓶颈:地图维护和对应点搜索。
- OctVox 负责"让地图小而均匀",HKNN 负责"让搜索快而可靠"。
- 这种思路非常工程化,也很适合在真实机器人系统中落地。
Related Works
论文主要围绕两类相关工作展开:地图结构 和 KNN 搜索策略。
1. 基于 KD-Tree 的方法
早期 LIO 系统常使用 KD-Tree 进行地图点管理和近邻搜索,例如 FAST-LIO2 中的 iKD-Tree。iKD-Tree 相比普通 KD-Tree 支持更高效的增量更新,适合在线 LIO 系统。但是 KD-Tree 在长时间运行时仍然存在维护成本和搜索开销问题,尤其在高频点云输入下,这部分开销不可忽略。
2. 基于哈希体素的地图结构
Faster-LIO 使用 iVox 等稀疏哈希体素结构替代树结构,从而获得更好的插入效率和访问模式。但这类方法通常只是在体素层面管理点云,对体素内部的空间分布约束不足。如果某些区域点云密度较高,KNN 搜索成本仍然会增加。
3. 基于统计模型的体素方法
VGICP、iG-LIO 等方法使用体素均值、协方差等统计信息替代原始点匹配。这类方法可以提升配准质量,但往往需要额外的协方差计算和参数调节,对嵌入式平台并不总是友好。
4. Octree / Gaussian / GPU 加速方法
Octree、Gaussian map、Gaussian Splatting 类方法可以提供更丰富的地图表示,但通常带来更复杂的数据结构、更高的更新成本,部分方法还依赖 GPU。因此它们更适合高质量建图或离线/半离线重建,而不一定适合轻量级实时 LIO。
分析:
- 现有方法大多在"搜索效率、地图质量、内存占用、实现复杂度"之间取舍。
- Super-LIO 的选择比较明确:牺牲部分地图稠密性,换取更稳定的搜索复杂度和更低的资源占用。
- 这也是本文相比很多"复杂建图方法"的差异点:它不是追求最丰富的地图,而是追求最适合实时定位的地图。
Method
系统整体框架

Super-LIO 仍然采用典型的紧耦合 LiDAR-Inertial Odometry 框架。系统使用 IESKF 融合 IMU 和 LiDAR 数据:IMU 在高频下进行状态预测,LiDAR 帧到来后进行点云去畸变、下采样、scan-to-map 匹配,并构建点到平面的残差用于滤波更新。论文第 3 页的 Fig.2 展示了完整流程:LiDAR 点云经过 undistortion 和 center-based downsampling 后,通过 HKNN 在 OctVox Map 中查找近邻,构造 point-to-plane residuals,再进入 IESKF update,同时更新地图。
整体流程可以简化为:
IMU propagation
↓
LiDAR undistortion
↓
Center-based downsampling
↓
HKNN matching in OctVox Map
↓
Point-to-plane residuals
↓
IESKF update
↓
OctVox map update
分析:
- 估计框架本身比较接近 FAST-LIO 系列的思路。
- 真正的重点在于地图结构 OctVox 和匹配策略 HKNN。
- 这说明在成熟 LIO 框架中,底层数据结构优化往往能带来非常明显的工程收益。
核心模块一:OctVox 紧凑地图结构
OctVox 是本文最核心的设计之一。它采用哈希体素地图,每个体素再细分为 2×2×2 个子体素,每个子体素维护一个代表点和计数器。因此,一个体素最多保存 8 个代表点。
传统体素地图通常只控制体素级别的点数量,或者使用体素滤波进行粗略下采样,但不一定保证体素内部点的空间分布均匀。OctVox 的优势在于:它把一个大体素划分为 8 个子空间,每个子空间最多一个代表点,从而显式控制空间密度。
OctVox 更新方式
当一个新点进入地图时:
- 根据点的全局坐标计算其子体素索引。
- 通过位运算快速得到父体素 key 和子体素编号。
- 如果该子体素为空,则直接初始化代表点。
- 如果该子体素已有代表点,并且新点与代表点距离满足合并条件,则使用增量均值更新代表点。
- 如果地图容量达到上限,则通过 LRU 策略移除长期未访问体素。
这种设计有几个好处:
- 密度有上界:每个体素最多 8 个点。
- 空间更均匀:不是随机保留点,而是每个子体素保留代表。
- 具备去噪效果:代表点通过增量平均更新,可以抑制测量噪声。
- 缓存友好:8 个子体素连续存储,有利于内存访问。
- 适合嵌入式:避免复杂树结构维护,哈希访问接近常数时间。
分析:
OctVox 的设计非常朴素,但很有效。它不是追求复杂的概率建模,而是通过规则化的空间采样解决两个问题:一是地图过密,二是搜索不稳定。对于实时系统来说,这种"简单但可控"的结构往往比复杂模型更实用。
核心模块二:HKNN 启发式近邻搜索
在 LIO 中,每个 LiDAR 点都需要在局部地图中寻找近邻点,用于拟合平面并构建点到平面残差。这个过程会被大量重复执行,因此 KNN 搜索是主要耗时模块之一。
普通体素搜索通常会遍历固定邻域,例如 18 邻域、26 邻域或更大范围。但固定邻域有两个问题:
- 搜索范围太小,可能找不到真正合适的邻居。
- 搜索范围太大,候选点数量快速增加,计算开销变大。
HKNN 的思路是:不是盲目遍历所有邻域,而是按照几何距离从近到远访问候选子体素,并在已经找到足够好的 K 个邻居后提前停止。
HKNN 的关键机制

- 预计算候选子体素列表
在初始化阶段,根据最大搜索半径和体素分辨率,预先计算不同子体素之间的最小几何距离。 - 按距离分组遍历
候选子体素按照与查询子体素的距离由近到远分组。搜索时先访问更可能包含近邻的子体素。 - 利用子体素对称性
由于 OctVox 的 8 个子体素具有空间对称关系,论文通过坐标轴反射和 bit XOR 操作生成不同子体素对应的遍历列表,避免重复计算。 - 使用最大堆维护 Top-K
搜索过程中维护一个大小为 K 的最大堆,堆中保存当前找到的 K 个最近邻。 - 基于距离下界提前终止
如果当前已经找到 K 个近邻,并且下一个候选组的距离下界已经大于当前最远近邻距离,那么后续候选不可能产生更优结果,可以直接停止。
论文第 4 页的 Fig.3 直观展示了 HKNN 的候选子体素按距离分组过程;第 5 页 Algorithm 1 给出了具体搜索流程。
分析:
HKNN 的本质是把"空间搜索"转化为"有序候选访问 + 几何下界剪枝"。它不是近似搜索,而是在设定搜索半径内通过下界判断减少无效访问。这个思路值得借鉴到其他点云配准或局部地图搜索任务中。
实验
实验设置
论文将 Super-LIO 与 FAST-LIO2、Faster-LIO、iG-LIO 等轻量级 LIO 方法进行比较。为了分析 HKNN 的作用,作者还设计了一个消融版本 Super-LIO*,它保留 OctVox,但将 HKNN 替换为 Faster-LIO 的 18 邻域体素搜索。为了公平比较,作者还实现了 FAST-LIO2*,将官方 FAST-LIO2 中的 OpenMP 并行替换为 Intel TBB,使其并发行为更接近 Super-LIO。
使用的数据集包括:
- M2DGR
- NCLT
- MCD
- NTU VIRAL
- 自采数据集,包括森林、公园、地下车库、办公楼等场景
硬件平台包括:
- X86 平台:AMD 5800H,数据以 5× 速度回放
- ARM 平台:NVIDIA Orin NX,数据以 1× 速度回放
精度结果

在公开数据集上,Super-LIO 的平均 RMSE 为 0.738 m,优于 Super-LIO*、FAST-LIO2、FAST-LIO2*、Faster-LIO 和 iG-LIO 的平均结果。值得注意的是,Super-LIO 并不是每条序列都最优,但整体平均精度最好,这说明 OctVox 的紧凑地图并没有明显牺牲定位精度。Super-LIO* 的结果略差于 Super-LIO,也说明 HKNN 对数据关联质量有正向作用。

分析:
- OctVox 虽然减少了地图点数量,但通过空间均匀性保留了关键几何结构。
- HKNN 不只是加速搜索,也改善了对应点质量。
- 这表明"紧凑地图"不等于"低精度地图",关键在于是否保留了有效几何信息。
效率结果
在 X86 平台上,Super-LIO 平均每帧处理时间为 2.99 ms,而 FAST-LIO2 为 10.90 ms,Faster-LIO 为 8.80 ms,iG-LIO 为 4.89 ms。在 ARM 平台上,Super-LIO 平均每帧处理时间为 10.47 ms,而 FAST-LIO2 为 41.34 ms,Faster-LIO 为 22.53 ms,iG-LIO 为 21.24 ms。论文报告 Super-LIO 相比 FAST-LIO2 在 X86 和 ARM 上分别达到约 3.7× 和 4.2× 的加速。


分析:
- Super-LIO 在 ARM 上的优势更明显,说明其设计确实适合资源受限平台。
- iG-LIO 在 X86 上表现较好,但在 ARM 上效率下降较明显,可能与其统计建模和协方差计算开销有关。
- 对于无人机、手持建图设备等平台,ARM 上的性能更有参考价值。
模块耗时与内存分析
论文进一步分析了不同模块的耗时,发现 state update 是 LIO 系统中的主要耗时部分,而 Super-LIO 最大的提升也来自 state update 阶段。这说明 OctVox 和 HKNN 确实命中了系统瓶颈。论文还在 NCLT 1 长序列上比较了地图内存使用,OctVox 表现出更低、更平滑的内存占用,开启 LRU 后内存可以在达到容量上限后稳定下来。

分析:
- 论文不是只给整体时间,而是进一步分析了模块级耗时和内存曲线,这让结论更有说服力。
- 对于 LIO 系统优化来说,定位瓶颈比盲目并行更重要。
- OctVox 的价值不仅是快,还包括内存行为更稳定。
鲁棒性实验
自采数据集覆盖了手持和 UAV 平台,包括森林、公园、地下车库、办公楼等环境。论文中提到,UAV 序列最大线速度达到 4.95 m/s,最大角速度达到 4.33 rad/s,最长轨迹为 645 m;室内场景还包含宽度小于 1.5 m 的狭窄走廊。Super-LIO 在这些场景中保持了稳定运行。
分析:
- 自采数据集增强了工程可信度,尤其是 UAV 和狭窄走廊对 LIO 都比较有挑战。
- 不过,自采数据主要用于效率和鲁棒性展示,公开数据集才是主要精度对比依据。
创新点与技术亮点
1. 从"地图结构"切入优化 LIO
很多 LIO 工作关注滤波框架、残差设计或后端优化,而 Super-LIO 选择从地图结构切入。它指出 scan-to-map 匹配的核心成本由地图结构和近邻搜索决定,因此通过改造地图和搜索策略提升整体性能。
这个切入点非常务实。对于已经成熟的 IESKF LIO 框架来说,继续修改状态估计部分的收益可能有限,而优化地图和搜索往往可以直接减少每帧运行时间。
2. OctVox 显式控制空间密度
OctVox 的关键不是简单减少点数,而是控制点在空间中的分布。每个体素最多 8 个子体素代表点,使得地图既紧凑,又不会因为随机下采样破坏局部几何结构。
这比单纯的 voxel filter 更细致,也比复杂统计建模更轻量。
3. HKNN 将搜索顺序结构化
HKNN 的启发在于:体素地图不是无序点集,而是有规则网格结构。既然网格结构已知,就可以预先计算候选子体素的访问优先级,而不是每次查询都重新判断。预计算 + 对称性 + 早停,这三个设计共同减少了在线阶段的计算量。
4. 精度与效率兼顾
Super-LIO 的实验结果说明,紧凑地图并没有明显降低精度,反而在平均 RMSE 上优于多个基线方法。这说明高效并不一定意味着粗糙,关键是地图压缩方式要保留对定位有用的几何信息。
5. 面向真实部署的系统设计
论文在 X86 和 ARM 两类平台上进行测试,并关注 CPU 占用、内存使用、模块耗时等指标。这比只报告轨迹 RMSE 更贴近实际机器人系统部署。
值得借鉴的地方
1. 做系统优化时要找到真正瓶颈
Super-LIO 的核心经验是:不要一上来就改滤波器或堆复杂模块,而是先分析系统中真正耗时的部分。对于 LIO,scan-to-map 中的地图访问和 KNN 搜索是高频瓶颈,因此优化这部分会带来直接收益。
2. 数据结构设计可以决定算法上限
OctVox 说明,一个好的数据结构不仅能减少内存,还能改善后续搜索效率。它通过固定每个体素最多 8 个代表点,使得搜索复杂度更加可控。这种"让复杂度有边界"的思想很适合实时机器人系统。
3. 简单方法也可以有很强工程价值
OctVox 的增量均值、子体素划分、LRU 缓存、哈希表访问都不算特别复杂,但组合起来非常有效。工程系统中不一定要追求复杂模型,稳定、可控、易实现的设计往往更有价值。
4. 消融实验设计值得学习
论文设计了 Super-LIO* 来单独验证 HKNN 的贡献,又设计 FAST-LIO2* 来控制并行实现差异。这种实验设计比简单拿官方代码直接比较更严谨。
5. 嵌入式部署要同时看时间、CPU 和内存
很多论文只报告每帧耗时,但 Super-LIO 同时关注 CPU 使用率、内存变化、ARM 平台表现。这对实际部署非常重要,因为机器人系统中 LIO 只是多个模块之一,不能独占资源。
局限性分析
1. 仍然是前端里程计系统,缺少全局一致性
Super-LIO 主要解决的是实时 LIO 前端问题,并没有重点讨论回环检测、全局 pose graph 优化或长期地图一致性。因此在长时间、大范围运行中,累积漂移仍然可能存在。
2. 紧凑地图可能牺牲细节表达
OctVox 每个子体素只维护一个代表点,这对定位足够高效,但对于高精度稠密建图、细节重建、语义建图等任务可能不够。它更像是"定位友好型地图",而不是"高保真重建地图"。
3. 参数敏感性分析不足
系统中仍然存在多个关键参数,例如体素大小、子体素分辨率、HKNN 搜索半径、合并阈值、最大计数、LRU 容量等。论文使用统一参数验证了多个数据集,但对这些参数在不同 LiDAR、不同速度、不同场景下的敏感性分析还不够充分。
4. 对退化场景的理论分析有限
论文展示了较好的鲁棒性,但对于长走廊、单平面、强动态物体、稀疏点云等退化场景,更多是通过实验说明系统稳定,没有深入分析 OctVox/HKNN 在退化条件下的失败边界。
5. 自采数据集主要展示鲁棒性,缺少完整真值评估
自采数据覆盖了丰富场景,但如果缺少高精度 ground truth,那么更多只能说明系统可以稳定运行,难以严格量化精度。公开数据集上的 RMSE 结果更具可比性。
6. 加速效果与具体硬件和实现有关
论文中的 3.7×、4.2× 加速是在特定硬件、参数和回放速度下得到的。换到其他 CPU、编译器、并行策略或 LiDAR 频率后,绝对耗时和加速比例可能变化。因此实际部署时仍需要重新 benchmark。
总结
Super-LIO 是一篇非常偏工程落地的 LIO 论文。它没有提出复杂的新滤波框架,而是抓住 LIO 系统中最实际的瓶颈:地图结构和 KNN 搜索。通过 OctVox,系统让地图点数量和空间分布变得更加可控;通过 HKNN,系统减少了无效候选点访问,提高了 scan-to-map 匹配效率。实验结果表明,Super-LIO 在保持较好精度的同时,在 X86 和 ARM 平台上都具有明显效率优势。
我认为这篇论文最大的价值在于它提醒我们:
对于实时 SLAM 系统,算法框架固然重要,但数据结构、内存布局、搜索策略和跨平台实现同样决定系统能否真正部署。
对于后续工作,可以考虑将 Super-LIO 与回环检测、全局优化、动态物体剔除、在线标定等模块结合,进一步从"高效前端里程计"扩展为完整的轻量级 SLAM 系统。