论文Review SLAM Super-LIO | RA-L 2026 | 面向嵌入式平台的高效 LiDAR-Inertial Odometry 系统

基本信息

题目：Super-LIO: A Robust and Efficient LiDAR-Inertial Odometry System with a Compact Mapping Strategy

作者：Liansheng Wang, Xinke Zhang, Chenhui Li, Dongjiao He, Yihan Pan, Jianjun Yi

方向：LiDAR-Inertial Odometry, Real-Time Robotics, Resource-Constrained Systems

核心关键词：LIO、IESKF、OctVox、HKNN、紧凑建图、嵌入式部署、ARM 平台

是否开源 ：https://github.com/Liansheng-Wang/Super-LIO.git

一句话总结 ：

Super-LIO 是一个面向资源受限平台的高效 LIO 系统，它没有从滤波框架本身大改，而是重点优化了 地图结构 和 近邻搜索：通过 OctVox 控制地图点密度，通过 HKNN 加速 scan-to-map 匹配，从而在保持精度的同时显著降低运行时间和 CPU 占用。

Introduction

LiDAR-Inertial Odometry 是机器人定位与建图中的基础模块，常用于移动机器人、无人机和自动驾驶场景。随着机器人系统中感知、规划、语言导航、多机器人协同等模块越来越多，LIO 不再是唯一消耗算力的模块，因此在嵌入式平台上既要保证实时性，又要尽可能少占用 CPU 和内存。

传统 LIO 的主要计算瓶颈通常来自 scan-to-map registration ，尤其是大量点云与地图之间的最近邻搜索。FAST-LIO2 使用 iKD-Tree 提高了增量更新效率，Faster-LIO 使用 iVox 等哈希体素结构减少插入和访问开销，但这些方法仍然可能受到局部点云密度、体素分辨率、邻域搜索范围等因素影响。Super-LIO 的动机就在于：与其让地图点越来越多、搜索越来越重，不如从源头上设计一个更紧凑、更均匀、更适合搜索的数据结构。

分析：

应用背景：无人机、移动机器人等平台算力有限，LIO 不能只追求精度，也要关注 CPU、内存和实时性。
问题聚焦：现有 LIO 中，地图结构和 KNN 搜索决定了 scan-to-map 匹配的效率。
解决思路：Super-LIO 通过 OctVox 控制地图密度，通过 HKNN 提升对应点搜索效率，从系统层面降低运行开销。

研究问题与目标

本文关注的问题可以概括为：

在不牺牲 LIO 精度和鲁棒性的前提下，如何让 LIO 在 X86 和 ARM 等不同算力平台上更加高效、稳定、低资源占用？

具体目标包括：

构建一种更紧凑的地图表示，避免局部点云过密导致搜索开销增加。
设计一种更高效的 KNN 搜索策略，在保证邻近点质量的同时减少无效候选点遍历。
将上述模块集成到滤波式 LIO 框架中，并在多种数据集和硬件平台上验证。
面向实际机器人部署，尤其是无人机、手持设备、嵌入式计算平台等资源受限场景。

主要贡献

论文的主要贡献可以归纳为三点：

提出 OctVox 紧凑地图结构
每个体素被划分为 2×2×2 个子体素，每个子体素最多维护一个代表点，因此每个体素最多存储 8 个代表点。这样既限制了点云密度，又能保持空间覆盖的均匀性。
提出 HKNN 启发式 KNN 搜索策略
HKNN 利用 OctVox 的子体素结构，预先生成按空间距离排序的候选子体素遍历列表，并结合早停机制减少不必要的候选点计算。
构建完整 Super-LIO 系统并进行跨平台验证
论文在 M2DGR、NCLT、MCD、NTU VIRAL 等公开数据集以及自采数据集上进行实验，并同时测试 X86 和 ARM 平台，验证了系统在精度、效率、CPU 占用和鲁棒性方面的表现。

分析：

这篇论文的创新点不是提出一个全新的状态估计框架，而是抓住 LIO 工程实现中的核心瓶颈：地图维护和对应点搜索。
OctVox 负责"让地图小而均匀"，HKNN 负责"让搜索快而可靠"。
这种思路非常工程化，也很适合在真实机器人系统中落地。

论文主要围绕两类相关工作展开：地图结构 和 KNN 搜索策略。

1. 基于 KD-Tree 的方法

早期 LIO 系统常使用 KD-Tree 进行地图点管理和近邻搜索，例如 FAST-LIO2 中的 iKD-Tree。iKD-Tree 相比普通 KD-Tree 支持更高效的增量更新，适合在线 LIO 系统。但是 KD-Tree 在长时间运行时仍然存在维护成本和搜索开销问题，尤其在高频点云输入下，这部分开销不可忽略。

2. 基于哈希体素的地图结构

Faster-LIO 使用 iVox 等稀疏哈希体素结构替代树结构，从而获得更好的插入效率和访问模式。但这类方法通常只是在体素层面管理点云，对体素内部的空间分布约束不足。如果某些区域点云密度较高，KNN 搜索成本仍然会增加。

3. 基于统计模型的体素方法

VGICP、iG-LIO 等方法使用体素均值、协方差等统计信息替代原始点匹配。这类方法可以提升配准质量，但往往需要额外的协方差计算和参数调节，对嵌入式平台并不总是友好。

4. Octree / Gaussian / GPU 加速方法

Octree、Gaussian map、Gaussian Splatting 类方法可以提供更丰富的地图表示，但通常带来更复杂的数据结构、更高的更新成本，部分方法还依赖 GPU。因此它们更适合高质量建图或离线/半离线重建，而不一定适合轻量级实时 LIO。

分析：

现有方法大多在"搜索效率、地图质量、内存占用、实现复杂度"之间取舍。
Super-LIO 的选择比较明确：牺牲部分地图稠密性，换取更稳定的搜索复杂度和更低的资源占用。
这也是本文相比很多"复杂建图方法"的差异点：它不是追求最丰富的地图，而是追求最适合实时定位的地图。

Method

系统整体框架

Super-LIO 仍然采用典型的紧耦合 LiDAR-Inertial Odometry 框架。系统使用 IESKF 融合 IMU 和 LiDAR 数据：IMU 在高频下进行状态预测，LiDAR 帧到来后进行点云去畸变、下采样、scan-to-map 匹配，并构建点到平面的残差用于滤波更新。论文第 3 页的 Fig.2 展示了完整流程：LiDAR 点云经过 undistortion 和 center-based downsampling 后，通过 HKNN 在 OctVox Map 中查找近邻，构造 point-to-plane residuals，再进入 IESKF update，同时更新地图。

整体流程可以简化为：

IMU propagation

↓

LiDAR undistortion

↓

Center-based downsampling

↓

HKNN matching in OctVox Map

↓

Point-to-plane residuals

↓

IESKF update

↓

OctVox map update

分析：

估计框架本身比较接近 FAST-LIO 系列的思路。
真正的重点在于地图结构 OctVox 和匹配策略 HKNN。
这说明在成熟 LIO 框架中，底层数据结构优化往往能带来非常明显的工程收益。

核心模块一：OctVox 紧凑地图结构

OctVox 是本文最核心的设计之一。它采用哈希体素地图，每个体素再细分为 2×2×2 个子体素，每个子体素维护一个代表点和计数器。因此，一个体素最多保存 8 个代表点。

传统体素地图通常只控制体素级别的点数量，或者使用体素滤波进行粗略下采样，但不一定保证体素内部点的空间分布均匀。OctVox 的优势在于：它把一个大体素划分为 8 个子空间，每个子空间最多一个代表点，从而显式控制空间密度。

OctVox 更新方式

当一个新点进入地图时：

根据点的全局坐标计算其子体素索引。
通过位运算快速得到父体素 key 和子体素编号。
如果该子体素为空，则直接初始化代表点。
如果该子体素已有代表点，并且新点与代表点距离满足合并条件，则使用增量均值更新代表点。
如果地图容量达到上限，则通过 LRU 策略移除长期未访问体素。

这种设计有几个好处：

密度有上界：每个体素最多 8 个点。
空间更均匀：不是随机保留点，而是每个子体素保留代表。
具备去噪效果：代表点通过增量平均更新，可以抑制测量噪声。
缓存友好：8 个子体素连续存储，有利于内存访问。
适合嵌入式：避免复杂树结构维护，哈希访问接近常数时间。

分析：

OctVox 的设计非常朴素，但很有效。它不是追求复杂的概率建模，而是通过规则化的空间采样解决两个问题：一是地图过密，二是搜索不稳定。对于实时系统来说，这种"简单但可控"的结构往往比复杂模型更实用。

核心模块二：HKNN 启发式近邻搜索

在 LIO 中，每个 LiDAR 点都需要在局部地图中寻找近邻点，用于拟合平面并构建点到平面残差。这个过程会被大量重复执行，因此 KNN 搜索是主要耗时模块之一。

普通体素搜索通常会遍历固定邻域，例如 18 邻域、26 邻域或更大范围。但固定邻域有两个问题：

搜索范围太小，可能找不到真正合适的邻居。
搜索范围太大，候选点数量快速增加，计算开销变大。

HKNN 的思路是：不是盲目遍历所有邻域，而是按照几何距离从近到远访问候选子体素，并在已经找到足够好的 K 个邻居后提前停止。

HKNN 的关键机制

预计算候选子体素列表
在初始化阶段，根据最大搜索半径和体素分辨率，预先计算不同子体素之间的最小几何距离。
按距离分组遍历
候选子体素按照与查询子体素的距离由近到远分组。搜索时先访问更可能包含近邻的子体素。
利用子体素对称性
由于 OctVox 的 8 个子体素具有空间对称关系，论文通过坐标轴反射和 bit XOR 操作生成不同子体素对应的遍历列表，避免重复计算。
使用最大堆维护 Top-K
搜索过程中维护一个大小为 K 的最大堆，堆中保存当前找到的 K 个最近邻。
基于距离下界提前终止
如果当前已经找到 K 个近邻，并且下一个候选组的距离下界已经大于当前最远近邻距离，那么后续候选不可能产生更优结果，可以直接停止。

论文第 4 页的 Fig.3 直观展示了 HKNN 的候选子体素按距离分组过程；第 5 页 Algorithm 1 给出了具体搜索流程。

分析：

HKNN 的本质是把"空间搜索"转化为"有序候选访问 + 几何下界剪枝"。它不是近似搜索，而是在设定搜索半径内通过下界判断减少无效访问。这个思路值得借鉴到其他点云配准或局部地图搜索任务中。

实验

实验设置

论文将 Super-LIO 与 FAST-LIO2、Faster-LIO、iG-LIO 等轻量级 LIO 方法进行比较。为了分析 HKNN 的作用，作者还设计了一个消融版本 Super-LIO*，它保留 OctVox，但将 HKNN 替换为 Faster-LIO 的 18 邻域体素搜索。为了公平比较，作者还实现了 FAST-LIO2*，将官方 FAST-LIO2 中的 OpenMP 并行替换为 Intel TBB，使其并发行为更接近 Super-LIO。

使用的数据集包括：

M2DGR
NCLT
MCD
NTU VIRAL
自采数据集，包括森林、公园、地下车库、办公楼等场景

硬件平台包括：

X86 平台：AMD 5800H，数据以 5× 速度回放
ARM 平台：NVIDIA Orin NX，数据以 1× 速度回放

精度结果

在公开数据集上，Super-LIO 的平均 RMSE 为 0.738 m，优于 Super-LIO*、FAST-LIO2、FAST-LIO2*、Faster-LIO 和 iG-LIO 的平均结果。值得注意的是，Super-LIO 并不是每条序列都最优，但整体平均精度最好，这说明 OctVox 的紧凑地图并没有明显牺牲定位精度。Super-LIO* 的结果略差于 Super-LIO，也说明 HKNN 对数据关联质量有正向作用。

分析：

OctVox 虽然减少了地图点数量，但通过空间均匀性保留了关键几何结构。
HKNN 不只是加速搜索，也改善了对应点质量。
这表明"紧凑地图"不等于"低精度地图"，关键在于是否保留了有效几何信息。

效率结果

在 X86 平台上，Super-LIO 平均每帧处理时间为 2.99 ms，而 FAST-LIO2 为 10.90 ms，Faster-LIO 为 8.80 ms，iG-LIO 为 4.89 ms。在 ARM 平台上，Super-LIO 平均每帧处理时间为 10.47 ms，而 FAST-LIO2 为 41.34 ms，Faster-LIO 为 22.53 ms，iG-LIO 为 21.24 ms。论文报告 Super-LIO 相比 FAST-LIO2 在 X86 和 ARM 上分别达到约 3.7× 和 4.2× 的加速。

分析：

Super-LIO 在 ARM 上的优势更明显，说明其设计确实适合资源受限平台。
iG-LIO 在 X86 上表现较好，但在 ARM 上效率下降较明显，可能与其统计建模和协方差计算开销有关。
对于无人机、手持建图设备等平台，ARM 上的性能更有参考价值。

模块耗时与内存分析

论文进一步分析了不同模块的耗时，发现 state update 是 LIO 系统中的主要耗时部分，而 Super-LIO 最大的提升也来自 state update 阶段。这说明 OctVox 和 HKNN 确实命中了系统瓶颈。论文还在 NCLT 1 长序列上比较了地图内存使用，OctVox 表现出更低、更平滑的内存占用，开启 LRU 后内存可以在达到容量上限后稳定下来。

分析：

论文不是只给整体时间，而是进一步分析了模块级耗时和内存曲线，这让结论更有说服力。
对于 LIO 系统优化来说，定位瓶颈比盲目并行更重要。
OctVox 的价值不仅是快，还包括内存行为更稳定。

鲁棒性实验

自采数据集覆盖了手持和 UAV 平台，包括森林、公园、地下车库、办公楼等环境。论文中提到，UAV 序列最大线速度达到 4.95 m/s，最大角速度达到 4.33 rad/s，最长轨迹为 645 m；室内场景还包含宽度小于 1.5 m 的狭窄走廊。Super-LIO 在这些场景中保持了稳定运行。

分析：

自采数据集增强了工程可信度，尤其是 UAV 和狭窄走廊对 LIO 都比较有挑战。
不过，自采数据主要用于效率和鲁棒性展示，公开数据集才是主要精度对比依据。

创新点与技术亮点

1. 从"地图结构"切入优化 LIO

很多 LIO 工作关注滤波框架、残差设计或后端优化，而 Super-LIO 选择从地图结构切入。它指出 scan-to-map 匹配的核心成本由地图结构和近邻搜索决定，因此通过改造地图和搜索策略提升整体性能。

这个切入点非常务实。对于已经成熟的 IESKF LIO 框架来说，继续修改状态估计部分的收益可能有限，而优化地图和搜索往往可以直接减少每帧运行时间。

2. OctVox 显式控制空间密度

OctVox 的关键不是简单减少点数，而是控制点在空间中的分布。每个体素最多 8 个子体素代表点，使得地图既紧凑，又不会因为随机下采样破坏局部几何结构。

这比单纯的 voxel filter 更细致，也比复杂统计建模更轻量。

3. HKNN 将搜索顺序结构化

HKNN 的启发在于：体素地图不是无序点集，而是有规则网格结构。既然网格结构已知，就可以预先计算候选子体素的访问优先级，而不是每次查询都重新判断。预计算 + 对称性 + 早停，这三个设计共同减少了在线阶段的计算量。

4. 精度与效率兼顾

Super-LIO 的实验结果说明，紧凑地图并没有明显降低精度，反而在平均 RMSE 上优于多个基线方法。这说明高效并不一定意味着粗糙，关键是地图压缩方式要保留对定位有用的几何信息。

5. 面向真实部署的系统设计

论文在 X86 和 ARM 两类平台上进行测试，并关注 CPU 占用、内存使用、模块耗时等指标。这比只报告轨迹 RMSE 更贴近实际机器人系统部署。

值得借鉴的地方

1. 做系统优化时要找到真正瓶颈

Super-LIO 的核心经验是：不要一上来就改滤波器或堆复杂模块，而是先分析系统中真正耗时的部分。对于 LIO，scan-to-map 中的地图访问和 KNN 搜索是高频瓶颈，因此优化这部分会带来直接收益。

2. 数据结构设计可以决定算法上限

OctVox 说明，一个好的数据结构不仅能减少内存，还能改善后续搜索效率。它通过固定每个体素最多 8 个代表点，使得搜索复杂度更加可控。这种"让复杂度有边界"的思想很适合实时机器人系统。

3. 简单方法也可以有很强工程价值

OctVox 的增量均值、子体素划分、LRU 缓存、哈希表访问都不算特别复杂，但组合起来非常有效。工程系统中不一定要追求复杂模型，稳定、可控、易实现的设计往往更有价值。

4. 消融实验设计值得学习

论文设计了 Super-LIO* 来单独验证 HKNN 的贡献，又设计 FAST-LIO2* 来控制并行实现差异。这种实验设计比简单拿官方代码直接比较更严谨。

5. 嵌入式部署要同时看时间、CPU 和内存

很多论文只报告每帧耗时，但 Super-LIO 同时关注 CPU 使用率、内存变化、ARM 平台表现。这对实际部署非常重要，因为机器人系统中 LIO 只是多个模块之一，不能独占资源。

局限性分析

1. 仍然是前端里程计系统，缺少全局一致性

Super-LIO 主要解决的是实时 LIO 前端问题，并没有重点讨论回环检测、全局 pose graph 优化或长期地图一致性。因此在长时间、大范围运行中，累积漂移仍然可能存在。

2. 紧凑地图可能牺牲细节表达

OctVox 每个子体素只维护一个代表点，这对定位足够高效，但对于高精度稠密建图、细节重建、语义建图等任务可能不够。它更像是"定位友好型地图"，而不是"高保真重建地图"。

3. 参数敏感性分析不足

系统中仍然存在多个关键参数，例如体素大小、子体素分辨率、HKNN 搜索半径、合并阈值、最大计数、LRU 容量等。论文使用统一参数验证了多个数据集，但对这些参数在不同 LiDAR、不同速度、不同场景下的敏感性分析还不够充分。

4. 对退化场景的理论分析有限

论文展示了较好的鲁棒性，但对于长走廊、单平面、强动态物体、稀疏点云等退化场景，更多是通过实验说明系统稳定，没有深入分析 OctVox/HKNN 在退化条件下的失败边界。

5. 自采数据集主要展示鲁棒性，缺少完整真值评估

自采数据覆盖了丰富场景，但如果缺少高精度 ground truth，那么更多只能说明系统可以稳定运行，难以严格量化精度。公开数据集上的 RMSE 结果更具可比性。

6. 加速效果与具体硬件和实现有关

论文中的 3.7×、4.2× 加速是在特定硬件、参数和回放速度下得到的。换到其他 CPU、编译器、并行策略或 LiDAR 频率后，绝对耗时和加速比例可能变化。因此实际部署时仍需要重新 benchmark。

总结

Super-LIO 是一篇非常偏工程落地的 LIO 论文。它没有提出复杂的新滤波框架，而是抓住 LIO 系统中最实际的瓶颈：地图结构和 KNN 搜索。通过 OctVox，系统让地图点数量和空间分布变得更加可控；通过 HKNN，系统减少了无效候选点访问，提高了 scan-to-map 匹配效率。实验结果表明，Super-LIO 在保持较好精度的同时，在 X86 和 ARM 平台上都具有明显效率优势。

我认为这篇论文最大的价值在于它提醒我们：
对于实时 SLAM 系统，算法框架固然重要，但数据结构、内存布局、搜索策略和跨平台实现同样决定系统能否真正部署。

对于后续工作，可以考虑将 Super-LIO 与回环检测、全局优化、动态物体剔除、在线标定等模块结合，进一步从"高效前端里程计"扩展为完整的轻量级 SLAM 系统。