
豆包阅读
一、论文基础信息
- 发表信息 :2025 年 9 月发表于IEEE Transactions on Mobile Computing(TMC,CCF-A 类期刊),卷 24 第 9 期
- 研究团队:北京邮电大学、赫尔辛基大学等,核心作者为黄雅坤、乔秀泉等
- 核心定位 :全球首个无标记 Web 端 AR 室内导航系统,解决移动端网页环境下高精度、高频次室内定位与 AR 导航难题
二、研究背景与核心痛点
- 室内定位传统方案缺陷
- GPS 无法穿透建筑,WiFi / 红外 / 蓝牙等仅支持 2D 平面导航,无 3D AR 沉浸式体验
- 传统 SLAM 方案依赖专用硬件、计算开销大,不适合轻量化 Web 端
- Web AR 导航现存三大挑战
- 资源受限的移动网页端,无法同时实现高频次 + 高精度定位(稳定 AR 渲染需≥24Hz,现有方案仅 0.4-3.5Hz)
- 动态场景、光照变化、相似场景下,初始定位精度不足
- 用户移动过程中,全局检索定位延迟高、误差累积严重
- 现有 Web AR 框架短板
- 基于标记的方案(AR.js)易遮挡、精度差;无标记方案(8th Wall)无法兼顾效率与精度
- WebXR 仅支持渲染,无大规模地图管理与高频传感器融合能力
三、核心创新与技术设计
WebARNav 采用边缘辅助视觉定位(VaL)+ 网页端行人航位推算(PDR)松耦合融合架构,分离线预处理、在线定位导航两大流程,核心创新点如下:
(一)轻量级位置融合框架
- 分工模式
- 网页端纯运行PDR:基于 IMU 实现 **≥30Hz 高频定位 **,低计算开销,但存在累积漂移
- 边缘端运行VaL:低频次、高精度视觉定位,修正 PDR 漂移
- 自适应融合策略
- 误差补偿:PDR 漂移超阈值时触发 VaL 修正,短时间 IMU 数据补偿网络延迟误差
- 置信度加权融合:动态调整 PDR 与 VaL 权重,PDR 漂移越大权重越低,垂直维度仅采用 VaL 结果
(二)高精度初始定位(VaL 模块)
- 注意力机制特征提取
- 融合通道注意力 + 空间注意力(CBAM)优化 CNN 特征,提升动态行人、光照变化场景下的特征鲁棒性
- 双流检索 + 共可视性重排序
- 双流:SIFT 局部特征 + 注意力增强 CNN 全局特征分别检索,互补优势
- 重排序:基于共可视关系过滤几何不一致候选图,消除相似场景误匹配,提升 6-DoF 位姿计算精度
- 采用RANSAC PnP算法计算相机 6 自由度位姿
(三)拓扑地图驱动的行进定位
- 拓扑地图构建
- 基于行列式点过程(DPP) 生成,兼顾图像视觉相似性与空间多样性,动态更新节点
- 行进定位优化
- 无需全局检索,仅基于上一位置的拓扑邻域筛选候选图,大幅减少检索量、降低延迟
- 多跳检索 + 自适应置信度加权,解决长走廊、重复纹理等模糊场景定位漂移
四、系统实现架构
- 端边协同
- 移动端 Web:HTML+JS 实现,Three.js 渲染 3D 导航路线,轻量 PDR 计算,跨浏览器 / 设备兼容
- 边缘服务器:C++/Python 实现,负责路线规划、VaL 定位、拓扑地图管理,GPU 加速特征匹配
- 通信机制
- 采用HTTP 离散请求 - 响应模式 ,仅 PDR 漂移超标时触发 VaL 请求,极低网络开销
- 无需实时传输点云,预构建地图存储在边缘端,降低移动端解压压力
五、实验评估与结果
实验采用四大室内数据集(百度商场、InLoc、虚拟画廊、自建办公场景),对比 PDR-only、Marker-based、Edge-SLAM 等 6 种基线方案,核心结果如下:
(一)定位性能
- 频率与精度 :定位频率 **≥30Hz(最高 60.3Hz),满足 AR 稳定渲染;单楼层轨迹误差较纯 PDR 降低 76%,跨楼层降低95%**
- 行进定位优化 :延迟降低15.2%-98.6%,定位精度提升 **≥4%**
- 场景鲁棒性 :动态商场、弱光博物馆、办公场景均实现亚米级定位(0.46-0.63m),优于所有基线
(二)运行效率
- 初始化 :仅1.4s,远快于 Edge-SLAM 等(150-220s)
- 资源占用 :CPU 负载3.0% 、内存45MB,远低于边缘 SLAM 方案(CPU≈95%,内存≈210MB)
- 跨平台兼容:支持 iOS/Android 多机型、Chrome/Firefox/Safari 多浏览器,低端设备仍可稳定运行
(三)网络与边缘计算
- 网络开销:单次 VaL 请求数据<100KB,单会话总流量<5MB,远优于 SLAM 方案(>200MB),3G/4G/5G/WiFi 均适配
- 边缘计算 :GPU 推理时间18.2ms ,较 edgeSLAM 降低3.5 倍,内存与 GPU 负载更低
(四)参数与场景分析
- 候选图数量N=5时,精度与效率最优
- 静态场景精度(0.48m)优于动态场景(0.72m),正常光照优于弱光(0.48m vs 0.65m)
- 融合效果优于 EKF、VINS-Mono,更适配 Web 端轻量化需求
六、案例研究与用户体验
- 实际应用:落地办公场景导航、博物馆导览两大真实场景
- 用户反馈 :满意度略低于原生 AR 导航,但易用性、便捷性更优,用户使用意愿更高,无需安装 APP 即开即用
七、相关工作对比
- AR 导航服务:依赖 ARCore/ARKit 原生框架,需安装、跨平台差
- Web XR 框架:侧重渲染,无定位与大规模导航能力
- 边缘 SLAM 方案:精度尚可,但初始化慢、资源占用高、定位频率低
- 多传感器融合:多为设备端融合,Web 端跨网同步能力不足
八、结论与展望
(一)核心结论
WebARNav 实现移动端 Web 端无标记、高精度、高频次、低开销的 AR 室内导航,是首个兼顾跨平台、轻量化、鲁棒性的 Web AR 室内定位系统,完美适配资源受限的移动网页环境。
(二)未来展望
- 优化弱光、动态极端场景的特征提取与定位精度
- 探索点云选择性缓存策略,进一步降低网络依赖
- 深度适配 WebXR 标准,提升跨平台一致性