Learning Domain-Invariant Model for WiFi-Based Indoor Localization

摘要

由于 WiFi 接入点（Access Point, AP）广泛存在，基于 WiFi 的室内定位受到了广泛关注。基于信号处理的方法能够达到分米级定位精度，但其性能受到 WiFi 系统有限空间分辨率的限制，尤其在强干扰的复杂环境中更为明显。相比之下，基于深度学习的方法即使在复杂环境中也取得了令人印象深刻的性能，但它们往往难以泛化到新环境。本文提出一种用于 WiFi 室内定位的域不变模型学习框架，使模型能够在不同环境中保持优异性能。核心洞察是从信号处理视角设计基于深度学习的 WiFi 定位系统。具体而言，我们让神经网络估计以 AP 为中心的极坐标，而不是拟合与环境强相关的 AP 坐标，从而获得域不变模型。为了释放神经网络回归高精度参数的潜力，本文设计了一个波束成形层，将信号处理知识融入神经网络。此外，本文提出一种多任务学习方案，以进一步提升定位精度。在多个数据集上的大量实验表明，本文方法的定位性能优于现有先进方法，并且在跨域条件下表现出优势。

关键词：信道状态信息；深度学习；室内定位；WiFi。

文章目录

- 摘要
- [I. 引言](#I. 引言)
- [II. 相关工作](#II. 相关工作)
- - [A. 基于信号处理的方法](#A. 基于信号处理的方法)
  - [B. 基于深度学习的方法](#B. 基于深度学习的方法)
- [III. 基础知识](#III. 基础知识)
- - [A. 信道状态信息](#A. 信道状态信息)
  - [B. 波束成形](#B. 波束成形)
- [IV. 方法设计](#IV. 方法设计)
- - [A. 问题分析](#A. 问题分析)
  - [B. 通过波束成形层释放神经网络潜力](#B. 通过波束成形层释放神经网络潜力)
  - [C. 深度神经网络设计](#C. 深度神经网络设计)
  - [D. 定位](#D. 定位)
- [V. 实现](#V. 实现)
- - [A. 实验设置](#A. 实验设置)
  - [B. 基线方法](#B. 基线方法)
- [VI. 评估](#VI. 评估)
- - [A. 简单场景](#A. 简单场景)
  - [B. 复杂场景](#B. 复杂场景)
  - [C. 泛化能力](#C. 泛化能力)
  - [D. 消融研究](#D. 消融研究)
  - [E. 其他考虑](#E. 其他考虑)
- [VII. 大规模实验](#VII. 大规模实验)
- [VIII. 结论](#VIII. 结论)
- 参考文献

I. 引言

室内定位在过去二十年中一直是一个活跃研究方向 [1]，具有安全监控 [2]、室内导航 [3]、零售商业 [4] 等多种实际应用。由于 WiFi AP 普遍存在 [5], [6]，基于 WiFi 的系统 [7], [8] 相比基于雷达的系统 [9], [10] 更受关注。近年来，WiFi 定位系统的本质是利用客户端与 AP 之间的信道状态信息（Channel State Information, CSI）进行定位 [11]。

一种直接方案是先通过各种信号处理算法从 CSI 中估计到达角（Angle of Arrival, AoA）和飞行时间（Time of Flight, ToF），再基于 AP 坐标进行三角定位 [12]-[15]。基于信号处理的方法依赖域不变的数学模型，因此可以部署在任意环境中。然而，商用 WiFi 设备的空间分辨率有限，限制了这些算法的性能，进而限制了定位性能 [16]。更糟的是，在强干扰复杂环境中，这些方法的性能会显著下降 [17]。

另一类方法是利用深度神经网络直接估计客户端坐标。基于深度学习的方法从大量数据中提取不同位置处 CSI 的特征，并用这些数据调整神经网络参数。通过这种方法建立的模型相较基于信号处理的方法表现出更好的性能，尤其是在强干扰复杂环境中 [17]。但现有深度学习方法容易过拟合训练域中的特征，部署到新域时会出现严重性能退化。

本文结合信号处理的跨域能力和深度学习对高精度参数估计的拟合能力，以实现可靠的高精度定位。所提方法的关键洞察包括两点。

第一，现有基于深度学习的方法会将与环境强相关的 AP 坐标拟合到网络参数中。由于室内环境复杂，不同场景中的 AP 坐标通常不同，如 Fig. 1 所示，这使训练得到的模型高度依赖环境。不同于已有工作，本文提出将以 AP 为中心的极坐标作为网络输出。我们的观察是：尽管环境发生变化，AP 与客户端之间的相对空间关系仍保持一致，而以 AP 为中心的极坐标能够封装这种特性。

第二，极坐标回归精度可以通过将信号处理知识纳入深度学习来增强。具体而言，我们观察到波束成形的基本原理与全连接层的前向传播在本质上相同。基于这一观察，可以用全连接层实现波束成形，从而进一步释放神经网络在高精度参数估计中的潜力。

Fig. 1. 跨域定位。由于室内环境复杂，不同场景中的 AP 坐标通常不同。

为进一步提升定位性能，本文提出一种用于定位的多任务学习方案。该方案使模型能够同时学习笛卡尔坐标和极坐标特征，从而获得高精度定位能力和良好泛化能力。

本文主要贡献如下。

提出通过波束成形层释放神经网络进行高精度极坐标估计的潜力。通过这种方式，本文结合了信号处理和深度神经网络的优势，用于学习域不变模型。
提出一种用于定位的多任务学习方案，使神经网络能够同时学习同一位置处信号的不同表示，进一步提高定位精度。
在多个室内环境和多个数据集上进行了大量实验。结果表明，本文方法显著优于先进的信号处理方法，并且相较先进的深度学习方法保持了更好的跨域鲁棒性。相关数据集将向研究社区发布，以推动 WiFi 室内定位研究。

本文其余部分安排如下。第二节讨论相关工作，第三节介绍基础知识，第四节给出方法设计，第五节和第六节分别给出实验设置和实验结果，第七节展示大规模环境中的性能，第八节总结全文。

II. 相关工作

A. 基于信号处理的方法

商用 WiFi 设备通常配备多个天线，并能够以子载波级粒度获得物理信道测量 [18]，因此可以使用多种信号处理算法提取 AoA 和 ToF 信息。

基于 ToF 的方法。 ToF 方法需要较大带宽才能获得较高 ToF 分辨率 [16]。受 WiFi 设备带宽限制，ToneTrack [14] 通过信道切换获得较大的虚拟带宽，Chronos [19] 通过跳频获得精确 ToF 估计。然而，这些方法可能中断正常数据通信，不适合实际 WiFi 定位。SiFi [20] 基于 MIMO 的频率锁定天线设计提出观察：只有一个时延畸变值能使所有天线的直达路径 ToF 相交于同一点。借助这一观察，SiFi 在不影响数据通信的情况下实现了 0.93 m 的中位定位精度。不过，它需要从 WiFi 设备中拉出天线以满足理论模型，这同样不实用。P2PLocate [21] 从反向散射中分离出鲁棒 CSI，估计细粒度多普勒偏移和粗粒度 ToF，并将二者结合实现单天线收发设备定位。[22] 对 Android 12 支持的单边测距协议进行了广泛测试，并确认其测距结果不如 Fine Time Measurement（FTM）测距协议准确，同时提出了一系列改进方法。WiPeep [23] 提出非协作 WiFi 定位概念并研究其隐私影响：WiPeep 连续移动一个 AP，并注入伪造数据包以诱导客户端响应，再结合响应包中的 ToF 信息和 AP 运动轨迹真值建立优化方程，最终求解客户端位置。

基于 AoA 的方法。 ArrayTrack [12] 使用传统 MUSIC 算法和 8 根天线实现高精度定位，但依赖无法直接部署在商用 WiFi 设备上的特定硬件。Ubicarse [24] 和 LTEye [25] 使用合成孔径思想获得更大的阵列孔径，从而提高商用 WiFi 设备上的 AoA 估计精度，但这要求持有设备的人执行特定圆周运动，在许多场景中并不实用。SpotFi [13] 将空间平滑 MUSIC 算法应用于商用 AP，以联合估计 AoA 和 ToF。空间平滑能避免相干信号导致的性能退化，但也会牺牲阵列孔径并限制空间分辨率 [26]。RoArray [27] 将 AoA 估计转化为稀疏恢复问题，在低信噪比场景中也能获得尖锐的 AoA 谱；但超参数选择不当会漏检弱目标，计算复杂度也过高，难以实时定位。UbiLocate [28] 使用 Nelder-Mead 搜索获得更精确的 AoA 估计，并结合纳秒级精度的 ToF 测量缓解非视距（NLoS）场景性能退化。Co-Loc [16] 引入非参数度量来量化 AoA 估计精度，并利用多个 AP 的 AoA 会相交于一点这一事实进一步改善 AoA 估计。NLoc [29] 首次利用广泛存在的多径反射，在没有直达路径且无需预训练或指纹采集时实现目标定位。AutoLoc [30] 基于 RF 振荡器频率锁定后不确定初始相位保持常量这一洞察，提出无需校准不确定初始相位的定位方法。MultiLoc [31] 融合毫米波与 WiFi，实现高精度和高可靠定位，并首次使用商用设备达到 0.18 m 的中位误差。[32] 使用高速 RF 多路复用器和子包切换，以低成本、高精度方式估计 AoA，无需多路复用器与接收机同步，缓解了部署大规模阵元相控阵的限制。

B. 基于深度学习的方法

基于深度学习的方法使用神经网络提取每个位置的特征；训练完成后，模型可根据输入预测位置。深度学习方法的核心在于精心设计的输入特征和网络架构。

输入特征。 为在复杂环境和非理想硬件系统中获得鲁棒特征，输入特征应对小尺度衰落、系统变化和硬件损伤保持鲁棒 [33]。CiFi [34] 利用 CSI 相位差估计 AoA，并将其组成图像作为深度卷积神经网络 [35] 的输入。[36] 和 [37] 将 CSI 转换到 AoA-ToF 域，使网络能够基于其中丰富的多径信息区分不同位置。[38] 从 CSI 中提取 8 类信息作为增强特征，并通过数据构造算法形成输入特征。DLoc [17] 将多个 AP 的 CSI 通过二维快速傅里叶变换（2D-FFT）转换为反映客户端位置的位置热力图，再组合这些热力图形成图像张量作为输入，并将客户端的笛卡尔坐标标签转换为带高斯峰值的图像。LiPhi++ [39] 利用可移动激光测距扫描仪的感知能力自动标注 WiFi 扫描，从而避免人工干预数据采集。

网络架构。 DeepFi [40] 使用一组受限玻尔兹曼机的贪婪学习算法逐层训练深度神经网络。[41] 基于长短期记忆网络（LSTM）探索利用 CSI 特征时间相关性进行定位的可能性。[38] 引入双注意力机制深度神经网络和双向 LSTM，并采用注意力机制提取 CSI 特征。[42] 提出注意力增强残差 CNN，以同时利用 CSI 中的局部信息和全局上下文。DLoc [17] 借鉴图像翻译网络结构处理输入和输出图像，并引入一致性解码器消除 ToF 偏移。WePos [43] 将自然语言处理中的预训练技术用于购物中心 AP 的 RSSI 数据预训练，再结合伪标签获取算法微调预训练模型，实现低成本、高精度的区域级室内定位。MetaLoc 将模型无关元学习（MAML）用于指纹定位，使模型能基于元参数快速适应新环境，从而降低人工成本。iToLoc [44] 基于域对抗神经网络和协同训练半监督学习框架，大幅缓解 RSSI 定位中的信号变化、设备异构和数据库退化问题。MTLoc [45] 利用多目标域自适应网络学习源域和目标域中的时间不变、时间特定与位置感知特征，实现指纹数据库自动更新。Penetrative AI [46] 甚至不再设计和训练网络，而是使用预训练大语言模型处理传感器信息并获得位置信息。

综上，基于信号处理的方法具有较强跨域能力，但其定位性能受限于商用 WiFi 设备的空间分辨率，并在强干扰环境中严重退化。基于深度学习的方法虽然能在特定环境中获得高精度定位性能，但缺乏泛化能力。为克服这两类方法的限制，本文使用神经网络回归以 AP 为中心的极坐标，以融合信号处理的跨域能力和深度学习的拟合能力。

III. 基础知识

A. 信道状态信息

假设发射端有 1 根天线，接收端配备由 M M M 根天线组成的均匀线阵（ULA），且相邻天线间距为半波长。对于这种单输入多输出（SIMO）系统，发射端在 K K K 个子载波上传输一组 OFDM 信号。发射信号 s \mathbf{s} s 可写为

注：

本文假设的是单发多收 WiFi 架构：待定位客户端/发射端可以只有 1 根天线，而 AP/接收端需要多天线 ULA，以便从 CSI 的天线维度估计 AoA 并支撑后续波束成形层。

"多天线"和"多个 AP"是两个层次：每个 AP 内部的多天线用于提取角度和距离信息，多个 AP 则在最终定位阶段提供多视角融合。

s = [ s 1 , s 2 , ... , s K ] T . (1) \mathbf{s}=[s_1,s_2,\ldots,s_K]^T. \tag{1} s=[s1,s2,...,sK]T.(1)

其中 ( ⋅ ) T (\cdot)^T (⋅)T 表示转置。

当发射信号经无线信道 H \mathbf{H} H 传播后，接收信号 r \mathbf{r} r 可写为

r = H s + w , (2) \mathbf{r}=\mathbf{H}\mathbf{s}+\mathbf{w}, \tag{2} r=Hs+w,(2)

其中 w = [ ω 1 , ω 2 , ... , ω M ] T \mathbf{w}=[\omega_1,\omega_2,\ldots,\omega_M]^T w=[ω1,ω2,...,ωM]T 是频域中的 M M M 维白高斯噪声。

在 WiFi 通信和无线感知中，可以通过 WiFi 网络接口控制器（NIC）获取信道 H \mathbf{H} H，这也被称为 CSI [47]。CSI 描述无线信号传播过程，因此包含传播空间的几何信息。当信号 s \mathbf{s} s 经过具有 P P P 条不同路径的多径信道到达接收机时，可从以下几个方面刻画 CSI。

到达角 θ p \theta_p θp。 信号到达每根天线时的相位偏移由天线间距和入射角决定。第 m m m 根接收天线相对于第一根天线的相位偏移，作为第 p p p 条路径 AoA θ p \theta_p θp 的函数，可写为