14.8 CCPos: WiFi Fingerprint Indoor Positioning System Based on CDAE-CNN

1.数据集划分和数据标签泄漏风险评估

基于您提供的文献《CCPos: WiFi Fingerprint Indoor Positioning System Based on CDAE-CNN》（Sensors, 2021），我对该研究的**实验结果**、**数据集划分方式**以及**潜在的标签泄露风险**进行了深度分析，结论如下：

该文献在两个公开数据集上验证了CCpos系统，取得了不错的性能，但结果具有明显的场景依赖性：

**小场景（Alcala Tutorial 2017数据集）**：平均定位误差达到**1.05米**。该数据集仅覆盖大学走廊的小范围（152个AP），CCpos在此场景下表现优异，定位误差小于3米的概率接近**98%**，显著优于KNN（2.62m）、WKNN（2.27m）和SVM（6.71m）。
**大场景（UJIIndoorLoc数据集）**：平均定位误差为**12.4米**，楼层预测准确率95.3%，建筑预测准确率99.6%。虽然相比其他算法（KNN 18.6m，随机森林15.9m）提升了22%~33%，但12.4米的误差在大型多建筑环境中仅能判断用户所在的大致区域，无法满足高精度导航需求。
**消融实验结论**：
**去噪系数**：高斯白噪声系数 \(\lambda = 0.3\) 时效果最佳（1.42m），验证了CDAE去噪的有效性。
**归一化方式**："Zero-to-One"归一化在RSSI处理上远优于指数归一化（1.05m vs 4.5m）。
**Dropout**：双Dropout层（0.7和0.3）的搭配能有效抑制过拟合。

论文采用的是**"非随机"的划分策略**，具体流程如下：

**第一步：离线/在线总划分**。将全部数据按照 **4:1** 的比例划分为 **"全训练集（All-Training Set, AT）"** 和 **"测试集（Test Set）"**。测试集全程封存，仅用于最终精度评估。
**第二步：K-means提取验证集（关键创新点）**。作者认为随机抽取验证集可能导致某些区域样本缺失，因此提出使用 **K-means算法** 从"全训练集（AT）"中提取验证集：

**注意**：对于Alcala数据集，官方原本提供了670训练/405测试的固定划分，但本文为了通用性，重新按4:1进行了随机切分（原文第8页提及组成结构，但实验部分按4:1实施）。

**核心结论：没有发生致命的标签泄露（训练特征未包含标签），但存在"基于标签的数据分割偏见"，这在严谨的机器学习工程中是一个需要注意的瑕疵。**

**安全方面（无特征泄露）**：
模型的输入是**RSSI向量**，输出是**坐标**。在CNN训练的反向传播中，坐标（标签）仅用于计算Loss，从未作为输入特征拼接进RSSI数据中。
测试集全程未参与训练和超参数调节。
**潜在风险点1：验证集提取依赖坐标标签（空间泄露）**：
K-means提取验证集时，**直接使用了坐标 \((x,y)\)** 这一标签信息来决定哪些样本进入验证集。这意味着验证集的选择是"有监督"的。
**影响**：这种操作使得验证集能够均匀覆盖整个物理空间，从而在Early Stopping（早停法）中给出过于"乐观"的验证误差。虽然这不属于训练特征泄露，但它破坏了验证集作为"无偏随机抽样"的统计前提，会导致模型早停时偏向于在空间均匀分布的数据上表现良好的参数。
**潜在风险点2：全局归一化的微小窥探**：
在数据预处理（公式1和2）中，坐标归一化使用了全局的 \((x,y){min}\) 和 \((x,y){max}\)。如果计算这些极值时**包含了测试集**，则属于微弱的全局信息泄露（测试集的坐标范围影响了训练数据的缩放尺度）。不过这种泄露对最终定位精度的提升微乎其微，且文中未明确说明极值是否仅从AT中计算，这在定位论文中常被容忍。

**总结建议**：该论文的实验结果可信，主要创新点（CDAE+CNN）贡献了实际的精度提升。但在复现该实验时，**务必确保归一化的极值（Min/Max）仅从训练集（Training Set）中计算**，并注意其K-means验证集提取法在严格的时间序列或跨场景泛化任务中并不适用。