论文笔记：GEO-BLEU: Similarity Measure for Geospatial Sequences

22 sigspatial

1 intro

------>论文基于 BLEU，提出了GEO-BLEU

首先，引入地理空间 n-gram 的概念
- 将序列中的地点视为点，通过相似度得分 s(gi,gj)衡量两点的接近程度。
- 通过衡量点之间的欧几里得距离 d(gk,wk)并将其标准化来实现
  - - 其中 d(⋅,⋅)是两个位置之间的欧几里得距离，而 β是一个系数，用于调整比例
    - 两个 n-gram 完全匹配时，相似度变为最高（即距离为零时）
    - 随着两个 n-gram 之间的距离增加，相似度趋于零
接下来，我们考虑如何在候选序列和参考序列中匹配 n-gram
- 在BLEU中，匹配是通过 Count_matched(n-gram) 来进行的
  - 如果相同的 n-gram 在参考句子中"未使用"，就给出1，并从后续匹配的池中消除那个"已使用"的n-gram 实例，否则给出0
- 对于融入邻近性概念的GEO-BLEU，让候选序列中的一个 n-gram 与参考序列中最近的未使用的 n-gram 形成一对
- 贪婪地优化这样的配对集，使得相似度分数之和接近最大值
假设优化后的配对集为 P={(gc1,gr1),...,(gcL,grL)}
- L 是候选序列和参考序列长度中较短的一个，gck 是候选序列中的 n-gram，grk 是参考序列中的
- 定义基于 n-gram 的相似度 qn如下
  - 匹配的这些n-gram之间的欧氏距离
------>按照BLEU中提出的惩罚得分，提出的相似性度量 GEO-BLEU 定义为：

为了展示 GEO-BLEU 的特性以及它与 DTW 的不同，我们应用这两种方法评估两个简单序列，这些序列在几乎完全对齐的情况下具有半径为 10 公里的圆上的点
*
- 原始序列经过几何变换（如顺时针和逆时针旋转、缩放等），然后计算两个序列之间的得分。
- 在大多数情况下，GEO-BLEU 能够提供高度相似性得分【因为重叠的n-gram很多】，而在参考序列和候选序列有明显的几何差异时，DTW 提供了较低的得分