论文笔记：Trajectory generation: a survey on methods and techniques

2025 GeoInformatica

1 intro

轨迹数据通常包含用户的敏感个人信息，直接使用这些数据存在严重的隐私风险
- 为应对这些挑战，轨迹生成（Trajectory Generation）技术通过学习或建模真实轨迹的移动模式，生成大量合成轨迹
- 合成轨迹可以填补数据稀缺区域或时间段的空白，缓解数据稀疏问题
- 此外，若在轨迹生成过程中结合隐私保护技术，还可以有效降低用户隐私泄露风险
轨迹生成的目标是在给定环境约束下，生成既具备真实人类出行模式，又在统计特性上与真实轨迹高度相似的合成数据
论文对轨迹生成研究进行了系统且深入的分析

2 预备知识

3.1 轨迹数据

轨迹由一系列具有丰富属性的轨迹点组成，包含时间、空间和文本属性
- 时间属性通常用时间戳或时间范围表示
- 空间属性一般通过纬度和经度表示实体在物理空间中的位置
- 文本属性指的是轨迹点的语义或上下文信息，常包含兴趣点（POI）信息
在空间表示方面，轨迹数据可以分为自由空间（free space）与道路空间（road space）两种
- 在自由空间中，轨迹点之间的距离通常使用欧几里得距离计算
- 在道路空间中，通常用有向图 G=(V,E,W)表示路网，其中 V 表示道路端点，E 表示道路边，W表示边的权重
  - 在道路空间中，轨迹点间的距离不是直线距离，而是通过一系列边的权重累加得出的道路距离

3.2 轨迹生成

3.2.1 问题定义

3.2.2 评估指标

合成轨迹的评估指标包括宏观指标 和微观指标。

在宏观层面，主要评估合成轨迹的整体分布；
在微观层面，主要评估生成轨迹与真实轨迹之间的相似性。

3.2.2.1 宏观层面

宏观指标从移动模式的角度评估合成轨迹，涵盖以下几类：

轨迹范围（Trajectory range） ：指每个轨迹点与轨迹中心点之间的距离。在部分研究中称为回转半径（radius of gyration），用于反映人类移动范围的广度。
移动距离（Movement distance）：指轨迹上相邻轨迹点之间的距离，一定程度上反映了一段时间内的出行距离。
位置排名（Location ranking）：基于每个位置的访问频率进行排名，包含个体层面与群体层面的排名。个体排名关注个人偏好，群体排名则反映了在整体人群中位置的热门程度。
起终点流量（Origin-Destination flow）：OD 矩阵反映了不同位置之间的流动情况，具体表征从起点到终点之间的流量。
停留时间（Staying time）：指在每个位置的停留时长，是一个时间维度上的指标，能够反映代理体（agent）的活动状态。
在实现层面，Jensen-Shannon (JS) 散度 和 Kullback-Leibler (KL) 散度 通常用于衡量合成轨迹与真实数据在上述五个维度上的分布差异。

3.2.2.2 微观指标

微观指标关注轨迹之间的相似性或差异性，通常通过精确匹配或轨迹对比方式实现
- 主要用于细粒度的轨迹比对
- ------>轨迹相似度
非学习相似度测量方法
- 动态时间规整距离（DTW）
- 编辑距离类方法：
  - LCSS（Longest Common Subsequence）最长公共子序列
  - EDR（Edit Distance on Real Sequence）
  - ERP（Edit Distance with Real Penalty）
  - EDwP（Edit Distance with Warping Penalty）
- Hausdorff 距离 与 离散 Fréchet 距离（DFD）
基于深度学习的方法
- T2Vec、ST2Vec。。。

4 基于模型的轨迹生成方法

4.1 方法概述

基于模型的方法是在一个核心假设下进行轨迹生成：即移动轨迹服从预定义的规则或模型
这类方法通常利用概率模型（如马尔可夫过程）建模轨迹的状态转移，或直接采用预设的行为规则来模拟轨迹的运动方式。
这些方法通常不依赖大量训练数据

根据生成轨迹时所使用的规则或模型的不同，基于模型的方法可以分为三类：

基于行为规则的方法：依据人类移动模式生成移动轨迹，考虑时间、空间与社会因素；
基于交通仿真的方法：通过物理规则与交通流模型生成车辆轨迹，通常依赖交通仿真软件模拟整个交通系统；
基于概率模型的方法：利用概率模型捕捉轨迹的状态转移与变化，适用于复杂或不确定的移动行为。

4.2 基于行为规则的方法

4.2.1 人类移动行为的若干特征

|-----------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 规律性与可预测性 | * 人类移动行为在时间和空间上都表现出高度规律性（Gonzalez MC, Hidalgo CA, Barabasi A-L (2008) Understanding individual human mobility patterns. Nature 453(7196):779--782） * 人们有较高概率返回熟悉的地点，即常访问的地点，并且这种行为是可预测的（Song C, Qu Z, Blumm N, Barabási A-L (2010) Limits of predictability in human mobility. Science 327(5968):1018--1021） |
| 尺度特征与幂律分布 | * 人类的移动距离与停留时间符合幂律分布（BrockmannD, HufnagelL, GeiselT(2006) The scaling laws of human travel.Nature439(7075):462--465） * 短距离移动和短时间停留更常见，而长距离或长时间行为虽然较少，但依然有一定概率发生 |
| 社会因素影响 | * 个体的活动空间与其社交圈大小呈显著正相关（Alessandretti L, Sapiezynski P, Sekara V, Lehmann S, Baronchelli A (2018) Evidence for a conserved quantity in human mobility. Nat Hum Behav 2(7):485--491） * 人类的移动行为还受生活习惯和行政区域划分的影响，并且社交网络距离更近的用户之间，其移动模式更为相似（Toole JL, Herrera-Yaqüe C, Schneider CM, González MC (2015) Coupling human mobility and social ties. J R Soc Interface 12(105):20141128） |
| 探索与回归机制 | * 个体具有探索新位置的概率，但这种探索倾向会随时间下降。与此同时，个体展现出强烈的回访已访问地点的倾向（Song C, Koren T, Wang P, Barabási A-L (2010) Modelling the scaling properties of human mobility. Nat Phys 6(10):818--823） * 虽然用户不断探索新地点，但其活动集中的位置数量保持稳定（Alessandretti L, Sapiezynski P, Sekara V, Lehmann S, Baronchelli A (2018) Evidence for a conserved quantity in human mobility. Nat Hum Behav 2(7):485--491） |

4.2.2 轨迹生成模型

|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------|
| SLAW 模型 Lee K, Hong S, Kim SJ, Rhee I, Chong S (2009) SLAW: a new mobility model for human walks. In: INFOCOM. pp 855--863 | * 模拟"最小动作原理"，即人们倾向于访问附近的目的地 * 在二维空间中生成一组位置，位置之间的距离遵循幂律分布； * 停留时间则服从截断幂律分布 |
| SWIM 模型 Mei A, Stefa J (2009) SWIM: a simple model to generate small mobile worlds. In: INFOCOM. pp 2106--2113 | * 模拟社会行为对移动决策的影响，个体根据位置的"权重"选择目标点。 * 权重随位置的受欢迎程度上升，随与"家"距离的增加而下降 |
| SIMPS 模型 Borrel V, Legendre F, Amorim MD, Fdida S (2009) SIMPS: using sociology for personal mobility. IEEE/ACM Trans Netw 17(3):831--842 | * 基于社会学理论建模移动行为，定义了"社交"与"孤立"两类社会行为，并通过社交图表达个体之间的关系 * 生成的轨迹在接触时长分布上呈幂律 |
| EPR 模型 Song C, Koren T, Wang P, Barabási A-L (2010) Modelling the scaling properties of human mobility. Nat Phys 6(10):818--823 | * 引入了"探索"与"偏好回归"机制 * 个体既可能探索新位置，也倾向于回访熟悉位置，且回归行为具备优先级 |
| d-EPR Pappalardo L, Simini F, Rinzivillo S, Pedreschi D, Giannotti F, Barabási A-L (2015) Returners and explorers dichotomy in human mobility. Nat Commun 6(1):8166 | * 引入重力模型，根据当前位置与目的地之间的距离及位置重要性选择目标点，更真实地模拟了个体行为。 |
| Geosim 模型 Toole JL, Herrera-Yaqüe C, Schneider CM, González MC (2015) Coupling human mobility and social ties. J R Soc Interface 12(105):20141128 | * 将社会因素引入 EPR 模型，使得个体行为同时受自身与社交圈影响 |

4.3 基于交通仿真的方法

基于交通仿真的轨迹生成方法通过使用交通流模型与仿真工具，对交通网络中的车辆行为进行建模，从而生成符合真实交通系统规律的轨迹。
这类方法主要关注交通规则与环境因素的影响。通过模拟交通流、信号控制、变道行为等交通现象

|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| VISSIM Fellendorf M (1994) Vissim: a microscopic simulation tool to evaluate actuated signal control including bus priority. In: 64th institute of transportation engineers annual meeting. pp 1-- | * 基于微观交通流模型的交通仿真软件，能够模拟单车道与多车道的交通场景 * 信号控制模型：负责模拟交通信号灯控制 * 交通流模型：用于模拟车辆行为，如加速、减速与变道行为。其中包括： * 跟驰模型（Following Model）：模拟前车速度较慢时的跟车过程； * 变道模型（Lane Changing Model）：模拟当存在空车道时的超车行为。 * VISSIM 通过信号控制模型调度红绿灯，再由交通流模型驱动车辆行为，从纵向与横向两个方向模拟车辆在车道上的运动。 |
| SUMO Krajzewicz D, Hertkorn G, Rössel C, Wagner P (2002) Sumo (simulation of urban mobility)-an open source traffic simulation. In: Proceedings of the 4th Middle East Symposium on Simulation and Modelling (MESM20002). pp 183--187 | * 基于路网环境、交通需求与 OD（起终点）矩阵等交通数据模拟交通状况 |
| TRANSIMS NagelK,RickertM(2001)Parallelimplementation oftheTRANSIMSmicro-simulation.Parallel Com put 27(12):1611--1639 | * 分布式的微观交通仿真平台，采用图划分技术将整个模拟区域划分为多个子区域： * 各子区域之间的连接尽可能少，以降低耦合； * 每个区域大小大致相同，实现负载均衡； * 借助并行计算提高仿真速度； * 在微观层面，TRANSIMS 使用跟驰模型、变道模型与转弯模型来模拟具体驾驶行为。 |
| ParamGrid Klefstad R, Zhang Y, Lai M, Jayakrishnan R, Lavanya R (2005) A distributed, scalable, and synchro nized framework for large-scale microscopic traffic simulation. In: Proceedings. 2005 IEEE intelligent transportation systems, 2005. pp 813--818 | * 同样是一款基于分布式架构的微观交通仿真软件 * 使用微观仿真工具对每辆车进行个体级别模拟； * 采用并行计算与分布式架构以提升模拟效率； * 通过图划分技术将区域划分为多个子区域； * 引入全局路径规划技术，解决跨区域车辆的轨迹生成问题。 |

4.4 基于概率模型的方法

基于概率模型的轨迹生成方法通过历史轨迹数据的统计模式来生成移动轨迹
- 通过分析历史轨迹推断出位置之间的转移概率分布，从而估计个体在未来时刻或位置出现的概率
- 侧重于从统计学视角建模轨迹生成过程，而不是依赖于具体的行为假设或交通规则

基于概率模型的轨迹生成方法通常采用 马尔可夫模型（Markov Model），包括：

隐马尔可夫模型（HMM）
- Mathew W, Raposo R, Martins B (2012) Predicting future locations with hidden markov models. In: Ubicomp. pp 911--918
- Bindschaedler V, Shokri R (2016) Synthesizing plausible privacy-preserving location traces. In: IEEE symposium on security and privacy. pp 546--563
输入输出隐马尔可夫模型（IO-HMM）
- YinM,SheehanM,FeyginS,PaiementJ,PozdnoukhovA(2018)Agenerativemodelofurbanactivities from cellular data. IEEE Trans Intell Transp Syst 19(6):1682--1696
隐半马尔可夫模型（HSMM）
- Baratchi M, Meratnia N, Havinga PJM, Skidmore AK, Toxopeus BAG (2014) A hierarchical hidden semi-markov model for modeling mobility data. In: UbiComp '14, Seattle. pp 401--412

5 基于学习的轨迹生成方法

5.1 方法概述

基于学习的方法通过学习真实轨迹中的特征（包括时空特征和文本属性），以生成与真实轨迹相似的合成轨迹。
与基于模型的方法相比，学习方法能够生成更贴近真实世界模式的轨迹数据
其核心是使用深度学习技术从真实轨迹数据中学习时空模式，进而为下游任务生成高质量的合成轨迹。
基于学习的方法主要可分为以下几类：
- 生成对抗网络（GANs） ：
  - 通过生成器与判别器之间的对抗机制进行轨迹优化。
  - 生成器负责生成新的轨迹数据，判别器用于判断轨迹是真实的还是合成的，从而提升生成轨迹的真实性。
- 变分自编码器（VAEs）
  - 将轨迹数据映射到潜在空间（latent space），并从该空间中采样以生成多样性的轨迹数据。
- 扩散模型（Diffusion Models）
  - 先向轨迹数据中逐步添加噪声，将其转换为高斯分布，然后通过逐步去噪的方式还原轨迹数据。
  - 该过程有助于提高生成结果的隐私性。

5.2 基于GAN的方法

生成器学习数据分布，将随机噪声转换为与训练数据相似的样本
判别器学习判断样本来源于真实数据分布还是模型生成的分布

这些基于图像或矩阵的转换方式会引入轨迹不连续性的问题

一些研究采用 两阶段 GAN 框架，第一阶段生成稀疏或大范围轨迹，第二阶段生成更细致、局部范围的轨迹，从而提高轨迹的连贯性：

|--------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------|
| Wang X, Liu X, Lu Z, Yang H (2021) Large scale gps trajectory generation using map based on two stage gan. J Data Sci 19(1):126--141 | * 基于地图的两阶段 GAN * 第一阶段将 GPS 数据转换为离散网格，并通过深度卷积 GAN 学习整体轨迹分布； * 第二阶段使用带编码器-解码器结构的条件 GAN 生成细粒度轨迹，解码器使用双向 LSTM； * 判别器确保生成轨迹在道路网络中合理、符合真实分布。 |
| TS-TrajGen Jiang W, Zhao WX, Wang J, Jiang J (2023) Continuous trajectory generation based on two-stage GAN. In: AAAI. pp 4374--4382 | * 第一步将道路网划分为区域，分别生成区域内轨迹； * 第二步将各区域轨迹连接，通过结合 A* 搜索算法纠正轨迹错误，增强路径连续性与合理性。 |

除时空属性外，外部信息（如城市结构、活动类型）也在轨迹生成中起重要作用

5.3 基于变分自编码器（VAE）的方法

变分自编码器（VAE） 由两部分组成：编码器（Encoder） 和 解码器（Decoder）
- 编码器负责将原始数据转换为低维的潜在表示
- 解码器则从潜在空间中采样并生成新的数据样本
VAE 的训练目标是：
- 最小化解码器生成的数据与原始数据之间的差异；
- 最小化编码器生成的潜在表示分布与先验分布之间的差异。
相比 GAN，VAE 训练更稳定，但生成样本的质量可能不如 GAN。
β-VAE是 VAE 的一个变体，其中 β 是控制 KL 散度项权重的超参数，可以影响潜在空间的结构。
- 通过调节 β，模型能够生成具有更清晰结构和可控特征的样本

5.4 基于扩散模型的方法

扩散模型（Diffusion Model）是一种基于噪声的生成模型，包含两个过程：
- 正向过程（forward process）：
  - 逐步向真实数据添加噪声，使其渐进式地变为随机噪声；
- 反向过程（reverse process）：
  - 学习如何逐步去噪，重构数据结构
在轨迹生成中，轨迹分布在正向过程中被扰动，反向过程用于恢复真实轨迹

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------|
| Traj-UNet ZhuY,YeY,ZhangS,ZhaoX,YuJ(2023) Difftraj: generating GPS trajectory with diffusion probabilistic model. In: NeurIPS | 基于图像处理中常用的 U-Net 结构，结合残差块与多尺度特征融合，在去噪过程中保留时空特征。 |
| TrajGDM ChuC,ZhangH,WangP,LuF(2024) Simulating human mobility with a trajectory generation framework based on diffusion model. Int J Geogr Inf Sci 38(5):847--878 | 轨迹解码器为基于 Transformer 的生成网络，用于捕捉轨迹的时空关系 |

后续研究进一步引入道路拓扑约束，使生成轨迹不仅符合时空特性，也满足道路网络约束

6 结论与未来方向

论文将轨迹生成方法划分为基于模型的方法 与基于学习的方法
- 基于模型的方法假设移动模式遵循预定义的规则或模型，从而生成轨迹
- 基于学习的方法通过分析真实轨迹数据中的移动规律进行学习，并据此生成新的轨迹
论文提出若干未来可探索的研究方向：
- 隐私保护与生成质量的权衡问题
  - 隐私保护技术在轨迹生成中有助于缓解隐私泄露风险，但往往会对生成轨迹的质量产生影响
  - 未来研究可聚焦于如何最小化隐私保护与轨迹生成准确性之间的权衡
- Transformer 与大语言模型的集成应用
  - Transformer 在捕捉时空依赖关系方面具有强大能力，将其与生成模型结合用于轨迹生成可能成为一种趋势
  - 同时，这也预示着大语言模型（LLMs）在轨迹生成领域的应用潜力正不断增长。
- 融合模型驱动与学习驱动方法
  - 将基于模型的方法与基于学习的方法相结合，可能成为未来轨迹生成的重要发展方向