（KDD-2025）STH-SepNet：轻量化大模型与自适应超图融合方法

主要内容：这篇论文提出了时空预测框架 STH-SepNet，通过将时间建模与空间建模解耦，分别使用轻量化大语言模型捕捉时间趋势，并利用自适应超图建模动态空间依赖和高阶节点关系。实验表明，该方法在多个真实交通与城市出行数据集上取得了较优预测效果，同时保持较高计算效率。总体来看，论文证明了在时空预测任务中，合理的结构分工比单纯扩大模型规模更具实际价值。

源码地址：ST-SepNet-Lightweight-LLMs-Meet-Adaptive-Hypergraphs

一、引言

1.1 研究背景

时空预测是智能交通、城市计算、气象监测和能源调度等领域中的基础任务。它的目标是根据历史观测数据，预测未来一段时间内不同空间节点的状态变化。例如，在交通预测中，我们希望根据过去若干时间步的道路速度、车流量或共享单车流入流出情况，预测未来多个路段或站点的交通状态。

这类任务的难点在于，它同时包含 时间依赖 和 空间依赖 两类信息。时间维度上，数据通常具有周期性、趋势性和突发波动，例如早晚高峰、工作日与周末差异、节假日出行变化等。空间维度上，不同区域或道路之间并不是孤立的，一个路段的拥堵可能会影响邻近路段，多个区域之间也可能形成复杂的联动关系。

近年来，深度学习方法在时空预测中取得了显著进展。图神经网络能够利用道路网络或区域拓扑结构建模空间依赖，Transformer 及大语言模型则具有较强的序列建模能力，可以捕捉复杂时间模式。然而，现有方法仍面临一个核心矛盾：如何在提升模型表达能力的同时，避免过高的计算成本？

一方面，传统图神经网络通常依赖静态图结构，例如预先定义好的道路邻接矩阵或地理距离矩阵。但现实中的空间关系往往是动态变化的。交通事故、天气变化、道路施工或政策限行等因素，都可能改变区域之间的影响关系。固定图结构难以准确捕捉这种动态变化。

另一方面，近年来一些方法尝试将大语言模型引入时间序列预测。大模型具有较强的序列表示能力，但如果直接用于大规模时空数据，往往会带来较高的显存消耗和训练成本。同时，大语言模型本身更擅长处理序列和语义信息，并不天然适合建模复杂的空间拓扑关系。

因此，如何在充分利用大模型时间建模能力的同时，有效捕捉动态空间依赖，并控制模型计算复杂度，成为时空预测任务中的一个重要问题。

1.2 研究内容

针对上述问题，KDD 2025 论文 《Decoupling Spatio-Temporal Prediction: When Lightweight Large Models Meet Adaptive Hypergraphs》 提出了一种新的时空预测框架 STH-SepNet ，即 Spatio-Temporal Hypergraph Separation Networks 。该模型的核心思想是：将时间建模和空间建模解耦，让不同模块分别处理自己更擅长的部分。

具体来说，STH-SepNet 将时空预测拆分为两个相对独立的子任务。对于时间维度，模型采用 BERT、GPT-2 等轻量化预训练语言模型，结合时间序列 patch embedding 和 prompt adaptation，捕捉全局时间趋势、周期性变化和统计特征。对于空间维度，模型构建自适应超图，通过动态生成超边来描述多个节点之间的高阶空间依赖，从而更好地适应交通网络中不断变化的空间关系。

在得到时间表示和空间表示后，STH-SepNet 进一步引入门控融合机制，自适应地调整两类信息的贡献权重。这样既避免了简单拼接或直接相加带来的特征干扰，也保留了时间趋势和空间结构两方面的信息。

整体来看，这篇论文主要围绕三个问题展开：

第一，如何通过时空解耦降低模型复杂度？

论文没有将时间和空间特征全部交给一个统一的大模型处理，而是让轻量化 LLM 负责时间动态建模，让自适应超图负责空间依赖建模，从而减少冗余参数和优化难度。

第二，如何捕捉动态变化的空间关系？

论文提出自适应超图结构，利用动态构造的超边建模多个节点之间的高阶关系。相比普通图神经网络只关注两两节点关系，超图能够表示更复杂的多节点联动。

第三，如何让轻量化大模型在时空预测中发挥作用？

论文通过 prompt adaptation 和部分参数微调，使预训练语言模型能够处理时间序列信息。实验结果表明，BERT 这类较小规模的模型已经能够取得较好效果，更大的 LLM 并不一定带来稳定收益。

从实验结果看，STH-SepNet 在 BIKE-Inflow、BIKE-Outflow、PEMS03、BJ500 和 METR-LA 等多个真实数据集上取得了较优表现，说明这种"轻量 LLM + 自适应超图 + 门控融合"的设计在交通预测和城市时空数据建模中具有一定有效性。

二、模型架构

STH-SepNet 的核心设计思想是时空解耦。与许多将时间依赖和空间依赖放在同一复杂模块中联合建模的方法不同，STH-SepNet 将时空预测拆分为两个相对独立的建模过程：一方面使用轻量化大语言模型捕捉时间动态，另一方面使用自适应超图神经网络建模空间依赖。最后，模型通过门控机制将两部分表示进行融合，得到最终预测结果。

2.1 整体框架：从联合建模到解耦建模

在时空预测任务中，输入通常可以表示为一段历史观测序列。以交通预测为例，模型会接收过去若干时间步内多个交通节点的状态信息，例如道路速度、流量或共享单车流入流出量，并预测未来若干时间步的变化趋势。

传统方法通常将时间维度和空间维度共同输入一个统一模型中处理。这种方式虽然可以同时利用两类信息，但也容易带来两个问题：一是模型结构复杂，计算成本较高；二是时间特征和空间特征可能相互干扰，导致模型难以有效学习各自的关键模式。

STH-SepNet 采用了更清晰的分工策略：

时间模块 主要负责学习全局时间趋势、周期变化和长期依赖；
空间模块 主要负责学习节点之间的动态关系和高阶空间交互；
融合模块 负责根据数据特征动态整合时间信息和空间信息。

可以将其理解为：LLM 不再负责"包办"整个时空预测任务，而是专注于它更擅长的时间序列建模；空间结构则交给更适合图关系建模的自适应超图模块处理。

2.2 时间建模模块：轻量化 LLM 捕捉全局趋势

STH-SepNet 的时间建模部分并不是直接把所有节点的原始时间序列全部输入大语言模型，而是先通过一个 Global Trend Module 提取整体时间趋势。

具体来说，模型首先对输入的多节点时序数据进行平均池化，将节点维度上的信息进行聚合，得到区域层面的全局时间序列。这样做有两个好处：

第一，可以降低节点数量带来的计算压力。如果将每个节点的序列都送入 LLM，随着节点数增加，显存和时间成本会迅速上升。

第二，可以突出区域整体变化趋势。例如交通网络中的早晚高峰、共享单车系统中的通勤周期、城市道路中的潮汐流等，往往在全局层面具有明显的时间规律。

在得到全局时间序列后，模型进一步采用 patch embedding 的方式，将连续时间序列切分成若干时间片段。每个 patch 可以看作一个时间 token，类似自然语言处理中一个词或短语的作用。随后，这些时间 token 被映射到与 LLM 隐藏维度一致的表示空间中，并输入预训练语言模型进行时间依赖建模。

论文中提到，STH-SepNet 可以使用 BERT、GPT-2、LLAMA、DeepSeek 等不同预训练模型作为时间模块骨干。实验结果表明，BERT 这类轻量化模型已经可以取得较好的预测效果，而更大的 LLM 并不一定稳定提升性能。

2.3 Prompt Adaptation：让 LLM 理解时间序列

大语言模型原本主要面向文本数据训练，而时空预测中的输入是连续数值序列。为了弥合文本模态和时间序列模态之间的差异，STH-SepNet 设计了 Prompt Adaptation Module。

该模块的作用是将时间序列相关信息组织成模型可以利用的 prompt。论文中 prompt 主要包括三类内容：

第一类是 数据集描述，用于告诉模型当前数据来自什么场景，例如交通网络、城市出行系统或其他时空系统。
第二类是 任务指令，用于说明模型需要根据过去若干时间步预测未来若干时间步。
第三类是 统计特征信息，包括输入序列的时间戳、最大值、最小值、中位数、趋势方向以及重要滞后项等。

这些 prompt 信息会与时间序列 patch embedding 进行拼接，再输入 LLM。这样，LLM 不仅接收数值变化模式，也能获得关于数据背景、预测目标和统计特征的辅助信息。

Prompt Adaptation 是 STH-SepNet 为时间序列和语言模型之间搭建的一座桥。

它并不是简单地把数值转成文字，而是通过结构化提示信息，将时间序列的上下文和统计特征注入到 LLM 表示空间中，使预训练模型能够更好地适应预测任务。

2.4 空间建模模块：自适应图与自适应超图

STH-SepNet 的空间建模部分是论文的另一个关键设计。传统图神经网络通常基于邻接矩阵建模节点之间的两两关系，例如两个道路传感器是否相邻、两个站点之间距离是否较近等。

但是，在真实时空系统中，空间依赖往往不是固定的，也不一定只是两个节点之间的关系。以交通网络为例，一个路段的状态可能同时受到多个上游路段、周边道路、区域拥堵状态以及突发事件的共同影响。也就是说，空间关系可能是 动态的、多节点共同作用的高阶关系。

为了解决这一问题，STH-SepNet 引入了 自适应超图结构。

普通图中的一条边通常只连接两个节点，而超图中的一条超边可以同时连接多个节点。因此，超图更适合表示多节点之间的联合关系。例如，在交通预测中，一条超边可以表示多个道路节点共同影响某一区域交通状态。

论文首先通过可学习的节点嵌入构造自适应邻接矩阵，用于捕捉动态的低阶空间关系。随后，又利用 KNN 方法根据节点特征动态构造超边，形成自适应超图邻接矩阵。对于每个节点，模型会寻找其特征空间中的近邻节点，并将这些节点与当前节点组成一条超边，从而建模高阶空间依赖。

2.5 超图卷积：从节点到超边，再从超边回到节点

在构造出自适应超图后，模型需要在超图结构上传播和聚合信息。STH-SepNet 中的超图卷积过程可以理解为两个阶段。

第一个阶段是 节点到超边的信息聚合。每条超边会收集其所连接节点的信息，从而形成超边表示。这个过程相当于让模型总结一组相关节点的共同状态。
第二个阶段是 超边到节点的信息回传。每个节点再从与其相关的超边中接收信息，从而获得包含高阶空间关系的节点表示。

这样一来，节点不仅能够感知与自己直接相连的邻居，还能够感知由多个节点共同形成的高阶结构信息。

相比普通 GNN，这种设计的优势在于：普通 GNN 主要关注两两节点之间的信息传递，而超图卷积可以显式建模多个节点之间的联合影响。这对于交通拥堵传播、城市区域联动、共享单车站点群体变化等场景尤其重要。

2.6 图卷积与超图卷积的融合

STH-SepNet 并没有完全抛弃普通图结构，而是将普通图卷积和超图卷积结合起来。

论文中，空间模块同时利用三类关系：

第一类是基于自适应邻接矩阵的正向关系；
第二类是自适应邻接矩阵的转置关系，用于捕捉方向相反的影响；
第三类是真实地理网络或道路拓扑矩阵，用于保留已有空间结构信息。

这些信息经过 MixProp 图传播模块后，得到普通图卷积表示。与此同时，自适应超图卷积模块负责提取高阶空间表示。最后，模型通过一个权重参数将两类空间表示融合起来。

普通图卷积保留两两节点之间的局部空间关系，超图卷积补充多节点之间的高阶空间依赖。

因此，STH-SepNet 的空间模块不是单纯依赖超图，而是将低阶关系和高阶关系结合起来，提高空间表示的完整性。

2.7 时空卷积模块：补充局部动态建模

除了 LLM 和超图模块，STH-SepNet 还使用了时空卷积模块进一步处理局部时空依赖。其中，空间部分通过节点邻域信息聚合更新节点状态；时间部分使用一维膨胀卷积和门控机制提取局部时间变化模式。膨胀卷积可以在不显著增加计算量的情况下扩大时间感受野，使模型能够捕捉更长范围内的局部时间依赖。

这部分可以看作对 LLM 时间建模和超图空间建模的补充。LLM 更偏向全局时间趋势，超图更偏向空间高阶关系，而时空卷积模块则进一步强化局部模式提取。

2.8 门控融合模块：动态整合时间与空间信息

在时间模块和空间模块分别完成建模后，STH-SepNet 使用 Gated Fusion Module 将两部分输出融合。假设时间模块输出为 O1，空间模块输出为 O2，模型会先将二者拼接，然后通过前馈神经网络和 sigmoid 函数生成一个门控权重。这个权重用于决定最终预测中时间信息和空间信息各占多少比例。

如果某一时刻的预测更依赖整体时间趋势，例如早晚高峰周期，门控机制可以增加时间模块的贡献；如果某一时刻更受空间关系变化影响，例如局部拥堵、道路施工或区域异常波动，门控机制则可以提高空间模块的权重。

相比简单相加或直接拼接，门控融合的优点是更加灵活。它允许模型根据不同数据样本、不同时间点和不同空间节点，自适应调整两类信息的影响程度。论文附录中的消融实验也显示，自适应门控机制优于 Attention Gate 和 LSTM Gate。

三、实验结果与分析

为了验证 STH-SepNet 的有效性，论文在多个真实时空预测数据集上进行了实验，并从预测精度、模型组件、超图阶数和计算效率等角度展开分析。整体来看，实验部分主要想回答四个问题：第一，STH-SepNet 是否优于现有时空预测模型；第二，自适应超图是否比静态图或普通自适应图更有效；第三，LLM 模块是否真的有必要；第四，不同规模的大语言模型对预测性能和计算效率有什么影响。

3.1 实验设置

论文选用了 5 个真实数据集，覆盖共享单车需求预测和交通速度预测两类典型时空预测场景。

数据集	任务场景	数据特点
BIKE-Inflow	纽约共享单车流入量预测	295 个交通节点，按小时记录
BIKE-Outflow	纽约共享单车流出量预测	295 个交通节点，按小时记录
PEMS03	加州高速公路交通速度预测	358 个传感器，5 min 间隔
BJ500	北京高速公路交通速度预测	500 个站点，5 min 间隔
METR-LA	洛杉矶高速公路交通速度预测	207 个检测器，交通速度数据

所有数据集按照 7:1:2 划分为训练集、验证集和测试集。实验中，模型使用过去 48 个时间步 的历史数据预测未来 48 个时间步 的结果，评价指标包括 MAE 和 RMSE。MAE 反映平均绝对误差，RMSE 对较大的预测误差更加敏感，因此二者结合可以较全面地衡量预测性能。

在基线模型方面，论文比较了两大类方法。一类是典型时间序列预测模型，如 Autoformer、Informer、FEDformer、DLinear、TimesNet、PatchTST、iTransformer、TimeLLM 和 AdaMSHyper。另一类是时空图预测模型，如 AGCRN、ASTGCN、MSTGCN、MTGNN、STGODE、STSGCN、STGCN、GMAN、STAEformer 和 STD-MAE。这样的对比设置比较全面，既包含传统时序建模方法，也包含专门面向交通预测的图神经网络方法。

3.2 主实验结果：STH-SepNet 在多个数据集上表现最优

从主实验结果来看，使用 BERT 作为时间模块 backbone 的 STH-SepNet 在 5 个数据集上均取得了较优表现。与时间序列模型和时空图模型相比，STH-SepNet 在多数指标上达到了最低 MAE 和 RMSE。

具体来看，在 BIKE-Inflow 数据集上，STH-SepNet 的 MAE 为 5.18 ，RMSE 为 14.40 ；在 BIKE-Outflow 数据集上，MAE 为 5.33 ，RMSE 为 14.23 。这说明模型能够较好地捕捉共享单车系统中的流入流出变化规律。在交通速度预测数据集上，STH-SepNet 的优势更加明显。对于 PEMS03 数据集，STH-SepNet 的 MAE 为 21.03 ，RMSE 为 34.17 ，明显优于多数基线模型。对于 BJ500 数据集，STH-SepNet 的 MAE 为 5.58 ，RMSE 为 9.77 。对于 METR-LA 数据集，STH-SepNet 的 MAE 为 9.42 ，RMSE 为 16.41。

这些结果说明，STH-SepNet 不仅适用于共享单车需求预测，也适用于道路交通速度预测。尤其是在 PEMS03 这类交通动态较复杂的数据集上，模型通过自适应超图捕捉动态空间依赖，取得了比较突出的性能提升。

从方法对比角度看，STH-SepNet 的优势主要来自两个方面。首先，单纯时间序列模型虽然擅长捕捉趋势和周期性，但对空间结构建模不足；其次，传统时空图模型虽然能够建模道路或节点关系，但通常依赖静态图结构，难以适应动态变化的空间依赖。而 STH-SepNet 将轻量 LLM 与自适应超图结合，在时间趋势和空间动态关系两方面都进行了针对性建模。

3.3 自适应超图结构的作用分析

为了验证自适应超图是否真正有效，论文比较了三种模型变体：

STH-SepNet-static：使用静态图结构；
STH-SepNet-GNN：使用普通自适应图神经网络；
STH-SepNet：使用自适应超图结构。

结果显示，自适应超图版本整体表现最好。

以 BERT backbone 为例，在 BIKE-Outflow 数据集上，STH-SepNet-static 的 MAE 为 6.34 ，STH-SepNet-GNN 的 MAE 为 5.47 ，而完整 STH-SepNet 的 MAE 进一步降低到 5.33 。在 PEMS03 数据集上，STH-SepNet-static 的 MAE 为 29.53 ，STH-SepNet-GNN 为 21.11 ，完整模型为 21.03。

这个结果可以说明两点。

自适应空间结构明显优于静态空间结构。静态图只能表达固定的节点关系，例如道路邻接或地理距离，但现实交通系统中的空间依赖会随着时间变化。自适应图能够根据数据动态调整节点之间的联系，因此相比静态图有明显提升。
超图结构在普通自适应图基础上进一步提升了性能。普通 GNN 主要建模两两节点关系，而超图可以用一条超边连接多个节点，从而捕捉多个区域或道路之间的联合影响。虽然在部分指标上自适应图与自适应超图差距不算特别大，但完整模型整体更加稳定，说明高阶空间关系对时空预测是有补充价值的。

从交通场景理解，这一点也比较合理。一个区域的交通状态往往不是由某一条道路单独决定的，而是多个道路、多个站点、多个区域共同作用的结果。超图结构正好提供了描述这种多节点联动的方式。

3.4 LLM 模块的有效性：大模型有用，但不一定越大越好

论文进一步通过消融实验分析 LLM 模块的作用。结果显示，去掉 LLM 后，模型性能会明显下降。例如在 PEMS03 数据集上，不使用 LLM 的 STH-SepNet-w/o 的 MAE 为 26.84 ，RMSE 为 43.44 ；而使用 BERT 的完整模型 MAE 降低到 21.03 ，RMSE 降低到 34.17 。在 BJ500 数据集上，不使用 LLM 时 MAE 为 6.24 ，使用 BERT 后 MAE 降低到 5.58。这说明 LLM 模块确实有助于捕捉时间序列中的复杂趋势、周期性和统计特征。

不过，更有意思的是，论文发现 LLM 并不是越大越好。作者比较了 BERT、GPT-2、GPT-3、LLAMA1B、LLAMA7B、LLAMA8B 和 DeepSeek-Qwen1.5B 等不同 backbone。结果显示，BERT 这类较小规模模型已经能够取得非常有竞争力的结果，而更大规模的 LLAMA7B 或 LLAMA8B 并没有带来稳定提升。

例如，在表 C.1 中，BERT 参数量约为 110M ，但在多个数据集上表现接近甚至优于更大的模型。在 METR-LA 上，BERT 版本 MAE 为 9.42 ，而 LLAMA7B 和 LLAMA8B 分别为 9.72 和 9.71 。在 PEMS03 上，BERT 版本 MAE 为 21.03，也优于 LLAMA7B 和 LLAMA8B。

这说明，在时空预测任务中，盲目扩大 LLM 参数量并不是最优策略。由于 STH-SepNet 已经将空间依赖交给自适应超图模块处理，LLM 主要负责时间趋势建模，因此轻量化模型已经足以发挥作用。换句话说，STH-SepNet 的有效性并不依赖"更大的模型"，而是依赖"更合理的分工"。

3.5 超图阶数 k 的影响

论文还分析了自适应超图中超边阶数 k 对模型性能的影响。这里的 k 可以理解为每条超边所连接的节点规模，或者说模型在构造高阶关系时纳入多少近邻节点。

结果显示，随着 k 增大，模型误差通常先下降后上升。也就是说，适度增加超图阶数有助于捕捉高阶空间依赖，但阶数过高可能引入噪声或导致过拟合。

在论文实验中，k = 3 通常是较优选择。对于 BIKE-Outflow 和 PEMS03 数据集，多个 LLM backbone 下的结果都显示，k = 3 能够取得较好的 RMSE 表现。

这一现象也比较符合直觉。当 k = 2 时，超图基本退化为普通的两两节点关系，无法充分体现超图的高阶建模优势；当 k 过大时，一条超边会连接过多节点，可能把弱相关甚至无关节点也纳入同一组关系中，导致空间信息变得混杂。因此，超图阶数需要在"表达能力"和"噪声控制"之间取得平衡。

超图并不是越高阶越好，关键在于选择合适的高阶范围，使模型既能捕捉多节点联动，又不会引入过多无关关系。

3.6 门控融合机制的作用

论文附录还比较了不同融合机制，包括：

Adaptive Gate；
Attention Gate；
LSTM Gate。

结果显示，本文提出的 Adaptive Gate 在多个数据集上的 MAE 和 RMSE 最低，尤其在 METR-LA 和 BJ500 这类复杂交通场景中优势更明显。

这说明时间表示和空间表示不能简单相加，也不宜完全依赖固定融合方式。不同场景下，预测结果对时间趋势和空间关系的依赖程度可能不同。例如，早晚高峰可能更依赖周期性时间模式，而突发拥堵、事故或道路施工则更依赖空间传播关系。自适应门控机制可以根据输入动态调整两类信息的权重，因此更适合复杂时空系统。

从模型设计角度看，门控机制也是 STH-SepNet 中"解耦后再融合"的关键环节。它既保留了时间和空间模块的独立性，又通过可学习权重弥补二者完全分离可能带来的信息损失。

3.7 计算效率分析

除了预测精度，论文还分析了模型的计算效率。结果显示，STH-SepNet 在多数数据集上比 TimeLLM 更节省 GPU 资源，训练速度也更快。作者指出，STH-SepNet 使用平均池化提取全局趋势，并将时间建模和空间建模解耦，因此避免了直接在大规模节点序列上使用 LLM 所带来的巨大开销。

例如，在 BIKE-Inflow / BIKE-Outflow 数据集上，STH-SepNet-BERT 的 GPU 显存使用约为 24.6G，并且训练速度优于 TimeLLM 系列模型。随着 LLM 参数规模增大，计算效率通常会下降，但预测性能并没有同步提升。这进一步说明，在该任务中使用轻量化 LLM 是更具性价比的选择。

从实际应用角度看，这一点非常重要。交通预测、城市调度等任务往往需要在较短时间内完成模型训练或在线推理。如果模型过于庞大，即使精度略有提升，也可能难以部署。STH-SepNet 试图在精度和效率之间取得平衡，因此具有一定工程应用价值。

四、总结与展望

4.1 工作总结

这篇 KDD 2025 论文 《Decoupling Spatio-Temporal Prediction: When Lightweight Large Models Meet Adaptive Hypergraphs》 提出了一种面向时空预测任务的轻量化框架 STH-SepNet 。与传统方法不同，STH-SepNet 没有将时间依赖和空间依赖混合在一个统一复杂模型中处理，而是采用了 时空解耦 的设计思路：使用轻量化大语言模型建模时间动态，使用自适应超图神经网络建模空间依赖，最后通过门控机制进行融合。

从模型设计来看，STH-SepNet 的核心可以概括为三点。

用轻量化 LLM 处理时间趋势。模型通过全局趋势提取、时间序列 patch embedding 和 prompt adaptation，将数值时间序列转化为更适合预训练语言模型处理的表示形式。这样既能利用 LLM 的序列建模能力，又避免了直接使用超大模型带来的高计算成本。
用自适应超图处理空间依赖。传统图神经网络主要建模两两节点关系，而超图可以通过一条超边连接多个节点，更适合描述交通网络、城市区域或共享单车系统中复杂的多节点联动关系。论文进一步通过动态构造超边，使模型能够适应不断变化的空间依赖。
用门控机制融合时间和空间信息。在时间模块和空间模块分别完成建模后，STH-SepNet 通过可学习门控动态调整两类信息的贡献比例，避免了简单拼接或直接相加带来的特征干扰。

从实验结果来看，STH-SepNet 在 BIKE-Inflow、BIKE-Outflow、PEMS03、BJ500 和 METR-LA 等多个真实数据集上取得了较优表现。尤其是在 PEMS03、METR-LA 等交通预测任务中，模型相比多种时间序列模型和时空图模型均表现出更低的 MAE 和 RMSE。消融实验也表明，自适应超图、LLM 模块和门控融合机制都对最终性能有实际贡献。

4.2 主要启发

这篇论文对时空预测任务的启发不只是"把 LLM 用到交通预测中"，更重要的是它提供了一种比较清晰的结构化思路。

大模型不一定要包办所有任务。在时空预测中，LLM 更适合处理时间序列中的趋势、周期性和统计模式，而空间拓扑关系仍然需要图结构或超图结构来建模。STH-SepNet 的做法是让 LLM 做自己擅长的部分，而不是让它直接承担整个时空预测任务。
轻量化模型可能比超大模型更实用。论文实验显示，BERT 这类较小规模的模型已经能取得很好的预测结果，而更大的 LLAMA 或 DeepSeek backbone 并没有带来稳定提升。对于交通预测、城市计算等应用来说，模型部署成本和计算效率非常关键，因此"够用且高效"的轻量化模型往往更有实际价值。
动态空间关系值得重点建模。现实中的交通网络并不是静态的。事故、天气、节假日、道路施工、政策调控等因素都会改变区域之间的影响关系。自适应超图通过动态构造超边，使模型能够捕捉这种空间漂移和高阶交互，这一点是传统静态图方法难以做到的。
解耦并不意味着完全割裂。STH-SepNet 先将时间和空间分别建模，再通过门控机制进行融合。这种"先分工、再融合"的方式比简单联合建模更清晰，也比完全分离更灵活。

4.3 论文可能存在的不足

虽然 STH-SepNet 在实验中取得了较好结果，但从方法和实际应用角度看，仍有一些值得讨论的问题。

4.3.1 时空解耦假设并不总是成立

STH-SepNet 的基本前提是时间依赖和空间依赖可以被相对独立地建模。然而，在一些真实场景中，时间和空间变化可能高度耦合。例如，交通事故发生后，拥堵会沿道路网络随时间传播；极端天气也可能同时改变时间趋势和空间分布。在这类强耦合场景下，完全解耦可能会损失一部分时空交互信息。

论文在结论部分也提到，当前框架假设时间和空间依赖可以清晰解耦，但在具有强时空因果耦合的快速演化事件中，这一假设可能并不完全成立。

4.3.2 自适应超图带来额外计算开销

自适应超图的优势在于能够动态构造空间关系，但这也意味着模型需要根据节点特征持续更新超边。在一般离线预测任务中，这种开销可能可以接受；但在低延迟、实时交通调度或在线预警系统中，动态超边生成可能会影响响应速度。

因此，未来如果要将该方法应用到实时系统中，还需要进一步优化超图构造过程，例如减少 KNN 搜索成本、使用缓存机制，或设计更高效的近似超边更新方法。

4.4 未来展望

基于这篇论文的思路，未来可以从以下几个方向继续拓展。

4.4.1 从完全解耦走向可控交互

STH-SepNet 证明了时空解耦可以提升效率和性能，但对于强时空耦合场景，未来可以考虑在解耦基础上加入可控交互机制。例如，在时间模块和空间模块之间设计交叉注意力、因果传播模块或事件驱动交互模块，使模型既能保持解耦带来的效率优势，又能捕捉关键时刻的时空耦合关系。

4.4.2 构建更高效的动态超图

自适应超图是 STH-SepNet 的重要贡献，但动态超边构造仍可能带来额外成本。未来可以探索更高效的超图构建方式，例如基于稀疏注意力的超边选择、基于聚类的节点分组、基于历史关系缓存的增量更新，或使用近似最近邻搜索降低 KNN 复杂度。

4.4.3 设计更稳健的时序 Prompt

Prompt adaptation 是 LLM 进入时空预测任务的关键桥梁。未来可以进一步研究自动化 prompt 生成、数据集自适应 prompt、可学习 prompt token 等方法，减少人工模板依赖。同时，也可以将节假日、天气、事件、道路施工等外部信息纳入 prompt，使模型获得更丰富的上下文。