IEEEICDE2025 | TimeKD：融合大语言模型与知识蒸馏的时间序列预测方法

文章信息

论文题目为《Efficient Multivariate Time Series Forecasting via Calibrated Language Models with Privileged Knowledge Distillation》，发表于数据工程领域的CCF-A会议IEEEICDE2025。该研究针对传统时间序列预测模型在跨变量依赖建模能力有限、难以利用外部知识以及预测性能受限等问题，提出了一种融合大语言模型与知识蒸馏的预测框架。

摘要

多变量时间序列预测（MTSF）致力于在给定历史数据的前提下预测未来观测值，在时间序列数据管理系统中扮演着关键角色。随着大语言模型的发展，近期研究通过文本提示调优的方式，将大语言模型的知识注入到多变量时间序列预测任务中。然而，大语言模型的部署在推理阶段往往面临效率低下的问题。为解决这一问题，文章提出了TimeKD，一个高效的多变量时间序列预测框架，该框架融合了校准语言模型与特权知识蒸馏技术。TimeKD的目标是：从所提出的跨模态教师模型中生成高质量的未来表征，并训练出一个高效的学生模型。受特权信息学习范式的启发，跨模态教师模型采用了带有真实标签提示的校准语言模型。此外，文章设计了一种减法式交叉注意力机制，用于对这些表征进行精细化处理。为训练出高效的学生模型，文章提出了一种创新的特权知识蒸馏（PKD机制），其中包含相关性蒸馏与特征蒸馏两个模块。PKD能够让学生模型复刻教师模型的行为，同时最小化二者的输出差异。在真实数据集上开展的大量实验，充分验证了所提TimeKD模型的有效性、高效性与可扩展性。

贡献

（1）文章是首个将特权知识蒸馏应用于时间序列预测的系统性研究。文章提出了TimeKD，一个基于校准语言模型的高效时序预测框架。

（2）文章构建了一个跨模态教师模型，该模型由校准语言模型和减法式交叉注意力机制组成，能够有效提取未来时序表征。

（3）文章提出了特权知识蒸馏（PKD），该方法包含基于特权信息的相关性蒸馏与特征蒸馏，能够让学生模型学习教师模型的行为模式，同时最小化二者的输出差异。

（4）文章在真实数据集上开展了大量实验，为所提TimeKD模型的有效性、高效性与可扩展性提供了充分的实验证据。

整体框架

TimeKD由跨模态教师模型和学生模型组成，并通过特权知识蒸馏将教师模型的知识迁移到学生模型，从而训练出一个高性能的学生模型。

①跨模态教师模型：该模型主要由校准语言模型（CLMs）**、**减法式交叉注意力（SCA）以及用于重建任务的特权Transformer编码器构成。真实值提示PGT和历史数据提示PHD作为特权信息，分别输入校准语言模型，以辅助生成有效的未来表征。减法式交叉注意力（SCA）的设计目的是去除未来时序表征中掺杂的文本信息。随后，文章将这些特征输入轻量级Pre-LNTransformer编码器，以重建时序真实值。

文章训练一个基于大语言模型（LLM）的跨模态教师模型，用于重建时间序列的真实值，以学习高质量的未来表示。

①校准语言模型：校准语言模型（CLMs）基于提示词的跨模态和模态内相关性，对大语言模型（LLMs）中的掩码多头自注意力机制进行修改。CLMs由分词器（tokenizer）、层归一化（layernormalization）、校准注意力机制、前馈网络（feed-forwardnetworks）以及最后一个token提取器组成，如图1所示。

随后，文章设计了校准注意力机制（CalAtt），以增强LLM在处理多模态数据（如时间序列与文本）时的掩码多头自注意力（MMSA）能力。传统MMSA难以区分跨模态与模态内交互的重要性，导致表示纠缠。例如，如图4所示，原始注意力掩码（底部）在下三角区域呈现均匀分布。相比之下，校准注意力机制（顶部）增强了模态内交互，同时降低跨模态交互的权重（例如时间序列token"10"与文本token"were"之间的关系）。其形式如下：

②减法式交叉注意力：文章设计了一种减法式交叉注意力（SCA）机制，用于去除最后token表示中的文本信息，从而保留与时间序列预测最相关的表示。在SCA中，文章首先对真实值和历史数据进行层归一化和投影，随后计算通道级相似度矩阵：

接着，通过M _C 对L _HD 进行逐通道加权聚合。最终，通过从L*_GT*中减去融合后的信息，并经过层归一化和前馈网络，得到精炼后的真实值提示嵌入：

②学生模型：学生模型通过可逆实例归一化层（RevIN）处理历史数据，随后接入逆嵌入层。逆嵌入层独立嵌入每个变量的完整时序序列。接着，一种名为TSTEncoder(·)的时序Transformer编码器处理这些嵌入，以捕捉多变量间的长期时序依赖，从而预测时序真实值。

学生模型用于处理历史时间序列数据，整体结构包括：RevIN（归一化模块），倒置嵌入层（invertedembedding），时间序列Transformer编码器以及投影层（用于预测）给定历史时间序列数据。首先，模型通过RevIN 对输入进行归一化处理，目的是：缓解时间序列中的分布漂移问题 **。**然后，将归一化后的数据输入到倒置嵌入层中。其作用是：在不同变量之间建立更强的依赖关系。捕捉多变量时间序列的全局相关性。嵌入后的表示会送入一个Transformer编码器：其作用是捕获时间依赖关系以及变量之间的交互。

③特权知识蒸馏：该模块通过两种损失函数将教师模型的未来表征迁移到学生模型：相关性蒸馏损失和特征蒸馏损失**。** 相关性蒸馏损失用于对齐教师与学生模型中Transformer的特征相关性，引导学生模型模仿教师的行为模式；同时，特征蒸馏损失用于最小化教师与学生模型之间的输出差异。

实验

1.总体效果

①长期预测性能对比：文章在表I中报告了各方法的MSE和MAE指标。优于现有方法的结果以下划线标出，最佳结果用粗体表示。主要观察如下：TimeKD在所有数据集和所有预测长度（FH∈{24,36,48,96,192}）上都取得了最佳结果。相比当前最强基线方法，TimeKD在MSE和MAE上分别提升了9.11%和7.52%。这一提升归因于TimeKD的特权知识蒸馏机制，该机制利用校准后的LLM从文本模态中提取嵌入，并通过蒸馏将这些知识迁移到学生模型中。文章还观察到，在ETTm2数据集上的提升超过其他数据集，因为ETTm2具有更高的采样频率和更细粒度的数值记录。这说明TimeKD能够在高频数据场景下学习更鲁棒的表示。总体而言，基于LLM的方法在大多数情况下优于Transformer方法。这表明LLM具有更强的知识迁移能力。Transformer在所有数据集上的表现最差，尤其是在ETTh数据集（变量较少）上更明显，这与其结构简单、缺乏参数有关。TimeCMA在现有方法中表现较优，这得益于其能够捕捉抽象的全局时间趋势，以及通过跨模态对齐设计来获取更稳健的时间序列表示。

②短期预测性能对比：如表II所示，TimeKD在PEMS04和PEMS08数据集上取得了所有基线方法中的最佳性能。具体而言：在PEMS04数据集上：MSE降低10.81%；MAE降低10.26%；在PEMS08数据集上：MSE降低11.38%，MAE降低11.39%这些优异表现（TimeKD、TimeCMA、iTransformer）主要归因于：使用了倒置嵌入（invertedembedding），能够有效捕捉交通传感器之间的空间依赖关系。相比之下：Time-LLM、UniTime、OFA和PatchTST将每个传感器独立处理，未考虑空间交互关系因此，它们的性能相对较低

2.消融实验

为了分析TimeKD各个组成部分的作用（包括特权信息、校准注意力、语言模型、减法交叉注意力、相关性蒸馏和特征蒸馏），文章设计了以下消融版本：

lw/o_PI：去除特权信息（例如真实值提示），教师模型仅输入历史数据。

lw/o_CA：去除校准注意力，使用原始的多头注意力机制。

lw/o_CLM：去除校准语言模型，即教师模型不再使用LLM提取文本嵌入。

lw/o_SCA：去除减法交叉注意力，改为直接对嵌入进行减法操作。

lw/o_CD：去除相关性蒸馏，不再对齐特权Transformer与时间序列Transformer之间的注意力关系。

lw/o_FD：去除特征蒸馏，不再对齐教师与学生的特征表示。

实验结果（如图2所示）表明：在ETTm1、ETTh2、Weather和Exchange数据集上的平均结果显示，去除相关性蒸馏（CD）和特权信息（PI）会显著降低性能，说明它们对时间序列预测至关重要。当教师模型只使用历史数据（去掉真实值提示）时，TimeKD性能明显下降，说明：未来信息（作为特权知识）非常重要；在ETTm1数据集上：去除SCA后，MSE和MAE分别提升（变差）约8.2%和6.5%，说明SCA对性能提升有重要作用，同时：TimeKD相比w/o_CA分别提升8.9%（MSE）和8.4%（MAE）说明校准注意力（CA）有效

结论

本文提出了TimeKD，这是一种新颖的多变量时间序列预测（MTSF）框架，将校准语言模型与特权知识蒸馏相结合。TimeKD 由两个关键组成部分构成：跨模态教师模型和轻量级学生模型。在跨模态教师模型中，文章提出了校准语言模型和减法交叉注意力机制。校准语言模型利用大语言模型的预训练知识以及特权文本提示，提取鲁棒的未来表示；减法交叉注意力则用于净化表示，使其更好地对齐时间序列数据。此外，文章提出了一种创新的特权知识蒸馏方法，包括相关性蒸馏和特征蒸馏，用于将教师模型中的表示迁移到轻量级学生模型中。在来自不同领域的真实数据集上的大量实验结果表明，TimeKD 在有效性和效率方面均表现出色。