[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer

开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收,该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer,它从时间分辨率和时间距离角度进行多尺度时序建模,同时进一步提出自适应Pathways来动态调整多尺度建模过程,基于两者,Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果,并展现出不错的泛化性和迁移性。

背景

现实场景中的时间序列在不同的时间尺度展现出不同的变化,如云计算场景中的CPU,GPU,内存等资源需求呈现出日、月、季节等独特尺度的时间模式. 多尺度建模主要从不同的尺度中提取时序特征和依赖关系,建模多尺度需要考虑两个方面:时间分辨率和时间距离。时间分辨率 指用于建模的每个时间片段的大小。如图1中,相同的时序别划分为小的片段(蓝色)或大的片段(橙色),提出细粒度和粗粒度的时序特征。时间距离 对应于显示建模时间依赖性,决定用于时序建模时时间步之间的距离。如图1中,黑色箭头模拟了相邻时间步之间的关系,提取时序的局部细节,而彩色箭头模拟了跨长距离的时间步之间的关系,提取时序的全局关联。

图 1:左边:时间序列被划分成不同大小的Patches作为时间分辨率。右边:局部细节(黑色箭头)和全局关联性(彩色箭头)通过不同的时间距离被建模。

挑战 基于Transformer模型的多尺度建模,主要有两个挑战。一:不完备的多尺度建模。只是针对时间分辨率不能有效地捕捉不同范围的时间依赖关系,相反,考虑时间距离虽然能提取不同范围的时间依赖,但全局和局部间隔受到数据划分的影响,单一的时间分辨率并不完备。二:固定的多尺度建模过程。对比图1中的两个时序,上面的时序展现快速的波动,可能需要更关注细粒度和短期特征。相反,下面的时序需要关注粗粒度和长期特征。因此对所有时序采用固定的多尺度建模阻碍了每个时序的重要特征捕捉,然而为每个数据集或每个时序手动调整最佳尺度非常耗时且难以处理。 ### 破局 我们提出了一个基于Pathways架构的自适应多尺度Transformer模型(Pathformer),如图2所示,它整合了时间分辨率和时间距离提出了一个多尺度Transfomer模块,使模型具备完备的多尺度建模能力。我们进一步提出自适应pathways,激活Transformer的多尺度间建模能力。它基于输入时序的时间动态自适应提取和聚合多尺度特征,实现了自适应多尺度建模。接下里,我们详细介绍多尺度Transformer块和自适应Pathways。 ![](https://intranetproxy.alipay.com/skylark/lark/0/2024/png/135256309/1716960372863-eaf4f6ed-67d1-49ee-8064-d842f48c1ac1.png#)

图 2:Pathformer的架构

(1)多尺度Transformer模块: 在多尺度Transformer块中,我们对输入的时序特征进行不同patch大小的时序划分,不同的patch大小代表不同时序的时间分辨率。基于每个尺度的Patch划分,使用双重注意力机制来建模不同范围的时间依赖性,如图3(a)所示,通过patch内注意力(intra-patch attention)建模每个patch内部不同时间点之间的关联来捕捉时序的局部细节,通过patch间注意力(inter-patch attention) 建模不同patch之间的关系来捕获全局信息。

图 3:左边为多尺度Transformer模块的结构,主要包含Patch划分,patch内注意力,patch间注意力等。右边为多尺度路由器的结构

(2)自适应Pathways: 由于不同的时序偏好不同的尺度,这取决于它们不同的时间特征和动态性。为了实现自适应多尺度建模,我们基于多尺度Transformer提出了自适应Pathways。如图2所示,它包含了两个关键部分:多尺度路由器和聚合器。多尺度路由器根据输入数据选择特定大小的patch进行划分,这激活了Transformer中特定部分,并控制多尺度特征的提取。路由器和聚合器一起协同工作,通过加权聚合将这些特征组合起来得到Transformer块的输出。 论文在阿里云云原生大数据计算服务 MaxCompute 3 个集群的真实数据集和公开数据集上进行了实验,Pathformer要显著优于其它的时序预测模型,并且Pathformer在不同集群数据上展现了一定的泛化和迁移能力。

应用

论文算法已经集成到了飞天大数据AI管控平台ABM的算法服务模块,供大数据智能运维场景(如资源推荐等)调用。

  • 论文标题:Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting
  • 论文作者: 陈鹏, 张颖莹, 程云爻, 树扬, 王益杭, 文青松, 杨彬, 郭晨娟
  • 论文链接:openreview.net/forum?id=lJ...
相关推荐
Power20246661 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k1 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫1 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班1 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型
数据猎手小k1 小时前
AndroidLab:一个系统化的Android代理框架,包含操作环境和可复现的基准测试,支持大型语言模型和多模态模型。
android·人工智能·机器学习·语言模型
YRr YRr1 小时前
深度学习:循环神经网络(RNN)详解
人工智能·rnn·深度学习
sp_fyf_20241 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01
人工智能·深度学习·神经网络·算法·机器学习·语言模型·数据挖掘
多吃轻食2 小时前
大模型微调技术 --> 脉络
人工智能·深度学习·神经网络·自然语言处理·embedding
北京搜维尔科技有限公司2 小时前
搜维尔科技:【应用】Xsens在荷兰车辆管理局人体工程学评估中的应用
人工智能·安全
说私域2 小时前
基于开源 AI 智能名片 S2B2C 商城小程序的视频号交易小程序优化研究
人工智能·小程序·零售