【ICLR 2026】MixLinear:基于0.1 K参数的极低资源多变量时间序列预测

目录

一句话概括

MixLinear是ICLR 2026 提出的面向极低资源场景 的多元长时序预测(LTSF)模型,仅含0.1K参数 ,创新采用时域分段趋势提取+频域自适应低秩谱滤波 双路径架构,将时序建模复杂度从O(n²)降至O(n) ;在8个标准基准数据集 上,实现与Transformer/线性SOTA模型相当的预测精度,达成最高16.2% MSE优化3.2倍推理加速81%参数量缩减,可高效部署于嵌入式、边缘传感器等算力受限设备。

不足之处:

对比方法较都是2024年以前,没有与最先进方法进行对比。

创新方法一般,感觉是以前方法的组合。

复制代码
论文:MIXLINEAR: EXTREME LOW RESOURCE MULTIVARIATE TIME SERIES FORECASTING WITH \(0.1 K\) PARAME
作者:Aitian Ma, Dongsheng Luo, Mo Sha∗
单位:Knight Foundation School of Computing and Information Sciences Florida International University
代码:

请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^

更多资讯** 关注微信公众号:"时序前沿研究"**

添加** 小助手微信Aniose,加入时序交流群** 。

图1:MixLinear 架构概述。我们的双路径框架可高效处理时间序列数据。基于分段的路径(上方)将输入 X ∈ R L X \in \mathbb{R}^{L} X∈RL下采样为分段 X s e g ∈ R L / π X_{seg } \in \mathbb{R}^{L / \pi} Xseg∈RL/π,对分段内(蓝色)和分段间(橙色)的相关性进行线性变换,然后上采样至 X T ∈ R H X_{T} \in \mathbb{R}^{H} XT∈RH。频域路径(下方)通过快速傅里叶变换( ( X S ∈ C L / π ) (X_{S} \in \mathbb{C}^{L / \pi}) (XS∈CL/π))对分段进行变换,通过自适应低秩滤波将趋势压缩至潜在空间 Z S ∈ C n x Z_{S} \in \mathbb{C}^{n_{x}} ZS∈Cnx,通过逆快速傅里叶变换完成重构,并输出 X F ∈ R H X_{F} \in \mathbb{R}^{H} XF∈RH。最终预测结果 Y ∈ R H Y \in \mathbb{R}^{H} Y∈RH 结合了两路输出,仅用 0.1K 个参数就实现了具有竞争力的预测效果。

二、详细总结

1. 研究背景与动机

  1. 长时序预测(LTSF)痛点
    • Transformer类模型精度优异,但参数量达百万级、计算复杂度O(L²),无法部署于边缘/嵌入式设备。
    • 现有轻量模型未区分局部时域特征全局频域特征,采用单一架构建模导致参数冗余、效率低下。
  2. 核心科学洞察
    • 局部时序波动适合时域分段线性建模 ,全局趋势/周期性在频域呈稀疏性,双域协同建模可实现极致效率。

2. 模型核心设计

MixLinear采用双路径加法融合 架构,总参数量仅0.1K,彻底解决参数爆炸问题。

  • 时域路径:分段趋势提取
    1. 输入下采样→非重叠分段;
    2. 段内线性变换:捕捉局部斜率、短周期等细粒度特征;
    3. 段间线性变换:建模跨段漂移、周期相关性;
    4. 上采样重构,复杂度O(n)
  • 频域路径:自适应低秩谱滤波
    1. 下采样数据经FFT转换到频域;
    2. 秩约束矩阵分解(nz=2):将谱特征压缩至极低维隐空间;
    3. 逆FFT重构+上采样,仅需4rnz实参数,规避全滤波O(r²)复杂度。
  • 复杂度分析
    • 时间复杂度:O(nlogn)(由FFT操作主导);
    • 空间复杂度:O(n),远优于注意力模型的O(L²)。

3. 实验验证与核心数据

(1)实验配置
  • 数据集:8个LTSF标准基准(ETTh1/ETTh2/ETTm1/ETTm2、Exchange、Solar、Electricity、Traffic);
  • 训练设置:回溯窗口720,预测跨度96/192/336/720,Adam优化器,学习率0.02,30轮训练;
  • 硬件环境:单卡NVIDIA A100 80GB,基于PyTorch实现。
(2)核心性能对比
对比维度 MixLinear SparseTSF FITS 核心优势
参数量 0.1K 1K 10K 较SparseTSF减81%,较FITS减94%-98%
精度提升 最高+16.2% MSE 基线 - Exchange数据集最优
推理加速 最高3.2× 1.72× 低维场景(Exchange)优势显著
计算量(MACs) 196.56K(ETTh1-720) 277.20K 292.32K 降低41.32%-48.98%
(3)消融实验结论
  1. 双路径必要性 :完整MixLinear的MSE显著低于仅时域/仅频域单路径模型,双域特征互补;
  2. 超参鲁棒性 :分段长度4-8、谱秩nz=2 、下采样因子π=24为最优配置,性能波动<3%;
  3. 复杂度有效性:低秩滤波与分段分解切实降低计算量,且无明显精度损失。

4. 核心贡献

  1. 提出时域分段线性分解方法,将时序建模复杂度从O(n²)降至O(n);
  2. 创新频域自适应低秩谱滤波,实现全局趋势的极致压缩与高效建模;
  3. 构建双域融合架构,在0.1K极轻参下达成SOTA级长时序预测精度。

5. 应用与拓展

  • 落地场景:边缘传感器、嵌入式设备等算力/存储严格受限的终端;
  • 行业方向:洪水检测、环境健康监测、交通管控等实时长时序预测任务;
  • 模型拓展:设计思路可用于高效大模型、基础模型的轻量化研发。

四、关键问题与答案

问题1:MixLinear实现0.1K极轻参数与高效计算的核心原理是什么?

答案 :核心是双域分离建模+低秩分解 :①时域采用分段线性分解 ,分离段内局部特征与段间全局关联,将复杂度从O(n²)降至O(n);②频域采用秩约束谱滤波(nz=2) ,把全局谱特征压缩至极低维隐空间,仅需极少参数;双路径采用加法融合,无参数爆炸,最终仅0.1K参数,时间复杂度优化为O(nlogn)。

问题2:MixLinear在预测精度推理效率上,相比主流轻量基线的核心优势有哪些?

答案 :精度层面,在8个基准数据集上实现最高16.2% MSE提升 (Exchange数据集),ETTh1/ETTh2等数据集也有3%-5%的精度优化,优于SparseTSF、FITS等轻量模型;效率层面,低维场景推理最高加速3.2倍 ,高维场景最高加速2.58倍,计算量(MACs)最高降低48.98%,参数量较SparseTSF缩减81%、较FITS缩减94%-98%,完美适配资源受限设备。

问题3:MixLinear的消融实验验证了哪些关键设计的有效性

答案 :①双路径互补性 :仅保留时域/频域单路径的模型,MSE均显著高于完整MixLinear,证明时频双域建模缺一不可;②超参最优性 :谱秩设为2、分段长度4-8、下采样因子24时,精度与效率平衡最优,且模型对超参不敏感;③架构高效性:分段线性分解与低秩谱滤波,切实降低了计算量与参数量,同时保证预测精度。

相关推荐
SunnyRivers13 天前
通俗易懂理解回归和时间序列的区别
回归·时间序列
deephub1 个月前
基于网格搜索与分段回归的时间序列变化点检测方法
人工智能·python·机器学习·时间序列
技道两进2 个月前
使用DNN\LSTM\CNN进行时间序列预测
cnn·lstm·dnn·时间序列
七夜zippoe2 个月前
时间序列分析实战:从平稳性检验到Prophet与LSTM预测
人工智能·python·机器学习·arima·时间序列·prophet
懒羊羊吃辣条2 个月前
电力负荷预测怎么做才不翻车
人工智能·深度学习·机器学习·时间序列
deephub3 个月前
使用 tsfresh 和 AutoML 进行时间序列特征工程
人工智能·python·机器学习·特征工程·时间序列
杰瑞哥哥3 个月前
【时间序列与深度学习】(一)经济计量基础ARIMA模型
python·时间序列·金融工程
All The Way North-3 个月前
RNN基本介绍
rnn·深度学习·nlp·循环神经网络·时间序列
悟乙己3 个月前
使用TimeGPT进行时间序列预测案例解析
机器学习·大模型·llm·时间序列·预测