时间序列的“语言”：从语言模型视角理解时序基础模型

论文标题：THE LANGUAGE OF TIME : A LANGUAGE MODEL PER-SPECTIVE ON TIME SERIES FOUNDATION MODELS

受大型语言模型的启发，时间序列基础模型通过大规模预训练和微调取得了显著成功，展现出较好的表达能力、泛化能力和跨域迁移能力。然而，这一实证成功与不断增多的批判性分析形成鲜明对比。

核心矛盾点在于：每个时间序列代表着具有独特时间模式的系统，因此在不同领域（如能源消耗与气候科学）之间迁移模型必然会引发显著的分布偏移。

这种模型实际表现与理论预期之间的矛盾，引发了关于模型安全性、可靠性及其理论基础的根本性问题。

本文核心观点是：基于patch嵌入的时序基础模型可从形式上理解为大型语言模型的扩展，即可以将序列输入的基本单元理解为"token的分布"。

不难理解，在语言模型中，处理的是离散的token（词语），而时序模型将时序patch（短时间片段）作为基本单元。那么patch对应于模式族或重复出现的时序motifs，其嵌入在潜在空间中形成的是分布而非单点。下面两个图可以辅助佐证以上观点。

图1：相似时间序列片段及其对齐后的可视化。左图：完整信号中三个高亮显示的patch（Patch A/B/C）尽管振幅不同，但具有相同的趋势形状。右图：经过Z-Score归一化和时间对齐后，曲线几乎重叠，表明这些片段属于同一潜在b表示。

图2：语言token与时序patch嵌入的对比。左图：在语言模型中，token嵌入呈现为离散且稀疏分布的单点。右图：在时间序列模型中，patch嵌入形成具有有限厚度的概率云；同一 motifs（模式A/B）的patch聚集成可分离但内部连续的区域，阐释了"分布性token"的概念。

正是这种从点表示到分布表示的扩展，使模型能够继承大型语言模型强大的表示和迁移能力。

目标: 验证时间序列数据蕴含与自然语言相似的深层统计结构，即通过将连续时间动态符号化为离散词汇表，观察其是否遵循类语言的统计规律。

01 词汇表构建

patch分割：将原始时间序列按长度P、步长S分割为连续片段（patch），作为分析基本单元。
向量量化：使用K-Means聚类算法对38k个跨领域时间序列patch进行量化，生成由K个质心组成的"时间词语"词汇表，每个质心代表一种从数据中学习到的基础动态模式。
离散映射：将每个patch映射到词汇表中最近的质心索引，将连续时间序列转换为离散token序列，实现数据压缩与去噪。