自回归（Autoregression）是什么？在大语言模型中自回归的应用

自回归（Autoregression, AR）是一种用于时间序列分析和预测的统计模型，其核心思想是：用同一时间序列的历史值（过去的值）来预测当前值。自回归模型假设当前数据点与之前若干数据点之间存在线性关系。

典型的自回归模型记为 AR(p)，其中 p表示使用的历史数据点的数量（阶数）。

公式表示：

：当前时刻的值。
：常数项（截距）。
：模型参数（权重），表示过去值对当前值的影响。
：随机误差（白噪声）。

时间序列是平稳的（均值和方差不随时间变化）。

当前值仅依赖于过去有限阶数的历史值（马尔可夫性质）。

通过统计方法（如PACF图、AIC/BIC准则）确定最优阶数。

优点：简单直观，计算高效，适用于具有明显时间依赖性的数据。

缺点：要求数据平稳（非平稳数据需先差分，转化为ARIMA），只能捕捉线性关系，对复杂非线性模式效果有限。

扩展

ARIMA模型：结合自回归（AR）、差分（I）和移动平均（MA），适用于非平稳时间序列。

VAR模型：多元自回归，可分析多个时间序列的相互影响。

在大语言模型（LLM）中，自回归（Autoregressive）是其生成文本的核心机制，指的是模型通过逐步预测下一个词（文本接龙）的方式生成序列，且每一步的预测都依赖于之前已生成的词。这一过程与时间序列分析中的自回归概念类似，但应用于离散的文本序列。

模型从左到右逐词生成文本，每次基于当前输入的上下文（已生成的词）预测下一个词的概率分布。

例如，生成句子"我爱AI"的过程：

输入起始符 [BOS] → 预测"我"

输入"我" → 预测"爱"

输入"我爱" → 预测"AI"

输入"我爱AI" → 预测结束符[EOS]

自回归模型的概率分解为：

是第个词，是序列长度。

每一步的条件概率由模型（如Transformer）计算。

依赖Transformer的解码器：模型（如GPT）通过掩码注意力机制（Masked Self-Attention）确保解码时仅能看到当前词左侧的上下文，符合自回归特性。