Ntk-aware 插值 - 技术栈

1 引言

文章链接：https://www.reddit.com/r/LocalLLaMA/comments/14lz7j5/ntkaware_scaled_rope_allows_llama_models_to_have/

位置插值（Position Interpolation, PI） $1$ 是拓展旋转位置编码（Rotary Position Embedding，RoPE） $2$ 大模型上下文窗口的基础方案，但全局统一压缩位置索引会丢失高频维度的细粒度位置信息，短文本生成效果大幅衰减。NTK-aware $3$ 插值针对该痛点做优化，通过调整 RoPE $2$ 基底实现频率分层处理，高频近似外推、低频等价插值，无需改动模型结构，仅调整超参就能平衡长短文本性能，落地门槛极低。下文完整讲解 NTK-aware $3$ 的推导逻辑、缩放规律与实际应用优劣。

2 NTK-aware

RoPE $2$ 回顾：Roformer: Enhanced transformer with rotary position embedding-CSDN博客

对位置索引为 p 的嵌入向量在复数域应用的旋转变换为：

其中是一个常数（通常取 10000），d 为输入特征的维度，，则周期 T 为：

随着 i 的增加，三角函数周期 T 呈现单调递增趋势，而频率则相应单调递减。因此，低维可视为高频维度，高维则为低频维度。值得注意的是，采用 PI $1$ 方法会导致高频维度变得过于密集。为此，NTK-aware $3$ 策略不同于 PI $1$ 对所有维度的均匀缩放，而是采取了差异化处理：减少对高频区域的缩放，同时增加对低频区域的缩放，即实现高频外推与低频内插的平衡。

给引入一个系数可以获得这样的变换，为使最低频项和 PI $1$ 一致，有：

解得：

其中 k 为目标上下文窗口大小与预训练上下文窗口大小的比值。则频率向量 freqs可以计算为：

则有：

可以计算出等效缩放倍数：

随着 i 的增加，呈现单调递增趋势。

当 i 接近0 时，接近1，几乎不压缩，纯外推，等效窗口放大 k 倍，无任何收缩。

随着 i 的增加增大，压缩程度增大，但仍小于 k，减少了对高频区域的缩放，同时增加了对低频区域的缩放。

当 i 接近时，接近 k，此时和 PI $1$ 几乎等价。

因此，NTK-aware $3$ 巧妙地将外推和内插方法融为一体。

3 总结

本文系统梳理了 NTK-aware $3$ 插值的设计动机、数学推导与分层缩放逻辑。作为线性位置插值 PI $1$ 的优化方案，NTK-aware $3$ 精准解决了 PI $1$ 全局统一压缩带来的高频位置分辨率丢失问题：基于 RoPE $2$ 高低频维度预训练充分程度不同的特性，通过调整旋转基底实现差异化缩放，高频维度等效近乎无压缩外推、低频维度效果与 PI $1$ 完全对齐，将外推与插值两种策略融合在一套公式中。从等效缩放倍率规律能够看出，维度下标越小、频率越高，压缩力度越弱；仅最低频区间才达到和 PI $1$ 一致的缩放倍数 k。该方案无需修改模型主干结构，仅调整 RoPE $2$ 基底超参即可部署，轻度扩长上下文时甚至无需微调，大幅平衡长文本建模与短句生成质量。但 NTK-aware $3$ 仍存在局限：全局统一基底调整无法精细区分中间频段，超大扩展倍数下长距离检索效果会出现衰减，后续 NTK-by-parts $4$ 、YaRN $5$ 等分段优化方案也正是针对该短板进一步迭代。整体而言，NTK-aware $3$ 兼顾理论简洁性与工程易用性，是本地部署开源大模型拓展上下文的经典实用方案。

参考文献

$1$ Chen S, Wong S, Chen L, et al. Extending context window of large language models via positional interpolation $J$ . arXiv preprint arXiv:2306.15595, 2023.

$2$ Su J, Ahmed M, Lu Y, et al. Roformer: Enhanced transformer with rotary position embedding $J$ . Neurocomputing, 2024, 568: 127063.

$3$ Peng B, Quesnelle J. Ntk-aware scaled rope allows llama models to have extended (8k+) context size without any fine-tuning and minimal perplexity degradation $EB/OL$ .(2023)

$4$ bloc97. Add NTK-Aware interpolation "by parts" correction, 2023. URL https://github. com/jquesnelle/scaled-rope/pull/1.

$5$ Peng B, Quesnelle J, Fan H, et al. Yarn: Efficient context window extension of large language models $C$ //International Conference on Learning Representations. 2024, 2024: 31932-31951.