"Sample Is Feature: Beyond Item-Level, Toward Sample-Level Tokens for Unified Large Recommender Models" 论文笔记

美团精排 Scaling 的工作 SIF ，目前挂在 Arxiv 26.04 上，提出了将历史序列 token 从 item-level 升级到 sample-level 的新思路，实现了更强的信息利用和模型效果

背景

推荐系统精排模型的 Scaling 主要分为两种（这两种不是分开独立的，后者是前者的进展）：

样本信息 Scaling ：通过加深行为序列来丰富样本信息，具体有两条子路线：序列变长（从几十到几千的交互行为，如 SIM、ETA、LONGER ）和序列变宽（每个历史 token 引入额外上下文，如 DSAN、CAIN、HSTU）
模型容量 Scaling ：通过统一的类 Transformer 架构来增强模型表达能力，现在的方法（如 HyFormer、OneTrans、MixFormer）把所有特征字段都喂进一个统一的架构里，一次前向传播就能实现更丰富的跨域交互

但是样本信息 Scaling 只把每个历史交互的一部分信息编码进序列 token，难免会造成上下文信息的损失；模型容量 Scaling 存的依旧是 item ID + 少量 side info，它们和包含丰富多字段的当前请求 token 放在同一个注意力空间里，信息密度天差地别，会造成表示上的不对称，模型没法充分发挥表达能力。最关键的是它们没法建模样本级的时变特征，作者以两个刚好点击同一家餐厅的用户举例：一个是深夜优惠活跃时段，另一个是午间通勤高峰。仅凭 item embedding 这两条行为完全等价，但其真实样本上下文传递着截然不同的用户意图信号

**静态特征：**附着在物品本身上的，比如餐厅的菜品口味、价格区间、人均消费、商区位置，这些信息相对稳定不变
**样本级的时变特征：**附着在这一次具体的交互上的，它是瞬时、一次性、且只对这一次交互有意义的

如果能保留每次交互的完整 Raw Sample 而不仅仅是 item embedding，不仅能避免上下文信息的损失，还能消除历史 token 与当前请求 token 之间的信息密度的不对等问题。因此本文提出了 SIF ，把每个历史 Raw Sample 直接编码进序列 token，这样既能最大程度保留样本信息，又能同时解决序列特征和非序列特征之间的异构性问题

方法

Sample-Level Token

在交互时刻 $t$，Raw Sample 被定义为完整的特征元组：

\ $S = \[\\mathbf{f}\^{\\mathrm{user}} \\mid \\mathbf{f}\^{\\mathrm{item}} \\mid \\mathbf{f}\^{\\mathrm{ctx}} \\mid \\mathbf{f}\^{\\mathrm{cross}}$ \]

其中 $\mathbf{f}^{\mathrm{user}}$ 是用户画像特征，$\mathbf{f}^{\mathrm{item}}$ 是商品属性，$\mathbf{f}^{\mathrm{ctx}}$ 是上下文信号，$\mathbf{f}^{\mathrm{cross}}$ 是预计算好的交叉特征（如 user-category 亲和度、item-context 共现统计）。Raw Sample $\mathcal{S} \in \mathbb{R}^{d_s}$ 维度很高（数千字段），Sample Tokenizer 的任务就是把它压缩成 Token Sample

这里区分两类特征：非序列特征 （用户属性、商品属性、上下文信号等）和序列特征 （用户历史交互序列 $\mathcal{B}$ 带有时间序信息）。这里的 Raw Sample 包含的是非序列特征，序列特征是由后面的 SIF-Mixer 通过跨样本注意力直接建模 inter-sample 动态。注意，非序列特征 和序列特征不是分开的，序列特征本身就是由连续时间点的非序列特征组成

Sample Tokenizer

Sample Tokenizer $\mathcal{T}: \mathcal{S} \mapsto \mathcal{Q}$ 把每条 Raw Sample 映射成 Token Sample $Q = (q^{(g,k,m)})$。一组共 $T \times M$ 个离散码本索，在线服务时仅需存储这些索引，embedding 通过 Mixer 内部维护的码本实时查表

（1）Group-Wise Decomposition

SIF 并不用一个大码本统一覆盖所有特征字段，而是先把 $\mathcal{S}$ 切成 $G = 4$ 个语义组，划分方式见上面的公式。这种分组设计可以让人工划分的强语义特征（如 item_id）可以独占一个组，以确保其判别信号不会被共享码本里的低基数特征稀释

然后每个语义组内部进一步按 sub-token granularity $B$ 均分为 $K_g$ 个 sub-token，数量自适应于该组的特征数

\ $K_g = \\left\\lfloor \\frac{\|\\mathcal{F}_g\|}{B} \\right\\rfloor \\tag{3} \\$

$B$ 默认为 32（即每 32 个特征字段映射为一个 sub-token），特征多的组自然会获得更多 sub-token，在 Token-level Mixer 里也就拿到更多位置。组 $g$ 内 $|\mathcal{F}_g|$ 个特征被均分为 $K_g$ 个不重叠子集 $\bigl\{\mathcal{F}g^{(k)}\bigr\}{k=1}^{K_g}$，每个子集通过组---槽位特定的线性投影压成 $d_0$ 维的 sub-token 向量

\ $\\tilde{\\mathbf{f}}\^{(g,k)} = W_{\\text{proj}}\^{(g,k)} \\mathbf{f}\^{(g,k)} \\in \\mathbb{R}\^{d_0} \\tag{4} \\$

所有 sub-token 共享相同维度 $d_0 = 16$，每个样本的总 sub-token 数 $T = \sum_{g=1}^G K_g$，总 token embedding 维度 $d = T \cdot d_0$。每个 sub-token $(g,k)$ 拥有独立的 codebook $C_{g,k} = \bigl\{\mathbf{c}v^{(g,k,m)}\bigr\}{m,v}$，码本大小 $V = 256$

（2）Residual Vector Quantization（RVQ）

在每个 sub-token $(g,k)$ 上应用 $M$ 层残差向量量化（可以详见 Vector Quantization for Recommendation 笔记的讲解）

\ $q\^{(g,k,m)} = \\arg\\min_v \\left\\\| \\mathbf{r}\^{(g,k,m-1)} - \\mathbf{c}_v\^{(g,k,m)} \\right\\\|_2, \\quad \\mathbf{r}\^{(g,k,m)} = \\mathbf{r}\^{(g,k,m-1)} - \\mathbf{c}_{q\^{(g,k,m)}}\^{(g,k,m)} \\tag{5} \\$

初始残差 $\mathbf{r}^{(g,k,1)} = \tilde{\mathbf{f}}^{(g,k)}$，Token Sample $\mathcal{Q}$ 会把所有 sub-token 索引序列拼接。在 $G = 4, B = 32, M = 3, V = 256$ 的默认配置下，按美团的特征 schema 总 sub-token 数 $T = 27$，每个样本被压缩为 $T \times M \times \log_2 V = 27 \times 3 \times 8 = 648$ bits（这里是存储成本，$\log_2 V$ 是因为 8 bit 就能表示 256 种状态）

（3）Label-Supervised Codebook Training

Sample Tokenizer 和排序目标联合训练（这与 VQ-Rec/TIGER 等纯无监督量化不同），在训练期间 RVQ 重建 $\hat{s}$ 会被送入一个轻量 MLP 预测 pCTR。附加的 pCTR loss $\mathcal{L}{\text{token}} = \mathcal{L}{\text{BCE}}(\hat{y}^{\text{token}}, y)$ 加入总损失，确保码本按预测相关性组织，而非单纯重建误差。重要类别特征（如 item ID）保留独立字段组，防止高基数标识符被混入低判别力特征里稀释

Sample Splicing and Serialization

标准行为日志仅记录 item ID 序列，而 SIF 把每条记录升级为一次特征快照，并压缩为 Token Sample

\ $\\{i_1, \\dots, i_L\\} \\xrightarrow{\\mathcal{T}} \\{Q_1, \\dots, Q_L\\} \\tag{8} \\$

每个 $Q_l \in \{1, \dots, V\}^{T \times M}$ 仅 $T \times M \times 8$ bits（默认 648 bits），远比 float32 raw 快照紧凑。Token Sample 离线预计算后以 KV 存储。按时间排好序的 Token Sample 序列就是 SIF-Mixer 的离线输入

SIF-Mixer

SIF-Mixer 受到 MLP-Mixer 风格分解设计启发，它堆叠 $N$ 个相同结构的 SIF Block，每个 Block 把交互分解成三段：Token-level Mixer、Sample-level Mixer、Token-level FFN 。这种分解设计让 intra-sample 特征交互与 inter-sample 时序交互解耦，把注意力复杂度从 $O((LT)^2)$ 降到 $O(L^2T + LT^2)$，同时保留两个维度的信息流

（1）Input Layout

SIF-Mixer 的输入 $H^0 \in \mathbb{R}^{(L+1) \times T \times d_0}$，输入由两部分组成：

Seq Token Samples ($l = 1, \ldots, L$，矩阵中的第 1~L 行)：离线样本序列 $\{Q_1, \ldots, Q_L\}$ 通过码本查表获得（via codebook lookup with recency encoding）
Target Token Sample ($l = 0$，矩阵中的第 0 行)：由于当前请求特征 $\mathbf{f}\tau^{(g)}$ 仅在服务时间可用，无法离线预量化。所以这里直接通过学到的线性投影映射到与码本同空间。对齐损失 $\mathcal{L}{\text{align}}$ 确保每个 target-subtoken 投影矩阵 $W_{\text{res}}^{(g,k)}$ 映射到对应码本空间

（2）SIF Block

每个 Block $n \in \{1, \ldots, N\}$ 的输入就是 $H^{n-1}$（行是样本，列是 sub-token 位置）：

\ $H\^n = \\begin{bmatrix} H_{0,1}\^n \& \\cdots \& H_{0,T}\^n \\\\ H_{1,1}\^n \& \\cdots \& H_{1,T}\^n \\\\ \\vdots \& \\ddots \& \\vdots \\\\ H_{L,1}\^n \& \\cdots \& H_{L,T}\^n \\end{bmatrix} \\tag{11} \\$

具体而言，每个 Block 会做三个操作，分别是：

Token-level Mixer 沿每一行做 self-attention，建模同一样本内 $T$ 个 sub-token 之间的交互。因为来自不同特征组、同组不同子概念的 sub-token 占据不同列，注意力能同时捕获跨组相关性（user-item-context）和组内子概念交互（商品价格信号与评论信号）
Sample-level Mixer 沿每一列做 self-attention，建模 $L+1$ 个样本在同一 sub-token 位置的跨时间交互，关键是 Target Token Sample ($l = 0$) 能通过 attention 所有 Seq Token Samples 获取历史上下文
Token-level FFN 对每个位置做 position-wise 非线性变换：$H_{l,p}^n = \bar{H}{l,p}^n + \text{FFN}(\text{LN}(\bar{H}{l,p}^n)) \tag{14}$

（3）Prediction Head

$N$ 个 SIF Block 后，对 target sample 的 $T$ 个 sub-token 输出做 mean pooling，然后经过两层 MLP + sigmoid 输出排序分

Training Objective

训练目标函数为 $\mathcal{L} = \mathcal{L}{\text{BCE}} + \beta \mathcal{L}{\text{VQ}} + \gamma \mathcal{L}_{\text{align}}$，其中 $\beta = 1.0, \gamma = 0.25$

$\mathcal{L}_{\text{BCE}}$: 主排序 BCE 损失
$\mathcal{L}_{\text{VQ}}$: 标准 VQ commitment loss ($\lambda = 0.25$)，拉近组编码器输出与 RVQ 重建
$\mathcal{L}{\text{align}}$: 对齐损失，使 target 投影 $W{\text{res}}^{(g,k)}$ 映射到和码本一致的空间，从而 target 与历史 token 表征在推理时可跨时间交互

\ $\\mathcal{L}_{\\text{align}} = \\sum_{g=1}\^{G} \\sum_{k=1}\^{K_g} \\left\\\| W_{\\text{res}}\^{(g,k)} \\mathbf{f}\^{(g,k)} - \\text{sg}(\\mathbf{e}_{g,k}) \\right\\\|\^2 \\tag{18} \\$

其中 $\text{sg}(\cdot)$ 是 stop-gradient，$\mathbf{e}{g,k} = \sum_m \mathbf{c}{q^{(g,k,m)}}^{(g,k,m)}$ 是 Tokenizer 对 sub-token $(g,k)$ 的码本重建。训练阶段 $\mathbf{e}{g,k}$ 通过当前请求 Raw Sample $S_r$ 经 Sample Tokenizer 得到 RVQ 重建 $\mathbf{e}{g,k} = \sum_m \mathbf{c}{q^{(g,k,m)}}^{(g,k,m)}$，作为对齐 target。线上服务阶段就直接使用学习好的 $W{\text{res}}^{(g,k)}$ 来近似 RVQ 重建了

关键点 ：因为每个 Raw Sample $S$ 承载了原始交互的行为结果（label），排序监督信号 $\mathcal{L}_{\text{BCE}}$ 会通过 VQ 反传到码本学习，使码本按预测相关性 而非重建误差组织样本。这是 SIF 区别于 item-VQ 的关键：Sample-level VQ 必须用 label-aware 监督 + 对异质多字段特征的组合分解

Complexity

每个 SIF Block 都会产生 $O(T^2 \cdot (L + 1) \cdot d_0 + (L + 1)^2 \cdot T \cdot d_0)$ 次注意力操作，因为 $T \ll L + 1$（$T \approx 27 \, \text{vs} \, L = 1000$），Sample-level Mixer 主导开销 $O(L^2 \cdot T \cdot d_0)$，与同序列长度下的标准注意力相当。自适应 sub-tokenization 相对于直接固定特征组 $G$ 的设计增加了 $T$，但 $T$ 仍保持较小（$B = 8$ 时也不超 20），因此 Token-level Mixer 的开销可忽略

实验

可以看到 SIF 在与 OneTrans、HyFormer 效率基本一致的情况下取得了 CTR 和 CVR 的大幅改进

从消融实验可以看出 item ID 和 item ID + key features 都比较差，而 Raw Sample 恢复了大量性能，但是 SIF 的压缩 token 方式（HGAQ ）却是最好的，作者解释这与更好优化、离散码本的隐式聚类约束、语义对齐有关。此外 SIF 在序列 Scaling 相较于 OneTrans、HyFormer 体现出了越 Scaling 差距越大的优越性，这更能强调 Sample-Level Tokens 所带来的效益

SIF 在模型深度和序列长度上的 Scaling，可以看出效果很惊人，并且 Sequence Length 会更晚遇到表征天花板

总结

SIF 将视角重点从模型架构转移到了输入表征上，将历史序列 token 从 item-level 升级到 sample-level，很有直觉和 insight，结果也证明十分有效，很 Solid 的工作，值得好好学习与思考