"Sample Is Feature: Beyond Item-Level, Toward Sample-Level Tokens for Unified Large Recommender Models" 论文笔记

美团精排 Scaling 的工作 SIF ,目前挂在 Arxiv 26.04 上,提出了将历史序列 token 从 item-level 升级到 sample-level 的新思路,实现了更强的信息利用和模型效果

背景

推荐系统精排模型的 Scaling 主要分为两种(这两种不是分开独立的,后者是前者的进展):

  • 样本信息 Scaling :通过加深行为序列来丰富样本信息,具体有两条子路线:序列变长(从几十到几千的交互行为,如 SIM、ETA、LONGER )和序列变宽(每个历史 token 引入额外上下文,如 DSAN、CAIN、HSTU

  • 模型容量 Scaling :通过统一的类 Transformer 架构来增强模型表达能力,现在的方法(如 HyFormer、OneTrans、MixFormer)把所有特征字段都喂进一个统一的架构里,一次前向传播就能实现更丰富的跨域交互

但是样本信息 Scaling 只把每个历史交互的一部分信息编码进序列 token,难免会造成上下文信息的损失;模型容量 Scaling 存的依旧是 item ID + 少量 side info,它们和包含丰富多字段的当前请求 token 放在同一个注意力空间里,信息密度天差地别,会造成表示上的不对称,模型没法充分发挥表达能力。最关键的是它们没法建模样本级的时变特征,作者以两个刚好点击同一家餐厅的用户举例:一个是深夜优惠活跃时段,另一个是午间通勤高峰。仅凭 item embedding 这两条行为完全等价,但其真实样本上下文传递着截然不同的用户意图信号

  • **静态特征:**附着在物品本身上的,比如餐厅的菜品口味、价格区间、人均消费、商区位置,这些信息相对稳定不变

  • **样本级的时变特征:**附着在这一次具体的交互上的,它是瞬时、一次性、且只对这一次交互有意义的

如果能保留每次交互的完整 Raw Sample 而不仅仅是 item embedding,不仅能避免上下文信息的损失,还能消除历史 token 与当前请求 token 之间的信息密度的不对等问题。因此本文提出了 SIF ,把每个历史 Raw Sample 直接编码进序列 token,这样既能最大程度保留样本信息,又能同时解决序列特征和非序列特征之间的异构性问题

方法

Sample-Level Token

在交互时刻 \(t\),Raw Sample 被定义为完整的特征元组:

\[S = [\mathbf{f}^{\mathrm{user}} \mid \mathbf{f}^{\mathrm{item}} \mid \mathbf{f}^{\mathrm{ctx}} \mid \mathbf{f}^{\mathrm{cross}}] \]

其中 \(\mathbf{f}^{\mathrm{user}}\) 是用户画像特征,\(\mathbf{f}^{\mathrm{item}}\) 是商品属性,\(\mathbf{f}^{\mathrm{ctx}}\) 是上下文信号,\(\mathbf{f}^{\mathrm{cross}}\) 是预计算好的交叉特征(如 user-category 亲和度、item-context 共现统计)。Raw Sample \(\mathcal{S} \in \mathbb{R}^{d_s}\) 维度很高(数千字段),Sample Tokenizer 的任务就是把它压缩成 Token Sample

这里区分两类特征:非序列特征 (用户属性、商品属性、上下文信号等)和序列特征 (用户历史交互序列 \(\mathcal{B}\) 带有时间序信息)。这里的 Raw Sample 包含的是非序列特征,序列特征是由后面的 SIF-Mixer 通过跨样本注意力直接建模 inter-sample 动态。注意,非序列特征序列特征不是分开的,序列特征本身就是由连续时间点的非序列特征组成

Sample Tokenizer

Sample Tokenizer \(\mathcal{T}: \mathcal{S} \mapsto \mathcal{Q}\) 把每条 Raw Sample 映射成 Token Sample \(Q = (q^{(g,k,m)})\)。一组共 \(T \times M\) 个离散码本索,在线服务时仅需存储这些索引,embedding 通过 Mixer 内部维护的码本实时查表

(1)Group-Wise Decomposition

SIF 并不用一个大码本统一覆盖所有特征字段,而是先把 \(\mathcal{S}\) 切成 \(G = 4\) 个语义组,划分方式见上面的公式。这种分组设计可以让人工划分的强语义特征(如 item_id)可以独占一个组,以确保其判别信号不会被共享码本里的低基数特征稀释

然后每个语义组内部进一步按 sub-token granularity \(B\) 均分为 \(K_g\) 个 sub-token,数量自适应于该组的特征数

\[K_g = \left\lfloor \frac{|\mathcal{F}_g|}{B} \right\rfloor \tag{3} \]

\(B\) 默认为 32(即每 32 个特征字段映射为一个 sub-token),特征多的组自然会获得更多 sub-token,在 Token-level Mixer 里也就拿到更多位置。组 \(g\) 内 \(|\mathcal{F}_g|\) 个特征被均分为 \(K_g\) 个不重叠子集 \(\bigl\{\mathcal{F}g^{(k)}\bigr\}{k=1}^{K_g}\),每个子集通过组---槽位特定的线性投影压成 \(d_0\) 维的 sub-token 向量

\[\tilde{\mathbf{f}}^{(g,k)} = W_{\text{proj}}^{(g,k)} \mathbf{f}^{(g,k)} \in \mathbb{R}^{d_0} \tag{4} \]

所有 sub-token 共享相同维度 \(d_0 = 16\),每个样本的总 sub-token 数 \(T = \sum_{g=1}^G K_g\),总 token embedding 维度 \(d = T \cdot d_0\)。每个 sub-token \((g,k)\) 拥有独立的 codebook \(C_{g,k} = \bigl\{\mathbf{c}v^{(g,k,m)}\bigr\}{m,v}\),码本大小 \(V = 256\)

(2)Residual Vector Quantization(RVQ)

在每个 sub-token \((g,k)\) 上应用 \(M\) 层残差向量量化(可以详见 Vector Quantization for Recommendation 笔记的讲解)

\[q^{(g,k,m)} = \arg\min_v \left\| \mathbf{r}^{(g,k,m-1)} - \mathbf{c}_v^{(g,k,m)} \right\|2, \quad \mathbf{r}^{(g,k,m)} = \mathbf{r}^{(g,k,m-1)} - \mathbf{c}{q^{(g,k,m)}}^{(g,k,m)} \tag{5} \]

初始残差 \(\mathbf{r}^{(g,k,1)} = \tilde{\mathbf{f}}^{(g,k)}\),Token Sample \(\mathcal{Q}\) 会把所有 sub-token 索引序列拼接。在 \(G = 4, B = 32, M = 3, V = 256\) 的默认配置下,按美团的特征 schema 总 sub-token 数 \(T = 27\),每个样本被压缩为 \(T \times M \times \log_2 V = 27 \times 3 \times 8 = 648\) bits(这里是存储成本,\(\log_2 V\) 是因为 8 bit 就能表示 256 种状态)

(3)Label-Supervised Codebook Training

Sample Tokenizer 和排序目标联合训练(这与 VQ-Rec/TIGER 等纯无监督量化不同),在训练期间 RVQ 重建 \(\hat{s}\) 会被送入一个轻量 MLP 预测 pCTR。附加的 pCTR loss \(\mathcal{L}{\text{token}} = \mathcal{L}{\text{BCE}}(\hat{y}^{\text{token}}, y)\) 加入总损失,确保码本按预测相关性组织,而非单纯重建误差。重要类别特征(如 item ID)保留独立字段组,防止高基数标识符被混入低判别力特征里稀释

Sample Splicing and Serialization

标准行为日志仅记录 item ID 序列,而 SIF 把每条记录升级为一次特征快照,并压缩为 Token Sample

\[\{i_1, \dots, i_L\} \xrightarrow{\mathcal{T}} \{Q_1, \dots, Q_L\} \tag{8} \]

每个 \(Q_l \in \{1, \dots, V\}^{T \times M}\) 仅 \(T \times M \times 8\) bits(默认 648 bits),远比 float32 raw 快照紧凑。Token Sample 离线预计算后以 KV 存储。按时间排好序的 Token Sample 序列就是 SIF-Mixer 的离线输入

SIF-Mixer

SIF-Mixer 受到 MLP-Mixer 风格分解设计启发,它堆叠 \(N\) 个相同结构的 SIF Block,每个 Block 把交互分解成三段:Token-level Mixer、Sample-level Mixer、Token-level FFN 。这种分解设计让 intra-sample 特征交互与 inter-sample 时序交互解耦,把注意力复杂度从 \(O((LT)^2)\) 降到 \(O(L^2T + LT^2)\),同时保留两个维度的信息流

(1)Input Layout

SIF-Mixer 的输入 \(H^0 \in \mathbb{R}^{(L+1) \times T \times d_0}\),输入由两部分组成:

  • Seq Token Samples (\(l = 1, \ldots, L\),矩阵中的第 1~L 行):离线样本序列 \(\{Q_1, \ldots, Q_L\}\) 通过码本查表获得(via codebook lookup with recency encoding)

  • Target Token Sample (\(l = 0\),矩阵中的第 0 行):由于当前请求特征 \(\mathbf{f}\tau^{(g)}\) 仅在服务时间可用,无法离线预量化。所以这里直接通过学到的线性投影映射到与码本同空间。对齐损失 \(\mathcal{L}{\text{align}}\) 确保每个 target-subtoken 投影矩阵 \(W_{\text{res}}^{(g,k)}\) 映射到对应码本空间

(2)SIF Block

每个 Block \(n \in \{1, \ldots, N\}\) 的输入就是 \(H^{n-1}\)(行是样本,列是 sub-token 位置):

\[H^n = \begin{bmatrix} H_{0,1}^n & \cdots & H_{0,T}^n \\ H_{1,1}^n & \cdots & H_{1,T}^n \\ \vdots & \ddots & \vdots \\ H_{L,1}^n & \cdots & H_{L,T}^n \end{bmatrix} \tag{11} \]

具体而言,每个 Block 会做三个操作,分别是:

  • Token-level Mixer 沿每一行做 self-attention,建模同一样本内 \(T\) 个 sub-token 之间的交互。因为来自不同特征组、同组不同子概念的 sub-token 占据不同列,注意力能同时捕获跨组相关性(user-item-context)和组内子概念交互(商品价格信号与评论信号)

  • Sample-level Mixer 沿每一列做 self-attention,建模 \(L+1\) 个样本在同一 sub-token 位置的跨时间交互,关键是 Target Token Sample (\(l = 0\)) 能通过 attention 所有 Seq Token Samples 获取历史上下文

  • Token-level FFN 对每个位置做 position-wise 非线性变换:\(H_{l,p}^n = \bar{H}{l,p}^n + \text{FFN}(\text{LN}(\bar{H}{l,p}^n)) \tag{14}\)

(3)Prediction Head

\(N\) 个 SIF Block 后,对 target sample 的 \(T\) 个 sub-token 输出做 mean pooling,然后经过两层 MLP + sigmoid 输出排序分

Training Objective

训练目标函数为 \(\mathcal{L} = \mathcal{L}{\text{BCE}} + \beta \mathcal{L}{\text{VQ}} + \gamma \mathcal{L}_{\text{align}}\),其中 \(\beta = 1.0, \gamma = 0.25\)

  • \(\mathcal{L}_{\text{BCE}}\): 主排序 BCE 损失

  • \(\mathcal{L}_{\text{VQ}}\): 标准 VQ commitment loss (\(\lambda = 0.25\)),拉近组编码器输出与 RVQ 重建

  • \(\mathcal{L}{\text{align}}\): 对齐损失,使 target 投影 \(W{\text{res}}^{(g,k)}\) 映射到和码本一致的空间,从而 target 与历史 token 表征在推理时可跨时间交互

\[\mathcal{L}{\text{align}} = \sum{g=1}^{G} \sum_{k=1}^{K_g} \left\| W_{\text{res}}^{(g,k)} \mathbf{f}^{(g,k)} - \text{sg}(\mathbf{e}_{g,k}) \right\|^2 \tag{18} \]

其中 \(\text{sg}(\cdot)\) 是 stop-gradient,\(\mathbf{e}{g,k} = \sum_m \mathbf{c}{q^{(g,k,m)}}^{(g,k,m)}\) 是 Tokenizer 对 sub-token \((g,k)\) 的码本重建。训练阶段 \(\mathbf{e}{g,k}\) 通过当前请求 Raw Sample \(S_r\) 经 Sample Tokenizer 得到 RVQ 重建 \(\mathbf{e}{g,k} = \sum_m \mathbf{c}{q^{(g,k,m)}}^{(g,k,m)}\),作为对齐 target。线上服务阶段就直接使用学习好的 \(W{\text{res}}^{(g,k)}\) 来近似 RVQ 重建了

关键点 :因为每个 Raw Sample \(S\) 承载了原始交互的行为结果(label),排序监督信号 \(\mathcal{L}_{\text{BCE}}\) 会通过 VQ 反传到码本学习,使码本按预测相关性 而非重建误差组织样本。这是 SIF 区别于 item-VQ 的关键:Sample-level VQ 必须用 label-aware 监督 + 对异质多字段特征的组合分解

Complexity

每个 SIF Block 都会产生 \(O(T^2 \cdot (L + 1) \cdot d_0 + (L + 1)^2 \cdot T \cdot d_0)\) 次注意力操作,因为 \(T \ll L + 1\)(\(T \approx 27 \, \text{vs} \, L = 1000\)),Sample-level Mixer 主导开销 \(O(L^2 \cdot T \cdot d_0)\),与同序列长度下的标准注意力相当。自适应 sub-tokenization 相对于直接固定特征组 \(G\) 的设计增加了 \(T\),但 \(T\) 仍保持较小(\(B = 8\) 时也不超 20),因此 Token-level Mixer 的开销可忽略

实验

可以看到 SIF 在与 OneTrans、HyFormer 效率基本一致的情况下取得了 CTR 和 CVR 的大幅改进

从消融实验可以看出 item ID 和 item ID + key features 都比较差,而 Raw Sample 恢复了大量性能,但是 SIF 的压缩 token 方式(HGAQ )却是最好的,作者解释这与更好优化、离散码本的隐式聚类约束、语义对齐有关。此外 SIF 在序列 Scaling 相较于 OneTrans、HyFormer 体现出了越 Scaling 差距越大的优越性,这更能强调 Sample-Level Tokens 所带来的效益

SIF 在模型深度和序列长度上的 Scaling,可以看出效果很惊人,并且 Sequence Length 会更晚遇到表征天花板

总结

SIF 将视角重点从模型架构转移到了输入表征上,将历史序列 token 从 item-level 升级到 sample-level,很有直觉和 insight,结果也证明十分有效,很 Solid 的工作,值得好好学习与思考

相关推荐
山屿落星辰4 小时前
昇腾NPU上的FlashAttention:让大模型“算得快“又“记得准“
大模型
AI绘画哇哒哒6 小时前
Agent三种思考模式深度解析:CoT/ReAct/Plan-and-Execute,小白程序员必看,助你轻松掌握大模型精髓(收藏版)
人工智能·学习·ai·程序员·大模型·产品经理·转行
海的辽阔9 小时前
如何在MAC下安装EcomGpt模型
macos·大模型·ecomgpt
赢乐12 小时前
AI大模型学习笔记:LangChain核心组件-工具(Tools)
langchain·大模型·agent·function_call·工具(tools)·tool装饰器·定义工具
前端小超人rui1 天前
Prompt 提示词原理/组成/编写原则/编写技巧
人工智能·大模型·prompt
哥本哈士奇(aspnetx)1 天前
LangChain DeepAgents 学习笔记
大模型
Mr.朱鹏1 天前
9-检索增强生成RAG详解
python·gpt·langchain·大模型·llm·rag
Soari1 天前
挑战 100ms 延迟极限:深度拆解 dograh,构建企业级开源 WebRTC 实时语音智能体平台
开源·大模型·webrtc·实时音视频·voiceagent·语音智能体·dograh
AI玫瑰助手1 天前
PDF 转 Markdown 主力方案怎么选:PaddleOCR-VL-1.5、MinerU、HunyuanOCR 与 MonkeyOCR 实测对比
pdf·大模型·知识库·表格·md·文字识别·paddleocr