"HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction" 论文笔记

字节跳动在推荐精排领域的工作 HyFormer ,发表于 SIGIR 2026,设计全新的针对性优化架构同时完成序列建模和特征交叉,而不是直接将 Transformer 拿来用,实现了更好的优化和 Scaling

背景

传统推荐精排模型有两个非常重要的子模块,序列建模和特征交叉,这两个子模块一般先做序列建模学习用户兴趣表示, 再与非序列特征 concat 起来做特征交叉。OneTrans 试图用一个统一的 Transformer 来将这两个子模块统一起来,本文提出的 HyFormer 也是类似的思路, 都是希望实现精排序列建模与特征交叉的统一,但 HyFormer 在架构上进行了更深入的改进(下文的多序列建模部分有提到 MTGROneTrans 采用简单的序列合并会导致性能显著下降)

方法

Query Generation

输入特征的 Tokenization 沿用 RankMixer/OneTrans 策略,对于非序列特征有 Group-wiseAuto-split 两种 Token 化方式,这里选择的是前者

与现有工作不同的是,Hyformer 提出了 Global Tokens 用来当前序列特征和非序列特征中提取出全局信息,在后续链路中起到 Query 的作用。具体做法是先将所有非序列特征向量 \(F_1, F_2, \ldots, F_M\) 与序列的 Mean Pooling 结果拼接,得到 Global Info,再通过 \(N\) 个并行的轻量 FFN 将其投影为 \(N\) 个 Global Tokens:

\[Q = \left[\mathrm{FFN}_1(\mathrm{Global~Info}),\ \ldots,\ \mathrm{FFN}_N(\mathrm{Global~Info})\right] \in \mathbb{R}^{N \times D} \]

这里的 \(N\) 是超参,在 HyFormer 中 N 通常很小(实验中与其他非序列 Token 凑成总共 16 个),远小于 OneTrans 将所有 NS-tokens 都作为 Query 的做法,大量减小了 KV Cache 的计算开销

KV Encoding

在 Query Decoding 执行之前,长行为序列需要先被编码为逐层的 K/V 表示。HyFormer 在这里提供了三种灵活的策略,以适应不同场景的算力约束(所有策略最终都会产出同一套接口:\((K_l, V_l)\),用来给 Query Decoding 进行消费):

  • Full Transformer Encoding:最重但是最强的方式,直接在长序列上做完整的 Self-Attention,捕捉序列内部的细粒度交互。适合离线场景或对效果极度敏感的头部流量。

  • LONGER-style Efficient Encoding :为适配在线推理,用一条极短的压缩序列(记为 \(S_{\text{short}}\))作为 Query,对完整长序列做 Cross-Attention。复杂度从 \(O(L_S^2)\) 降至 \(O(L_H L_S)\)(\(L_H \ll L_S\)),在保持大部分建模能力的同时大幅压缩计算量

  • Decoder-style Lightweight Encoding:最轻量的版本,直接用 SwiGLU 等无 Attention 的前馈操作对序列做逐位变换,完全舍弃 Token 间交互,适合对延迟要求极端的场景

Query Decoding

有了 Query 和序列的 K/V 表示,Query Decoding 就是对长序列做一次标准的 Multi-Head Cross-Attention:

\[\tilde{Q}{(l)} = \mathrm{CrossAttn}(Q{(l-1)}, K_{(l)}, V_{(l)}) \]

这一层的输出 \(\tilde{Q}_{(l)}\) 是被长序列更新过的 Global Tokens,携带了从用户行为历史中提取的与当前全局上下文相关的兴趣信号,从而让 HyFormer 实现上下文信息在每一层都能直接干预序列的理解

Query Boosting

如果说前面 Query Decoding 的作用是序列建模,那这里 Query Boosting 的作用就是特征交叉。前面 Query Decoding 通过将 Global Token 与用户行为序列的多层解码,让 Query 一定程度上实现 sequence-aware,但与非序列特征之间的特征交叉能力不足,所以这里先将两者拼接为一个统一的 Token 集合

\[Q = [\tilde{Q}_{(l)}, F_1, \ldots, F_M] \in \mathbb{R}^{T \times D} \]

然后使用 RankMixer 的 Token Mixing 操作,让这些 Token 两两之间充分交换信息。具体而言,每个 Token 沿通道维度被切分成 \(T\) 个子空间(这里子空间数与 Token 数量必须一致),同一子空间内的所有 Token 拼接后送入一个跨 token 的 MLP,实现类似"所有 Token 在某个子空间内互相看一眼"的效果,最后再过一个 Per-Token FFN 做逐 Token 的语义精炼,并通过残差连接与输入相加,作为当前HyFormer Layer的输出

\[\tilde{Q}_{\text{boost}} = Q + \mathrm{PerToken\text{-}FFN}(\mathrm{TokenMixer}(Q)) \]

Query Boosting 的输出一方面作为本层最终产物向上层传递,另一方面也成为下一层 Query Decoding 的新 query,形成一个交替递进的闭环

Multi Sequence Modeling

工业场景下用户通常有多条异质行为序列(如搜索序列、短视频序列、商品序列),不同序列的特征空间和语义差异巨大。OneTransMTGR 的做法是将它们按时间戳或意图排序后拼接成一条长序列统一处理,但 HyFormer 的实验发现这种简单合并在实际业务中会导致约 1.2% GMV 的显著下降。

HyFormer 的解法延续了其用少量 Global Tokens 做信息路由的思路:每条序列分配至少一个专属的 Global Token,各自独立地对该序列做 Query Decoding。由于 Global Tokens 不要求序列间的特征维度对齐,每条序列可以用完全独立的稀疏特征空间(不同的 side information)进行编码,从根本上避免了合并序列时被迫对齐的语义折损。进入 Query Boosting 阶段后,不同序列的 Global Tokens 在同一个 Token Mixing 池子里互相交互,间接完成跨序列的信息融合。这种"各序列独立解码 + 统一混合池交互"的设计,让模型既能保留各序列的建模独立性,又能实现隐式的跨序列知识迁移

实验

可以看到 HyFormer 在同等程度的参数量下大大减小了 FLOPS,同时取得了最高的 AUC

与最佳基线 LONGER + RankMixer 相比,Scaling 表现领先很多,线上也取得了很明显的收益

总结

HyFormer 用 一个交替结构、三个组件(Query Generation / Query Decoding / Query Boosting)重新定义了精排模型中序列建模与特征交互的分工:不再是两个模块串行拼接,而是让它们在同一 Backbone 内交替迭代、互相增强。实验证明 HyFormer 在效果上实现了更优的 Scaling 斜率,在效率上避开了超大候选集下的 KV Cache 膨胀问题(但是论文中没有跟 OneTrans 进行 Scaling 上的直接对比)

相关推荐
DogDaoDao5 小时前
【GitHub】Ruflo:面向 Claude Code 的企业级多智能体编排平台深度解析
人工智能·深度学习·大模型·github·ai编程·claude·ruflo
xixixi777779 小时前
《从心理诱导突破Claude到AI仿冒直播首张拘留单:AI安全、监管与商用的三重转折点》
大数据·网络·人工智能·安全·ai·大模型·风险
程序员三明治10 小时前
【AI】一文讲清 RAG:从大模型局限到企业级知识库落地流程
java·人工智能·后端·ai·大模型·llm·rag
AI机器学习算法10 小时前
说走就走的AI之旅第01课:浅谈机器学习
数据结构·人工智能·python·深度学习·机器学习·大模型·线性回归
nvd111 天前
OpenClaw 避坑指南:如何彻底从本地/Hunyuan 切换到第三方大模型
大模型
前端摸鱼匠1 天前
【AI大模型春招面试题31】什么是“零样本学习(Zero-Shot)”“少样本学习(Few-Shot)”?大模型实现这类能力的核心原因?
人工智能·学习·面试·大模型·求职招聘
一切皆是因缘际会1 天前
可自我迭代升级数字生命工程:从记忆厮杀到自我意识觉醒全链路——AGI内生智能硅基生命心智建模(下)
系统架构·大模型·agi·具身智能·通用人工智能·数字生命·自主智能体
Resistance丶未来1 天前
Sub2API:订阅转API网关平台,魔芋AI接入指南
人工智能·gpt·大模型·claude·gemini·skill·sub2api
CoderJia程序员甲1 天前
GitHub 热榜项目 - 周榜(2026-05-10)
人工智能·ai·大模型·llm·github