KDD Cup 2026 的推荐系统赛道瞄准了一个长期被忽视的结构性问题:特征交叉模型和序列模型各走各的,谁来把它们统一?

赛题背景
推荐系统在过去二十年沿着两条几乎平行的路线演进:
- 特征交叉路线:FM → DeepFM → DCN → xDeepFM,核心是对高维多域类别特征做显式/隐式交叉
- 序列建模路线:DIN → DIEN → SIM → HSTU,核心是通过用户行为序列捕捉时序动态
两条线各有所长,但在工业系统中一直分开部署、独立优化。这带来了四个结构性问题:
- 跨范式交互浅:特征交叉和序列建模之间只有简单的 embedding 拼接,没有深度联合建模
- 优化目标不一致:两边各自优化子任务,缺乏端到端的统一 loss
- 扩展性差:序列长度和模型规模增长时,碎片化架构越来越低效
- 工程复杂度高:两套模型意味着两套特征工程、两套在线推理链路
腾讯在 KDD Cup 2026 出的这道题,核心命题就是:能不能设计一个统一的 tokenization 方案和一个同质的、可堆叠的 backbone,在一个模型里同时搞定序列行为建模和非序列多域特征?
这个方向并非凭空而来。最近几年已有一些 pioneer work,如 InterFormer (CIKM 2025)、OneTrans (2025) 和 HyFormer (2026),都在尝试架桥。
数据集:120 列的真实广告日志
数据集来自腾讯广告平台的真实日志,已完全脱敏。特征统一用匿名化的整数 ID 表示,dense 特征用定长 float 向量。
整体概览
| 类别 | 列数 | 说明 |
|---|---|---|
| ID & Label | 5 | 核心标识、标签、时间戳 |
| User Int Features | 46 | 用户离散特征,含 35 个标量和 11 个数组 |
| User Dense Features | 10 | 用户连续特征,含 embedding 和对齐信号 |
| Item Int Features | 14 | 物品离散特征,含 13 个标量和 1 个数组 |
| Domain Sequence Features | 45 | 4 个行为域的序列特征 |
关键细节
ID & Label 列 (5 列,全部无缺失):user_id、item_id、label_type、label_time、timestamp。
User Dense 的巧妙设计 :10 列 dense 特征中,8 列(user_dense_feats_{62-66, 89-91})与对应的 int 特征逐元素对齐。例如:
user_int_feats_62: [1, 2, 3]user_dense_feats_62: [10.5, 20, 15.5]
这里 int 表示实体/类别,dense 表示该实体的统计量(停留时长、分数/概率等)。这种设计暗示了统一 tokenization 的一个天然方向:把 int 作为 ID token,dense 作为数值 token,二者对齐嵌入。
4 个行为域序列:domain_a(9 列)、domain_b(14 列)、domain_c(12 列)、domain_d(10 列),共计 45 列序列特征。这是序列建模的主要输入来源。
数据规模
- Academic Track 第一轮:100 万样本
- Industrial Track 第一轮:200 万样本
- 数据格式:flat column layout(非嵌套结构),所有特征是顶层列
评估方式:AUC + 延迟硬约束
排名指标
单指标排名:AUC of ROC(越高越好),只预测 CVR。
延迟约束(关键)
每个提交必须满足赛道和轮次对应的推理延迟上限。超时的提交直接标记为无效,不计 AUC。这意味着:
- 不能无脑上大模型
- 架构效率本身就是考察维度
- 需要在精度和延迟之间找平衡点
官方规定了统一的评估环境和协议,延迟测试在标准硬件上进行。
创新奖:不止拼 AUC
除了榜单排名,还有两个独立的创新奖,各 $45,000,不看 AUC 只看方法论:
Unified Block Innovation Award
奖励提出并验证了最具说服力的统一、可堆叠建模 block 的团队。
核心评判标准:block 是否真正有效地桥接序列特征和非序列多域特征。评审重点关注技术报告的 novelty 和 insight,而不是最终的 AUC 数字。
Scaling Law Innovation Award
奖励对推荐模型 scaling law 做了最严谨、最有洞察力探索的团队。
核心评判标准:如何系统性地研究模型性能随参数量、数据量和计算量变化的规律。这是推荐领域比较新的话题,参考 NLP 和 CV 的 scaling law 研究范式。
两个奖独立于榜单排名,意味着即使 AUC 不是最高,只要方法有创新性,照样能拿奖。这对学术团队尤其友好。
赛程与奖金
时间线
| 阶段 | 时间 | 事项 |
|---|---|---|
| Phase 1 | 3.19 -- 4.23 | 全球注册(已截止) |
| Phase 2 | 4.24 -- 5.23 | 第一轮比赛(进行中) |
| Phase 3 | 5.25 -- 6.24 | 第二轮比赛 |
| Phase 4 | 7.15 | 获奖通知 |
| Phase 5 | 8.9 | 公开宣布 |
奖金池
总奖金 $885,000,分两个赛道:
Academic Track(总 $540,000):
- 🏆 冠军 (1 队):$300,000
- 🥈 亚军 (1 队):$90,000
- 🥉 季军 (1 队):$45,000
- 荣誉提名 (4-10 名,7 队):每队 $15,000
Industrial Track(总 $255,000):
- 🏆 冠军 (1 队):$150,000
- 🥈 亚军 (1 队):$75,000
- 🥉 季军 (1 队):$30,000
另有 Unified Block Innovation Award (45,000) 和 **Scaling Law Innovation Award** (45,000) 各一个。
胜出者还有腾讯的独家工作机会(全职和实习)。
技术方向建议
基于赛题描述和引用文献,几个值得关注的方向:
1. 统一 Tokenization
把 user int/dense、item int、domain sequence 统一成一种 token 表示。关键挑战:
- 序列 token 有位置/时间信息,非序列 token 没有
- dense 和 int 的对齐关系如何编码进 token
- 不同域的 token 是否需要不同的 embedding 表
2. 可堆叠 Backbone
设计同质的 Transformer block,既能处理 feature interaction(类似 DCN 的 cross network),又能处理 sequence modeling(类似 HSTU 的时序注意力)。参考:
- InterFormer: 在 attention 中同时做 heterogeneous feature interaction
- OneTrans: 一个 Transformer 统一特征交互和序列建模
- HyFormer: 重新审视序列建模和特征交互在 CTR 预测中的角色
3. 延迟控制
推理延迟是硬约束,建议从一开始就考虑:
- 模型深度和宽度的 trade-off
- 序列长度截断策略
- KV cache 或类似的推理优化
4. Scaling Law 探索(创新奖方向)
如果追求 Scaling Law 奖,可以设计实验:
- 固定数据,变化模型参数量(不同层数/维度)
- 固定模型,变化训练数据量
- 绘制 compute-optimal 曲线