论文阅读:Meta | HSTU

Generative Recommenders, GRs 生成式推荐系统:生成建模框架中的顺序转换任务 sequential transduction tasks

within a generative modeling framework

scaling law扩展法则:生成推荐系统的模型质量随着训练计算的增长而呈幂律扩展

1 引言

DLRM不足

1.扩展性差

2.大规模词汇持续变化

3.计算成本高

核心排序和检索任务可以通过适当的新特征空间重新表述为生成建模问题

贡献

  • 生成推荐系统(GRs):排序和检索,重新表述为GR中的纯顺序转换任务,使得模型训练可以以顺序生成的方式进行
  • 顺序转换架构------层次化顺序转换单元(HSTU):修改了大规模非静态词汇的注意力机制
  • 新的算法M-FALCON:通过微批处理和缓存优化摊销计算成本

2 推荐作为顺序转换任务GR

2.1 统一DLRM中的异质特征空间

将DLRM中大量的分类和连续特征统一编码为时间序列

  • 分类("稀疏")特征 :将这些特征顺序化为时间序列,选择最长的时间序列(通常是用户交互物品),然后将其余的慢变特征压缩并合并到主时间序列中。
    e.g. 用户行为(如喜欢的物品、关注的创作者等)和静态信息(如语言、城市等)
  • 数值("密集")特征 :由于这些特征变化频繁,无法完全顺序化。通过将分类特征的顺序化处理与目标感知公式结合,GR能够捕捉 这些数值特征,并且可以省略直接处理这些数值特征的需要
  • e.g. 计数器、比率、点击率

2.2. 将排序和检索问题重新表述为顺序转换任务

集合X包括所有属性,是个大混杂集合

  • 按时间顺序排列的n个token列表x0,x1,...,xn−1,(xi∈X)x_0,x_1,...,x_{n-1} , (x_i \in X)x0,x1,...,xn−1,(xi∈X)
  • 对应token观察时间t0,t1,...,tn−1t_0,t_1,...,t_{n-1}t0,t1,...,tn−1
  • 输出yi∈X∪∅,y=∅y_i \in X ∪{\emptyset},y={\emptyset}yi∈X∪∅,y=∅表示未定义
  • 系统向用户提供的内容ϕi∈Xc(Xc∈X)\phi_i \in X_c (X_c \in X)ϕi∈Xc(Xc∈X)
  • 操作ai∈Xa_i \in Xai∈X
  • 用户交互的内容总数ncn_cnc

XcX_cXc和XXX是非静态的。用户可以对ϕi\phi_iϕi(图片或视频)执行某些操作aia_iai(点赞、跳过、视频完成+分享等)

  • 排序任务

    输入序列为 xi=Φ0,a0,Φ1,a1,...,Φnc−1,anc−1x_i = \Phi_0, a_0, \Phi_1, a_1, \dots, \Phi_{n_c-1}, a_{n_c-1}xi=Φ0,a0,Φ1,a1,...,Φnc−1,anc−1,

    输出序列为 yi=a0,∅,a1,∅,...,anc−1,∅y_i = a_0, \emptyset, a_1, \emptyset, \dots, a_{n_c-1}, \emptysetyi=a0,∅,a1,∅,...,anc−1,∅。

    • 通过交替排列物品和操作来解决"目标感知"中交互需要早发生的问题
    • 公式化为p(ai+1∣Φ0,a0,Φ1,a1,...,Φi+1)p(a_i+1|\Phi_0,a_0,\Phi_1,a_1,\ldots,\Phi_{i+1})p(ai+1∣Φ0,a0,Φ1,a1,...,Φi+1) (在分类特征之前)。
    • 应用一个小型神经网络来将Φi+1\Phi_i+1Φi+1的输出转换为多任务预测。
    • 能够在一次处理过程中对所有ncn_cnc次交互应用目标感知的交叉注意力。
  • 检索任务

    输入序列为 xi=(Φ0,a0),(Φ1,a1),...,(Φnc−1,anc−1)x_i = (\Phi_0, a_0), (\Phi_1, a_1), \dots, (\Phi_{n_c-1}, a_{n_c-1})xi=(Φ0,a0),(Φ1,a1),...,(Φnc−1,anc−1),

    输出序列为 yi=Φ1′,Φ2′,...,Φnc−1′,∅y_i = \Phi'_1, \Phi'2, \dots, \Phi'{n_c-1}, \emptysetyi=Φ1′,Φ2′,...,Φnc−1′,∅,

    其中 Φi′=Φi\Phi'_i = \Phi_iΦi′=Φi 如果 aia_iai 是正向操作,否则 Φi′=∅\Phi'_i = \emptysetΦi′=∅。

    • 学习一个分布p(Φi+1∣ui)p(\Phi_{i+1}|u_i)p(Φi+1∣ui),其中Φi+1∈Xc\Phi_{i+1}\in X_cΦi+1∈Xc ,uiu_iui是用户在时刻iii的表示。典型目标是选择arg⁡max⁡Φ∈Xcp(Φ∣ui)\arg\max_{\Phi\in X_c}p(\Phi|u_i)argmaxΦ∈Xcp(Φ∣ui)来最大化某个奖励。
    • 这与标准的自回归设置有两点不同。
      • xi,yix_i,y_ixi,yi的监督不一定是Φi+1\Phi_i+1Φi+1,因为用户可能对Φi+1\Phi_{i+1}Φi+1做出负面反应。
      • 当xi+1x_{i+1}xi+1代表一个与交互无关的分类特征(如人口统计信息),yiy_iyi是未定义的。
相关推荐
做cv的小昊8 小时前
结合代码读3DGS论文(12)——NeurIPS 2024 Spotlight 3DGS经典Backbone工作3DGS-MCMC论文及代码解读
论文阅读·计算机视觉·3d·图形渲染·游戏开发·计算机图形学·3dgs
min1811234561 天前
小型网站开发简易流程步骤 在线画图工具快速生成开发流程图方法
论文阅读·信息可视化·毕业设计·流程图·论文笔记
0x2112 天前
[论文阅读]DeepSeek-V3 Technical Report
论文阅读
SUNNY_SHUN2 天前
VLM走进农田:AgriChat覆盖3000+作物品类,607K农业视觉问答基准开源
论文阅读·人工智能·算法·开源
七元权2 天前
论文阅读-Fast-FoundationStereo
论文阅读
feasibility.3 天前
DreamZero技术解析:当世界模型成为机器人“物理大脑”
论文阅读·人工智能·机器人·零样本·具身智能·vla·世界模型
STLearner3 天前
WWW 2026 | 时空数据(Spatial Temporal)论文总结(交通预测,人群移动,轨迹表示,信控等)
大数据·论文阅读·人工智能·深度学习·机器学习·数据挖掘·自动驾驶
STLearner3 天前
WWW 2026 | 时间序列(Time Series)论文总结(预测,生成,插补,分类,异常检测等)
论文阅读·人工智能·深度学习·神经网络·算法·机器学习·数据挖掘
Biomamba生信基地3 天前
视频回放:《PHYTOMEDICINE》一作专访
论文阅读·生物信息学·单细胞测序