【人工智能】深度学习推荐系统(三十二):快手直播OneLive:面向直播推荐的动态统一生成式框架深度解析

OneLive:面向直播推荐的动态统一生成式框架深度解析

目录

  • OneLive:面向直播推荐的动态统一生成式框架深度解析
    • [一. 直播推荐的独特挑战:为何传统方法失效?](#一. 直播推荐的独特挑战:为何传统方法失效?)
    • [二. 传统架构瓶颈:为何需要生成式范式革命?](#二. 传统架构瓶颈:为何需要生成式范式革命?)
      • [2.1 级联架构的固有缺陷](#2.1 级联架构的固有缺陷)
      • [2.2 计算图碎片化](#2.2 计算图碎片化)
      • [2.3 生成式推荐的机遇](#2.3 生成式推荐的机遇)
    • [三. OneLive核心技术创新](#三. OneLive核心技术创新)
      • [3.1 动态Tokenizer:实时内容-行为联合编码](#3.1 动态Tokenizer:实时内容-行为联合编码)
      • [3.2 时序感知门控注意力:建模生命周期约束](#3.2 时序感知门控注意力:建模生命周期约束)
      • [3.3 序列多Token预测(Sequential MTP)+ QK Norm](#3.3 序列多Token预测(Sequential MTP)+ QK Norm)
        • [3.3.1 推理加速:Sequential MTP](#3.3.1 推理加速:Sequential MTP)
        • [3.3.2 训练稳定性:QK Norm](#3.3.2 训练稳定性:QK Norm)
      • [3.4 多目标对齐强化学习框架](#3.4 多目标对齐强化学习框架)
    • [四. 实验验证:离线与在线双重验证](#四. 实验验证:离线与在线双重验证)
      • [4.1 离线指标全面领先](#4.1 离线指标全面领先)
      • [4.2 在线A/B测试:真实业务增益](#4.2 在线A/B测试:真实业务增益)
      • [4.3 模型缩放定律验证](#4.3 模型缩放定律验证)
    • [五. 行业价值与技术启示](#五. 行业价值与技术启示)
      • [5.1 范式转变意义](#5.1 范式转变意义)
      • [5.2 工业落地关键经验](#5.2 工业落地关键经验)
    • [六. 未来展望](#六. 未来展望)

摘要:本文深度解析快手科技提出的OneLive------业界首个成功部署于大规模直播场景的动态统一生成式推荐框架。针对直播内容动态演化、生命周期短暂、实时性要求严苛等独特挑战,OneLive通过动态Tokenizer、时序感知门控注意力、序列多Token预测等四大创新组件,实现了端到端的高效推荐,在快手全量上线后带来核心业务指标显著提升。

一. 直播推荐的独特挑战:为何传统方法失效?

直播推荐与传统短视频/电商推荐存在本质差异,主要体现在四大维度:

挑战维度 传统内容(短视频/商品) 直播内容 对推荐系统的影响
内容动态性 上传后内容固定不变 作者实时切换聊天/唱歌/跳舞等行为,内容持续演化 静态Tokenization失效,需实时捕捉内容漂移
生命周期 持久化内容库存,长期可推荐 严格时间窗口约束(开播→增长→峰值→衰退→下播) 候选池高度动态,需在"黄金曝光窗口"内完成分发
实时性要求 秒级响应可接受 毫秒级延迟约束,高并发场景下需维持稳定吞吐 生成式模型推理效率面临严峻挑战
目标多样性 单一点击目标为主 点击、长播、关注、打赏等多目标异构反馈 需灵活融合用户异构偏好,避免刚性加权

二. 传统架构瓶颈:为何需要生成式范式革命?

2.1 级联架构的固有缺陷

工业推荐系统长期采用检索→粗排→精排的漏斗式级联架构,存在两大根本性问题:

  • 目标错位:上游检索追求覆盖率与多样性,下游精排追求精准度,导致全局次优解
  • 信息瓶颈:优质直播在早期阶段被过滤后无法恢复,形成不可逆损失

2.2 计算图碎片化

传统架构混合稀疏Embedding Lookup、序列建模、特征交叉等异构组件,导致:

  • 内存带宽成为瓶颈(MFU < 3%)
  • 有效浮点运算占比低,难以通过硬件升级线性提升性能

2.3 生成式推荐的机遇

Transformer架构为推荐系统带来范式转变:

  • 统一建模接口:将异构信号组织为Token序列,实现端到端学习
  • 计算效率提升:注意力与FFN以大规模矩阵运算为主,MFU显著提升(论文达22.78%)

⚠️ 关键洞察:现有生成式推荐方法(如OneRec、TIGER)直接迁移至直播场景会失效------其静态Tokenization无法适应内容动态演化,且未考虑直播生命周期约束。

三. OneLive核心技术创新

3.1 动态Tokenizer:实时内容-行为联合编码

传统方法将物品编码为静态语义ID(SID),但直播内容持续变化导致表征失真。OneLive提出两阶段动态对齐机制

python 复制代码
# 伪代码:动态Tokenizer核心流程
class DynamicTokenizer:
    def __init__(self):
        self.mllm = LightweightMLLM()  # 30秒滑动窗口实时编码
        self.user_tower = MLP()
        self.author_tower = GatedFusion()  # 融合静态属性+动态内容
        
    def forward(self, live_stream, user_interactions):
        # 阶段1: 动态内容理解
        x_mllm_30s = self.mllm(live_stream[-30s])  # 实时状态
        x_mllm_pool = avg_pool(live_stream)       # 长期主题
        
        # 阶段2: 协同信号后对齐
        x_author = λ * x_author_id + (1-λ) * MLP(concat(x_mllm_30s, x_mllm_pool))
        x_user = self.user_tower(user_id)
        
        # InfoNCE损失优化用户-作者对齐
        loss_align = in_batch_softmax(x_user, x_author) 
        
        # 残差量化生成动态SID
        ia_embedding = x_author  # 语义+协同对齐的表征
        sid = res_kmeans_quantize(ia_embedding, layers=3, size=8192)
        return sid

关键优势

  • 代码本利用率提升 :表1显示,IA Embedding + Res-Kmeans (8192×3) 实现100%层级利用率1.76%碰撞率,显著优于MLLM Embedding(碰撞率28.10%)
  • 动态适应性:图6案例显示,同一作者直播内容从"推广化妆品"切换至"与猫玩耍"时,SID第三层代码实时更新(7964 → 2462)

3.2 时序感知门控注意力:建模生命周期约束

直播推荐本质是时间约束分发问题------仅在线直播可被推荐。OneLive从三层面注入时序感知:

时序感知维度 实现机制 作用
历史序列时序感知 为每个历史Item注入小时/日/周粒度时间偏置 捕捉用户时序兴趣漂移
生成锚点时序感知 在[BOS] Token融合查询时刻多粒度时间特征 实现时间条件化生成
注意力门控时序感知 引入门控机制动态调节注意力权重: Score(X) = σ(XW_θ) 自适应强调时效相关上下文

💡 效果验证 :消融实验表明,仅门控注意力无显著增益(+0.98%),但结合时序特征后推理有效率提升14.29%(避免推荐已下播直播)。

3.3 序列多Token预测(Sequential MTP)+ QK Norm

3.3.1 推理加速:Sequential MTP

标准自回归生成需3次前向传播(q₀→q₁→q₂),计算开销大。OneLive设计级联轻量化解码器

  • 主解码器:完整L层Transformer,生成q₀
  • 轻量子解码器:共享首层KV Cache的单层Block,分别生成q₁、q₂

BOS + Context
Main Decoder L layers
q₀ Prediction
Lite Decoder 1 layer
q₁ Prediction
Lite Decoder 1 layer
q₂ Prediction

性能收益(表4):

  • 6层模型:QPS提升62.0%,P99延迟从13.34ms降至5.04ms
  • 3层模型:QPS提升31.8%,平均延迟降低55.45%
3.3.2 训练稳定性:QK Norm

深层模型训练中QK logits易爆炸(图3),导致Softmax饱和与梯度消失。OneLive引入RMSNorm归一化:

Attn ( Q , K , V ) = Softmax ( RMSNorm ( Q ) RMSNorm ( K ) T d ) V \text{Attn}(Q,K,V) = \text{Softmax}\left(\frac{\text{RMSNorm}(Q)\text{RMSNorm}(K)^T}{\sqrt{d}}\right)V Attn(Q,K,V)=Softmax(d RMSNorm(Q)RMSNorm(K)T)V

效果:消除训练中偶发的Loss尖峰,保障bf16混合精度下深层模型稳定收敛。

3.4 多目标对齐强化学习框架

单纯行为克隆(Behavior Cloning)受限于历史策略天花板。OneLive采用Pantheon多目标集成排序模型作为奖励函数:

r = Pantheon ( User , Author ) = ∑ XTR ∈ { CTR,LVTR,GTR } w XTR ⋅ Score XTR r = \text{Pantheon}(\text{User}, \text{Author}) = \sum_{\text{XTR} \in \{\text{CTR,LVTR,GTR}\}} w_{\text{XTR}} \cdot \text{Score}_{\text{XTR}} r=Pantheon(User,Author)=XTR∈{CTR,LVTR,GTR}∑wXTR⋅ScoreXTR

对比DPO与GRPO优化策略(表5):

  • GRPO优势:利用组内所有候选的相对优势进行优化,在Top64/Top256均带来**+6.88% LVTR**提升
  • DPO局限:仅依赖正负样本对,在小Beam Size下易受噪声干扰

🔑 关键设计 :仅1%查询触发RL训练,平衡稳定性与探索性,最终损失函数:
L OneLive = L MTP + w ⋅ L RL L_{\text{OneLive}} = L_{\text{MTP}} + w \cdot L_{\text{RL}} LOneLive=LMTP+w⋅LRL

四. 实验验证:离线与在线双重验证

4.1 离线指标全面领先

表2显示,OneLive在长播/点击双场景下显著超越基线:

  • HR@128提升16.70%(vs OneRec)
  • MRR@128提升14.26%
  • 甚至超越精心设计的ANN检索架构(KuaiFormer/GNN)

4.2 在线A/B测试:真实业务增益

在快手主站与快手极速版全量部署近1个月(表6):

应用 曝光量 CTR 点击量 观看时长 关注
快手主站 +1.32% +0.41% +1.73% +0.58% +1.36%
快手极速版 +1.96% +0.72% +2.70% +0.41% +2.07%

分层测试亮点(图5):

  • 低活用户增益最显著(曝光+3.2%),缓解级联架构的长尾忽视问题
  • 核心付费用户同样获益,证明模型泛化能力

4.3 模型缩放定律验证

图4显示,随着参数量增加(0.02B→0.16B),Loss持续下降但边际收益递减,最终选择0.08B版本平衡效果与部署成本。

五. 行业价值与技术启示

5.1 范式转变意义

  • 打破级联架构:端到端生成式框架消除阶段间信息瓶颈,实现全局优化
  • 动态场景适配:为实时内容演化场景(如直播、实时新闻)提供可复用技术范式
  • 工程-算法协同:Sequential MTP与QK Norm证明,推理优化与训练稳定性需算法层面创新

5.2 工业落地关键经验

挑战 解决方案 启示
动态内容表征 30秒滑动窗口+协同信号后对齐 实时性与表征质量需精细权衡
推理延迟 参数共享+KV Cache复用 轻量化解码器设计比单纯模型压缩更有效
多目标冲突 集成排序模型替代手工加权 用户异构偏好需数据驱动融合

六. 未来展望

OneLive已服务4亿日活用户,但仍有探索空间:

  1. 跨模态生成增强:结合LLM推理能力预测直播内容演化趋势(如LiveForesighter工作)
  2. 稀疏-稠密统一表示:融合COBRA等稀疏表示技术,进一步提升长尾覆盖
  3. 因果推断整合:区分相关性与因果性,缓解直播"马太效应"

结语:OneLive不仅是技术方案创新,更是推荐系统从"级联判别"到"端到端生成"范式迁移的关键里程碑。其成功验证了生成式架构在严苛工业场景的可行性,为实时动态内容分发开辟了新路径。


参考文献

1\] Wang S., et al. OneLive: Dynamically Unified Generative Framework for Live-Streaming Recommendation. arXiv:2602.08612, 2026. \[2\] Deng J., et al. OneRec: Unifying Retrieve and Rank with Generative Recommender. arXiv:2502.18965, 2025. \[3\] Rajput S., et al. Recommender Systems with Generative Retrieval. NeurIPS 2023.

相关推荐
九.九6 小时前
ops-transformer:AI 处理器上的高性能 Transformer 算子库
人工智能·深度学习·transformer
春日见6 小时前
拉取与合并:如何让个人分支既包含你昨天的修改,也包含 develop 最新更新
大数据·人工智能·深度学习·elasticsearch·搜索引擎
恋猫de小郭6 小时前
AI 在提高你工作效率的同时,也一直在增加你的疲惫和焦虑
前端·人工智能·ai编程
寻寻觅觅☆6 小时前
东华OJ-基础题-106-大整数相加(C++)
开发语言·c++·算法
deephub6 小时前
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用
人工智能·microsoft·langchain·大语言模型·agent·强化学习
偷吃的耗子7 小时前
【CNN算法理解】:三、AlexNet 训练模块(附代码)
深度学习·算法·cnn
大模型RAG和Agent技术实践7 小时前
从零构建本地AI合同审查系统:架构设计与流式交互实战(完整源代码)
人工智能·交互·智能合同审核
老邋遢7 小时前
第三章-AI知识扫盲看这一篇就够了
人工智能
互联网江湖7 小时前
Seedance2.0炸场:长短视频们“修坝”十年,不如AI放水一天?
人工智能
PythonPioneer7 小时前
在AI技术迅猛发展的今天,传统职业该如何“踏浪前行”?
人工智能