MTGR(美团生成式推荐框架)总结文档

一、一段话总结

https://arxiv.org/abs/2505.18654

MTGR: Industrial-Scale Generative Recommendation Framework in Meituan

美团提出的MTGR(美团生成式推荐框架)是基于HSTU架构打造的工业级生成式推荐模型,核心解决了传统生成式推荐模型舍弃DLRM交叉特征导致性能下降的痛点,既保留了DLRM的全部特征(含交叉特征)又具备GRM的优秀可扩展性;该模型创新提出Group-Layer Normalization(GLN)和动态掩码策略优化模型性能、避免信息泄露,同时基于TorchRec对训练框架做了动态哈希表、嵌入查找优化等系统性改造,实现1.6x--2.4x的训练吞吐量提升;实验表明MTGR-large相比多年优化的DLRM基线,单样本前向推理实现65x FLOPs提升,线上CTR提升1.31%、转化量提升1.22%,推理成本降低12%,且已成功部署在美团外卖主流量推荐系统,支撑数亿用户规模,同时验证了其性能与计算复杂度间的幂律关系。

二、思维导图

三、详细总结

本文是美团团队发表于CIKM '25的研究成果,提出MTGR(Meituan Generative Recommendation)工业级生成式推荐框架,解决了传统推荐模型规模化的核心矛盾,实现了性能与可扩展性的双重提升,并成功落地美团外卖推荐系统。以下是按研究脉络的详细总结:

(一)研究背景与问题提出

  1. 缩放定律的应用现状:缩放定律已在NLP、CV、信息检索等领域充分验证,工业推荐系统需在高QPS、低延迟要求下实现排序模型的高效规模化,现有研究分为DLRM(深度学习推荐模型)和GRM(生成式推荐模型)两类。

  2. DLRM的痛点:沿用近十年,含精心设计的交叉特征(提升性能的核心),但存在两大问题:一是无法高效处理海量用户行为序列,学习能力受限;二是训练/推理成本随候选物品数量线性增长,规模化成本过高。

  3. GRM的痛点:可扩展性优秀,通过Token化组织数据、Transformer架构实现高效注意力计算,但其基于下一个Token预测的建模方式需舍弃交叉特征,导致模型性能大幅下降,且单纯缩放模型无法弥补该损失。

  4. 核心研究问题:如何构建既能利用交叉特征保证性能,又具备GRM可扩展性的推荐排序模型,同时实现亚线性的推理成本。

(二)MTGR的核心设计

MTGR的核心思路是融合DLRM和GRM的优势,通过数据重排、架构创新、策略优化实现性能与可扩展性的平衡,基于HSTU(分层序列转导单元)架构建模。

1. 用户级样本聚合与数据重排

  • 将交叉特征融入候选物品特征,按用户聚合候选样本,实现用户表示复用,大幅减少训练/推理的计算冗余;

  • 将所有特征(用户、序列、实时行为、候选物品)统一转换为Token序列,统一输入维度为d_model,适配Transformer自注意力架构,形成公式Feat_D=Concat([Feat_U, Feat_Ṡ, Feat_Ṙ, Feat_I])。

2. 基于HSTU的统一编码器

  • 采用编码器-only架构,堆叠自注意力层和MLP,对Token序列进行端到端编码;

  • 自注意力块中引入残差连接,保证模型深度可扩展性。

3. 两大核心创新策略

  • Group-Layer Normalization(GLN,分组层归一化):对不同语义空间的Token(如用户特征、序列特征)独立归一化,保证不同域Token分布相似,提升异构信息建模能力;

  • 动态掩码策略:为避免信息泄露,设置三类掩码规则:①用户/历史序列(静态序列)对所有Token可见;②实时行为序列(动态序列)遵循因果性,仅对后续Token可见;③候选物品Token仅对自身可见。

(三)MTGR训练框架的系统性优化

为支撑工业级大规模训练,美团放弃传统TensorFlow框架,基于PyTorch+TorchRec重构并深度优化,核心优化点如下,最终实现100+GPU下的良好可扩展性,训练吞吐量提升1.6x--2.4x:

  1. 动态哈希表:替代TorchRec的静态嵌入表,采用解耦的键/值存储架构,支持稀疏嵌入ID的实时增删,提升内存利用率,适配工业流式训练场景;

  2. 嵌入查找优化:通过ID去重+All-to-all跨设备通信,减少重复ID的传输开销,提升嵌入查找效率;

  3. 动态批次大小(BS):针对用户行为序列的长尾分布,按序列长度调整各GPU的本地批次大小,实现计算负载均衡,并优化梯度聚合策略保证计算逻辑一致性;

  4. 其他工程优化:①流水线技术(拷贝/分发/计算三流并行),减少I/O延迟;②bf16混合精度训练;③基于Cutlass设计定制化注意力核,加速训练。

(四)实验验证

实验基于美团工业级外卖推荐日志数据集开展(弥补公共数据集缺乏交叉特征的缺陷),设计离线、消融、可扩展性、线上四类实验,验证MTGR的有效性,核心实验配置与结果如下:

1. 实验基础配置

类别 关键信息
数据集规模 训练集:2.1亿用户、430万物品、237.4亿曝光、10.8亿点击、1.8亿下单;测试集:302万用户、314万物品、7.69亿曝光
MTGR模型尺度 small(3层、d_model=512、2头,5.47 GFLOPs/样本);medium(5层、d_model=768、3头,18.59 GFLOPs/样本);large(15层、d_model=768、3头,55.76 GFLOPs/样本)
基线模型 DLRM系列(DNN、MoE、Wukong、MultiEmbed)、UserTower(SIM/E2E),其中UserTower-SIM为最优DLRM基线
评估指标 离线:CTR/CTCVR的AUC、GAUC;线上:PV_CTR(单页浏览CTR)、UV_CTCVR(单用户浏览转化率)

2. 核心实验结果

  • 离线整体性能:MTGR-small已超越最优DLRM基线UserTower-SIM,MTGR-large实现CTR AUC提升0.8956%、CTR GAUC提升1.0748%、CTCVR AUC提升0.4990%、CTCVR GAUC提升1.4656%,且性能随模型尺度平滑提升;

  • 消融实验:移除交叉特征、GLN、动态掩码任一模块,模型性能均显著下降,其中移除交叉特征会抵消MTGR-large相对DLRM的全部优势,验证了三大模块的核心作用;

  • 可扩展性实验:MTGR的性能随HSTU块数、d_model、输入序列长度的增加而平滑提升,且性能与计算复杂度呈幂律关系,符合缩放定律;

  • 线上实验:在美团外卖开展2%流量AB测试,MTGR-large相比迭代2年的最优DLRM基线,实现PV_CTR+1.90%、UV_CTCVR+1.02%,训练成本不变,推理成本降低12%,且推理成本随候选物品数量呈亚线性增长。

(五)核心贡献与应用

1. 核心贡献

  • 首次融合DLRM和GRM的优势,在保留DLRM全部特征(含交叉特征)的前提下,实现了GRM级的优秀可扩展性;

  • 提出GLN和动态掩码策略,分别提升了异构语义空间的编码性能、避免了建模中的信息泄露;

  • 基于TorchRec完成工业级训练框架的系统性优化,实现100+GPU的高效训练,吞吐量提升1.6x--2.4x;

  • 首次在工业级推荐系统中验证了性能与计算复杂度的幂律关系,线下线上实验均显著超越DLRM基线。

2. 实际应用

MTGR-large已成功部署在美团外卖推荐系统,处理主流量,支撑数亿用户的推荐服务,是近两年来美团推荐系统线下线上性能提升最大的模型。

3. 未来展望

将MTGR扩展至多场景建模,借鉴大语言模型的思路,打造具备通用知识的推荐基础模型。

(六)关键性能数字

  1. 单样本前向推理65x FLOPs提升(相比多年优化的DLRM基线);

  2. 线上转化量提升1.22%、CTR提升1.31%;

  3. 训练吞吐量提升1.6x--2.4x,推理成本降低12%;

  4. MTGR-large的UV_CTCVR(核心商业指标)提升1.02%。

四、关键问题与答案

问题1(模型设计层面):MTGR如何解决传统GRM舍弃交叉特征导致的性能下降问题,核心设计思路是什么?

答案:MTGR并未沿用GRM舍弃交叉特征的建模方式,而是通过数据重排+特征融合的核心思路保留交叉特征:①将交叉特征作为候选物品特征的一部分,融入候选Token的构建中,而非单独剥离;②按用户聚合所有候选样本,复用用户表示,同时将用户、历史序列、实时行为、带交叉特征的候选物品全部统一转换为Token序列,适配生成式架构的同时保留DLRM的全部特征(含交叉特征);③结合判别式损失进行训练,而非单纯依赖GRM的下一个Token预测,最终实现既保留交叉特征保证性能,又具备GRM可扩展性的目标。

问题2(工程实现层面):MTGR基于TorchRec的训练框架做了哪些核心优化,为何这些优化能适配美团的工业级流式训练场景?

答案:MTGR对TorchRec的核心优化包括动态哈希表、嵌入查找优化、动态批次大小、流水线技术等,适配工业流式训练的关键原因:①动态哈希表替代静态嵌入表,支持稀疏ID的实时增删,解决了工业场景中用户/物品不断新增导致的ID溢出问题,同时提升内存利用率;②动态批次大小针对用户行为序列的长尾分布实现GPU负载均衡,避免了工业级海量数据中长序列导致的计算拥堵;③嵌入查找优化和流水线技术分别减少了跨设备数据传输开销和I/O延迟,适配工业级高吞吐、低延迟的训练要求;④所有优化均支持100+GPU的分布式训练,满足美团超大规模数据的训练需求。

问题3(实际应用层面):MTGR相比传统DLRM,在推理成本和可扩展性上的核心优势是什么,为何能成功落地美团外卖主流量推荐系统?

答案:1. 核心优势:①推理成本方面,MTGR通过用户级样本聚合,对一个请求中的所有候选物品仅做一次推理,替代了DLRM对每个候选物品单独推理的方式,使推理成本随候选物品数量呈亚线性增长,而非DLRM的线性增长,最终实现推理成本降低12%;②可扩展性方面,MTGR基于Transformer架构和HSTU编码器,结合GLN、动态掩码等策略,实现了性能与计算复杂度的幂律关系,模型尺度提升时性能平滑增长,且训练框架支持100+GPU的大规模训练,训练成本未随复杂度提升而增加。

  1. 成功落地的原因:①性能层面,线下线上均显著超越迭代2年的最优DLRM基线,核心商业指标(UV_CTCVR、PV_CTR)大幅提升,带来实际商业价值;②成本层面,训练成本保持不变,推理成本下降,适配美团外卖高QPS、低延迟的工业级要求;③工程层面,训练框架的优化适配了美团的流式训练场景,支持海量用户/物品的实时更新,且模型已完成工业级部署验证,能支撑数亿用户的主流量推荐。
相关推荐
im_AMBER2 小时前
Leetcode 143 搜索插入位置 | 搜索二维矩阵
数据结构·算法·leetcode
Bonnie3732 小时前
云原生vs传统IT架构-核心差异与迁移必要性
人工智能·程序人生·云原生·架构·个人开发
倔强的石头1062 小时前
技术拆解:P2P组网如何一键远程AI
人工智能·网络协议·p2p
维度攻城狮2 小时前
AI 工具加持:ComfyUI 节点开发极速上手
人工智能·python·comfyui·工作流·节点图
arvin_xiaoting2 小时前
Kimmy评论论文的深度分析:AI Agent自我认知与进化路径
人工智能·ai agent
呜啦吧哈2 小时前
OpenClaw 接入 DeepSeek 配置笔记(Windows 10 )
人工智能·笔记·aigc
qq_397562312 小时前
全连接神经网络 , 详解 .
人工智能·深度学习·神经网络
小年糕是糕手2 小时前
【35天从0开始备战蓝桥杯 -- Day5】
数据结构·数据库·c++·算法·蓝桥杯
von Neumann2 小时前
SkyReels-V2参数
人工智能