MTGR（美团生成式推荐框架）总结文档

一、一段话总结

MTGR: Industrial-Scale Generative Recommendation Framework in Meituan

美团提出的MTGR（美团生成式推荐框架）是基于HSTU架构打造的工业级生成式推荐模型，核心解决了传统生成式推荐模型舍弃DLRM交叉特征导致性能下降的痛点，既保留了DLRM的全部特征（含交叉特征）又具备GRM的优秀可扩展性；该模型创新提出Group-Layer Normalization（GLN）和动态掩码策略优化模型性能、避免信息泄露，同时基于TorchRec对训练框架做了动态哈希表、嵌入查找优化等系统性改造，实现1.6x--2.4x的训练吞吐量提升；实验表明MTGR-large相比多年优化的DLRM基线，单样本前向推理实现65x FLOPs提升，线上CTR提升1.31%、转化量提升1.22%，推理成本降低12%，且已成功部署在美团外卖主流量推荐系统，支撑数亿用户规模，同时验证了其性能与计算复杂度间的幂律关系。

二、思维导图

三、详细总结

本文是美团团队发表于CIKM '25的研究成果，提出MTGR（Meituan Generative Recommendation）工业级生成式推荐框架，解决了传统推荐模型规模化的核心矛盾，实现了性能与可扩展性的双重提升，并成功落地美团外卖推荐系统。以下是按研究脉络的详细总结：

（一）研究背景与问题提出

缩放定律的应用现状：缩放定律已在NLP、CV、信息检索等领域充分验证，工业推荐系统需在高QPS、低延迟要求下实现排序模型的高效规模化，现有研究分为DLRM（深度学习推荐模型）和GRM（生成式推荐模型）两类。
DLRM的痛点：沿用近十年，含精心设计的交叉特征（提升性能的核心），但存在两大问题：一是无法高效处理海量用户行为序列，学习能力受限；二是训练/推理成本随候选物品数量线性增长，规模化成本过高。
GRM的痛点：可扩展性优秀，通过Token化组织数据、Transformer架构实现高效注意力计算，但其基于下一个Token预测的建模方式需舍弃交叉特征，导致模型性能大幅下降，且单纯缩放模型无法弥补该损失。
核心研究问题：如何构建既能利用交叉特征保证性能，又具备GRM可扩展性的推荐排序模型，同时实现亚线性的推理成本。

（二）MTGR的核心设计

MTGR的核心思路是融合DLRM和GRM的优势，通过数据重排、架构创新、策略优化实现性能与可扩展性的平衡，基于HSTU（分层序列转导单元）架构建模。

1. 用户级样本聚合与数据重排

将交叉特征融入候选物品特征，按用户聚合候选样本，实现用户表示复用，大幅减少训练/推理的计算冗余；
将所有特征（用户、序列、实时行为、候选物品）统一转换为Token序列，统一输入维度为d_model，适配Transformer自注意力架构，形成公式Feat_D=Concat([Feat_U, Feat_Ṡ, Feat_Ṙ, Feat_I])。

2. 基于HSTU的统一编码器

采用编码器-only架构，堆叠自注意力层和MLP，对Token序列进行端到端编码；
自注意力块中引入残差连接，保证模型深度可扩展性。

3. 两大核心创新策略

Group-Layer Normalization（GLN，分组层归一化）：对不同语义空间的Token（如用户特征、序列特征）独立归一化，保证不同域Token分布相似，提升异构信息建模能力；
动态掩码策略：为避免信息泄露，设置三类掩码规则：①用户/历史序列（静态序列）对所有Token可见；②实时行为序列（动态序列）遵循因果性，仅对后续Token可见；③候选物品Token仅对自身可见。

（三）MTGR训练框架的系统性优化

为支撑工业级大规模训练，美团放弃传统TensorFlow框架，基于PyTorch+TorchRec重构并深度优化，核心优化点如下，最终实现100+GPU下的良好可扩展性，训练吞吐量提升1.6x--2.4x：

动态哈希表：替代TorchRec的静态嵌入表，采用解耦的键/值存储架构，支持稀疏嵌入ID的实时增删，提升内存利用率，适配工业流式训练场景；
嵌入查找优化：通过ID去重+All-to-all跨设备通信，减少重复ID的传输开销，提升嵌入查找效率；
动态批次大小（BS）：针对用户行为序列的长尾分布，按序列长度调整各GPU的本地批次大小，实现计算负载均衡，并优化梯度聚合策略保证计算逻辑一致性；
其他工程优化：①流水线技术（拷贝/分发/计算三流并行），减少I/O延迟；②bf16混合精度训练；③基于Cutlass设计定制化注意力核，加速训练。

（四）实验验证

实验基于美团工业级外卖推荐日志数据集开展（弥补公共数据集缺乏交叉特征的缺陷），设计离线、消融、可扩展性、线上四类实验，验证MTGR的有效性，核心实验配置与结果如下：

1. 实验基础配置

类别	关键信息
数据集规模	训练集：2.1亿用户、430万物品、237.4亿曝光、10.8亿点击、1.8亿下单；测试集：302万用户、314万物品、7.69亿曝光
MTGR模型尺度	small（3层、d_model=512、2头，5.47 GFLOPs/样本）；medium（5层、d_model=768、3头，18.59 GFLOPs/样本）；large（15层、d_model=768、3头，55.76 GFLOPs/样本）
基线模型	DLRM系列（DNN、MoE、Wukong、MultiEmbed）、UserTower（SIM/E2E），其中UserTower-SIM为最优DLRM基线
评估指标	离线：CTR/CTCVR的AUC、GAUC；线上：PV_CTR（单页浏览CTR）、UV_CTCVR（单用户浏览转化率）

2. 核心实验结果

离线整体性能：MTGR-small已超越最优DLRM基线UserTower-SIM，MTGR-large实现CTR AUC提升0.8956%、CTR GAUC提升1.0748%、CTCVR AUC提升0.4990%、CTCVR GAUC提升1.4656%，且性能随模型尺度平滑提升；
消融实验：移除交叉特征、GLN、动态掩码任一模块，模型性能均显著下降，其中移除交叉特征会抵消MTGR-large相对DLRM的全部优势，验证了三大模块的核心作用；
可扩展性实验：MTGR的性能随HSTU块数、d_model、输入序列长度的增加而平滑提升，且性能与计算复杂度呈幂律关系，符合缩放定律；
线上实验：在美团外卖开展2%流量AB测试，MTGR-large相比迭代2年的最优DLRM基线，实现PV_CTR+1.90%、UV_CTCVR+1.02%，训练成本不变，推理成本降低12%，且推理成本随候选物品数量呈亚线性增长。

（五）核心贡献与应用

1. 核心贡献

首次融合DLRM和GRM的优势，在保留DLRM全部特征（含交叉特征）的前提下，实现了GRM级的优秀可扩展性；
提出GLN和动态掩码策略，分别提升了异构语义空间的编码性能、避免了建模中的信息泄露；
基于TorchRec完成工业级训练框架的系统性优化，实现100+GPU的高效训练，吞吐量提升1.6x--2.4x；
首次在工业级推荐系统中验证了性能与计算复杂度的幂律关系，线下线上实验均显著超越DLRM基线。

2. 实际应用

MTGR-large已成功部署在美团外卖推荐系统，处理主流量，支撑数亿用户的推荐服务，是近两年来美团推荐系统线下线上性能提升最大的模型。

3. 未来展望

将MTGR扩展至多场景建模，借鉴大语言模型的思路，打造具备通用知识的推荐基础模型。

（六）关键性能数字

单样本前向推理65x FLOPs提升（相比多年优化的DLRM基线）；
线上转化量提升1.22%、CTR提升1.31%；
训练吞吐量提升1.6x--2.4x，推理成本降低12%；
MTGR-large的UV_CTCVR（核心商业指标）提升1.02%。

四、关键问题与答案

问题1（模型设计层面）：MTGR如何解决传统GRM舍弃交叉特征导致的性能下降问题，核心设计思路是什么？

答案：MTGR并未沿用GRM舍弃交叉特征的建模方式，而是通过数据重排+特征融合的核心思路保留交叉特征：①将交叉特征作为候选物品特征的一部分，融入候选Token的构建中，而非单独剥离；②按用户聚合所有候选样本，复用用户表示，同时将用户、历史序列、实时行为、带交叉特征的候选物品全部统一转换为Token序列，适配生成式架构的同时保留DLRM的全部特征（含交叉特征）；③结合判别式损失进行训练，而非单纯依赖GRM的下一个Token预测，最终实现既保留交叉特征保证性能，又具备GRM可扩展性的目标。

问题2（工程实现层面）：MTGR基于TorchRec的训练框架做了哪些核心优化，为何这些优化能适配美团的工业级流式训练场景？

答案：MTGR对TorchRec的核心优化包括动态哈希表、嵌入查找优化、动态批次大小、流水线技术等，适配工业流式训练的关键原因：①动态哈希表替代静态嵌入表，支持稀疏ID的实时增删，解决了工业场景中用户/物品不断新增导致的ID溢出问题，同时提升内存利用率；②动态批次大小针对用户行为序列的长尾分布实现GPU负载均衡，避免了工业级海量数据中长序列导致的计算拥堵；③嵌入查找优化和流水线技术分别减少了跨设备数据传输开销和I/O延迟，适配工业级高吞吐、低延迟的训练要求；④所有优化均支持100+GPU的分布式训练，满足美团超大规模数据的训练需求。

问题3（实际应用层面）：MTGR相比传统DLRM，在推理成本和可扩展性上的核心优势是什么，为何能成功落地美团外卖主流量推荐系统？

答案：1. 核心优势：①推理成本方面，MTGR通过用户级样本聚合，对一个请求中的所有候选物品仅做一次推理，替代了DLRM对每个候选物品单独推理的方式，使推理成本随候选物品数量呈亚线性增长，而非DLRM的线性增长，最终实现推理成本降低12%；②可扩展性方面，MTGR基于Transformer架构和HSTU编码器，结合GLN、动态掩码等策略，实现了性能与计算复杂度的幂律关系，模型尺度提升时性能平滑增长，且训练框架支持100+GPU的大规模训练，训练成本未随复杂度提升而增加。

成功落地的原因：①性能层面，线下线上均显著超越迭代2年的最优DLRM基线，核心商业指标（UV_CTCVR、PV_CTR）大幅提升，带来实际商业价值；②成本层面，训练成本保持不变，推理成本下降，适配美团外卖高QPS、低延迟的工业级要求；③工程层面，训练框架的优化适配了美团的流式训练场景，支持海量用户/物品的实时更新，且模型已完成工业级部署验证，能支撑数亿用户的主流量推荐。