语义id

论文分享-ETEGRec：端到端可学习的物品分词与生成式推荐现有生成式推荐多采用"两阶段"范式：先离线构造语义标识（Semantic ID），再以固定标识训练生成器，导致分词器与生成器目标失配、分布不一致。ETEGRec 将 RQ-VAE 物品分词器与 T5 式生成器统一到一个端到端框架中，并引入两类推荐导向对齐（SIA、PSA），通过交替优化稳定地联动两模块学习。在 Amazon-2023 三个子集上，ETEGRec 相比传统序列模型与主流生成式基线均取得稳定提升，消融实验验证了对齐与交替优化的有效性。

语义Id论文精读：COBRA《Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations》大家好，接下来我将为大家系统性地梳理语义ID在推荐领域的两大主流技术路线相关论文，在此之前我先给出我目前关于语义id方面的认识，便于大家理解后续的论文。

语义ID论文精读《Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations》在推荐系统的广袤世界里，物品ID（Item ID）如同每个物品的“身份证”，是模型识别与记忆它们的基础。长期以来，我们习惯于使用随机哈希ID (Randomly-hashed IDs)，这种方法凭借其高效的记忆能力，在工业界大规模排序系统中占据着主导地位。然而，这种“死记硬背”的方式也带来了明显的弊端：模型对新出现的、缺乏交互的长尾物品束手无策，因为这些随机ID本身不携带任何语义信息，无法帮助模型进行泛化推理。

我是有底线的