2024 年,京东零售技术团队在 AI 领域发表多篇 CCF-A 类论文,包含 CVPR、SIGIR、WWW、AAAI、IJCAI 等业界顶会。
下面为大家简要介绍被录用的 10 篇论文,涵盖目标检测、多场景学习、排序模型、意图识别、创意优选、优化大模型幻觉问题等多个方向,欢迎大家共同交流讨论。
👉【1】CVPR 2024 | Exploring Region-Word Alignment in Built-in Detector for Open-Vocabulary Object Detection
中文标题:探索内置检测器中的区域-词对齐以实现开放词汇目标检测
下载地址:ieeexplore.ieee.org/document/10...
论文作者:Heng Zhang,Qiuyu Zhao,Linyu Zheng,Hao Zeng,Zhiwei Ge,Tianhao Li,Sulong Xu
论文简介:
开放词汇目标检测旨在检测与训练过程中使用的基类独立的新类别。大多数现代方法遵循从大规模多模态语料库中学习视觉-语言空间,然后将所学知识迁移到现成的检测器(如 Faster-RCNN)的范式。然而,由于数据集域的差距,在知识迁移过程中可能会发生信息衰减或破坏,从而阻碍对新类别的泛化能力。为了缓解这一困境,在本文中,我们提出了一种名为 BIND(内置检测器)的新框架,以消除模块替换或向现成检测器进行知识迁移的需求。具体而言,我们设计了一个具有编码器-解码器结构的两阶段训练框架。在第一阶段,训练一个图像-文本双编码器,以从图像-文本对语料库中学习图像区域-词语的细粒度对齐。在第二阶段,训练一个 DETR 风格的解码器,以在有标注的目标检测数据集上进行检测。传统手动设计的非自适应建议框生成范式容易引入大量冗余框,这里我们开发了一个锚点提议网络,该网络基于候选自适应地生成具有高可能性的锚点提议,从而显著提高了检测效率。
👉【2】SIGIR 2024 | A Unified Search and Recommendation Framework based on Multi-Scenario Learning for Ranking in E-commerce
中文标题:基于多场景学习的搜推联合建模统一框架
论文作者:Jinhan Liu,Qiyu Chen,Junjie Xu,Junjie Li,Baoli Li,Sulong Xu
论文简介:
搜索和推荐是电子商务中两个最重要的场景。电商 app 中用户有着大量的跨域行为,这为搜推联合建模提供了潜力。传统的多场景模型使用共享参数来学习多个任务的相似性,并使用特定于任务的参数来学习各个任务的差异性,这种粗粒度的建模方法未能有效捕捉搜推场景之间的差异。此外,这种方法未能充分利用整个标签空间的信息。这些问题可能导致多场景模型在处理搜推场景时性能不佳。为了解决这些问题,我们提出了一种有效且通用的统一搜索和推荐框架,设计了搜推视图用户兴趣提取层和搜推视图特征生成层,分别生成用户兴趣和场景无关的搜推特征表示。接下来,我们引入了一个全局标签空间多任务层,使用全局标签作为辅助任务的监督信号,并使用条件概率联合建模主任务和辅助任务。在真实工业数据集上的广泛实验评估表明,该统一框架可以应用于各种多场景模型,并显著提升其性能。在线 A/B 测试也显示出在多个指标上的显著性能提升。
👉【3】SIGIR 2024 |Optimizing E-commerce Search: Toward a Generalizable and Rank-Consistent Pre-Ranking Model
中文标题:优化电商搜索:构建有泛化性和排序一致性的粗排模型
论文作者:Enqiang Xu,Yiming Qiu,Junyang Bai,Ping Zhang,Dadong Miao,Songlin Wang,Guoyu Tang,Lin Liu,Mingming Li
论文简介:
在大型电商平台中,搜索系统通常由召回、粗排、精排等模块组成。粗排作为一个轻量级模块,主要负责为下游精排模块提前过滤掉大量的低效商品。工业界在优化粗排模型时,主要关注提高粗排精排一致性、模型结构和对长尾商品的泛化能力。针对这些问题,我们提出了一种新方法,主要有两个方面的贡献:1.提升粗排精排一致性:引入多个二元分类任务来实现排序一致性,预测商品是否在精排模型估计的前 k 排名中,从而在常见的点对点排序模型上增加学习目标;2. 提升长尾泛化能力:通过引入商品表征的对比学习提高模型长尾泛化能力。通过实验,模型在离线 AUC 指标和在线转化效率的 A/B 测试上,都验证了该模型带来的显著收益。
👉【4】SIGIR 2024 | A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search
中文标题:京东搜索重排:基于互信息的用户偏好导向模型
下载地址:dl.acm.org/doi/10.1145...
论文作者:HuimuWang,MingmingLi,DadongMiao,SonglinWang,GuoyuTang,LinLiu,SulongXu,JingheHu
论文简介:
重排是一种通过考虑商品之间的相互关系来重新排列商品顺序以更有效地满足用户需求的过程。现有的方法主要提高商品打分精度,通常以牺牲多样性为代价,导致结果可能无法满足用户的多样化需求。相反,旨在促进多样性的方法可能会降低结果的精度,无法满足用户对准确性的要求。为了解决上述问题,本文提出了一种基于互信息的偏好导向多样性模型(PODM-MI),在重排过程中同时考虑准确性和多样性。具体而言,PODM-MI 采用基于变分推理的多维高斯分布来捕捉具有不确定性的用户多样性偏好。然后,我们利用最大变分推理下界来最大化用户多样性偏好与候选商品之间的互信息,以增强它们的相关性。随后,我们基于相关性得出一个效用矩阵,使项目能够根据用户偏好进行自适应排序,从而在上述目标之间建立平衡。在京东主搜上的实验结果证明了 PODM-MI 的显著提升。
👉【5】SIGIR 2024 | JDivPS: A Diversified Product Search Dataset
中文标题:基于京东电商平台的多样化产品搜索数据集
下载地址:dl.acm.org/doi/10.1145...
论文作者:ZhiruiDeng,ZhichengDou,YutaoZhu,XuboQin,PengchaoCheng,JiangxuWu,HaoWang
论文简介:
产品搜索的多样化旨在提供多样化的产品,以满足不同用户的需求。现有的多样化产品搜索方法主要依赖于来自在线平台的数据集。然而,这些数据集通常由于其受限的公共访问性和缺乏人工标注的用户意图而带来挑战。这些局限性可能导致实验结果不可重复和结论不可靠,从而限制了该领域的发展。为了解决这些问题,本文引入了一种用于多样化产品搜索的新数据集 JDivPS。这是第一个具有人工标注用户意图的可公开访问的数据集。数据集来自中国主要电子商务平台京东(JD.com),它包含 10,000 个查询,大约 1,680,000 个独特产品,每个查询平均有 10 个人工标注的用户意图。我们使用 JDivPS 数据集对多个多样化排序模型进行了广泛评估,并在论文中展示了这些模型在此数据集上的实验结果,作为未来产品搜索多样化工作的参考。
👉【6】WWW 2024 | A Semi-supervised Multi-channel Graph Convolutional Network for Query Classification in E-commerce
中文标题:基于半监督多通道图神经网络的类目预估方法
论文作者:Chunyuan Yuan,Ming Pang,Zheng Fang,Xue Jiang,Changping Peng,Zhangang Lin
论文简介:
查询意图分类是电商应用中帮助用户快速找到所需商品的重要模块。现有的查询意图分类方法大多依赖用户的点击行为作为监督信号来构建训练样本,然而这些完全基于后验标签的方法可能会因为点击样本的马太效应而导致严重的类别不平衡问题。与热门类目相比,长尾类目下的商品很难获得流量和用户点击,这使得模型无法检测到用户对长尾类目商品的意图,进而加剧了长尾类目无法获得流量的问题,形成恶性循环。此外,由于用户点击的随机性,对于语义相似的查询,后验标签不稳定,使得模型对输入非常敏感,导致类目召回不稳定且不完整。
本文从标签关联和半监督学习的角度,提出了一种新型的半监督多通道图卷积网络(SMGCN)来解决上述问题。 SMGCN 利用查询与类别之间的相似度得分来扩展类别信息并增强后验标签。此外,它利用类别的共现和语义相似性图来增强标签之间的关系并削弱后验标签不稳定性的影响。我们进行了大量的离线和在线 A/B 实验,实验结果表明 SMGCN 明显优于业界最优模型,证明了其有效性和实用性。目前该模型已经部署在京东搜索广告的线上系统,每天服务数亿次查询意图分类服务,具有极高的商业价值,是一套实用、稳健的大规模查询意图分类服务解决方案。
👉【7】WWW 2024 | PPM : A Pre-trained Plug-in Model for Click-through Rate Prediction
中文标题:基于预训练的插件式 CTR 预估模型
论文作者:Yuanbo Gao,Peng Lin,Dongyue Wang,Feng Mei,Xiwei Zhao,Sulong Xu,Jinghe Hu
论文简介:
目前精排模型是 ID-based 范式(IDRec),即基于各种 ID 特征,如 sku id, shop id, brand id 等,建模用户历史行为序列和待排商品间的关系。ID-Rec 模型虽然已取得了不错的效果,但缺乏泛化能力。因为 ID-based 模型中,各个 ID 表示的准确性与 ID 在训练样本中出现的频率高度相关,这导致精排模型对中长尾商品的排序能力不足。我们摒弃了传统的在特征层面融合 ID 和模态特征的方式,而是在模型层进行了融合。网络分为两部分,MoRec 和 Unified Ranking Model(URM)。MoRec 利用文本和图像的表征,采用预训练的方式以 CTR 为监督信号进行训练,URM 将预训练好的 MoRec 和 IDRec 进行端到端的训练。
👉【8】AAAI 2024 | Parallel Ranking of Ads and Creatives in Real-Time Advertising Systems
中文标题:京东创意优选:广告商品排序和广告创意优选的并行排序实践
论文作者:Zhiguang Yang,Lu Wang,Chun Gan,Liufang Sang,Haoran Wang,Wenlong Chen,Jie He,Changping Peng,Zhangang Lin,Jingping Shao
论文简介:
不同的广告创意可以不同的创意风格展现商品的不同属性,在满足不同用户的购物关注需求和审美偏好的同时,提高广告主广告投放的效率。现有方法中,商品排序和广告创意优选大部分采用串行结构,在线耗时的约束一定程度上限制了广告创意优选的效果上限。为了打开创意优选的效果天花板,本文提出了一种新的创意优选和商品排序的并行结构:在线推理时,创意优选模型和商品排序模型并行,共享耗时空间,模型得以进行更复杂的个性化建模;离线训练时,创意优选与商品排序模型联合训练,通过对建模目标的拆分设计,提升创意优选任务的建模效果。相比于商品排序和创意优选的串行结构,并行结构不对广告播放系统引入额外的耗时增长,打开了创意优选的在线算力空间。在京东推荐广告场景下,取得了较好的业务效果。同时,本文对创意优选任务的离线指标作出改进,提高了离线指标和在线效果的数据分布一致性。
👉【9】AAAI 2024 | Generalize for Future: Slow and Fast Trajectory Learning for CTR Prediction
中文标题:面向未来的泛化:用于点击率预测的慢速和快速轨迹学习
下载地址:ojs.aaai.org/index.php/A...
论文作者:Jian Zhu, Congcong Liu,Xue Jiang, Changping Peng, Zhangang Lin, Jingping Shao
论文简介:
深度模型已经在点击率预估上取得了巨大的进展。然而在建模过程中,深度学习常用的独立同分布假设并不能保证成立,尤其是在在线学习的点击率预估系统中。为了解决这个问题,我们提出了一种新的模型更新框架"快慢轨迹学习",用于减缓过去和未来之间的领域漂移并加强模型的时序适应能力。该框架的机制主要依赖三个互补且同构的学习器:工作学习器,快学习器,慢学习器;其中工作学习器可以认为是我们正常更新的模型,快学习器利用工作学习器的指数移动平均权重更新,慢学习器则保留上个时间域下的工作学习器权重,除此之外我们还提出了一种轨迹损失,以加强模型的效果。
👉【10】IJCAI2024 | TaD: A Plug-and-Play Task-Aware Decoding Method to Better Adapt LLMs on Downstream Tasks
中文标题:TaD+RAG-缓解大模型"幻觉"的组合新疗法
下载地址:https://www.ijcai.org/proceedings/2024/728
论文作者:Xinhao Xu, Hui Chen, Zijia Lin, Jungong Han, Lixing Gong, Guoxin Wang, Yongjun Bao, Guiguang Ding
论文简介:京东技术团队联合清华大学提出缓解大模型"幻觉"新技术!ChatGPT 的横空出世标志着人工智能正式进入大模型时代,大模型也正逐步成为推动企业发展的新引擎。然而,大模型带来无与伦比创造力的同时,其"幻觉",即"胡说八道"的坏毛病也让大批应用者苦不堪言。业内主要通过检索增强生成(RAG)技术,通过引入并检索第三方知识库缓解幻觉。但即便召回正确的信息,大模型依然可能因为自身幻觉生成错误结果,所以缓解大模型本身的幻觉也极其重要。京东技术团队联合清华大学提出任务感知解码技术(Task-aware Decoding,TaD),通过对比有监督微调前后的输出,缓解 LLM 本身的幻觉;该方法通用性强,即插即用适应多种大模型结构、微调方法、下游任务。与此同时,项目团队在知识问答业务上进行落地实践,充分证明 TaD+RAG 是缓解 LLM 幻觉的最佳组合疗法。