2026年已公布结果的国际顶级会议中,京东零售技术已有20+篇论文被CVPR、WWW、ICLR等多个极具影响力的国际学术会议收录。我们从中精选11篇,研究内容覆盖多模态多智能体系统、生成式推荐、生成式上下文理解范式、点击率预测等多个方向。这些成果不仅展现了零售技术与AI交叉的蓬勃活力,更预示着未来商业智能的演进方向。
本期为论文成果合集第一期,后续将持续邀请论文作者深度解析技术思路与落地实践,带你"手撕"顶会论文,把握前沿技术方向。欢迎关注~
1、Design Your Ad: Personalized Advertising Image and Text Generation with Unified Autoregressive Models
顶会名称:CVPR

**一句话介绍:**现有广告生成方法缺乏跨模态感知能力,且仅能反映平均偏好。我们探索基于历史点击行为联合生成个性化图文广告,采用统一自回归框架同时生成广告图像与文本。
**论文简介:**生成真实且用户偏好的广告是电子商务领域的关键挑战。现有方法采用点击率(CTR)驱动的多个独立模型来可控地生成吸引人的图文广告。然而,这些流程缺乏跨模态感知能力,且依赖仅反映平均偏好的CTR指标。因此,我们探索基于历史点击行为联合生成个性化图文广告。我们首先设计了统一广告生成模型(Uni-AdGen),该模型采用单一自回归框架同时生成广告图像与文本。通过融入前景感知模块和指令微调机制,Uni-AdGen显著提升了生成内容的真实性。为进一步实现广告个性化,我们为Uni-AdGen配备了粗粒度至细粒度偏好理解模块,该模块能有效从含噪声的多模态历史行为中提取用户兴趣,驱动个性化生成。此外,我们构建了首个大规模个性化广告图文数据集(PAd1M),并提出了产品背景相似度(PBS)指标以辅助训练与评估。大量实验表明,我们的方法在通用及个性化广告生成方面均优于基线方法。
2、Resolving Endpoint Underfitting in Diffusion Bridges via Noise Alignment
顶会名称:CVPR
论文下载:https://github.com/zhangzc21/NADB/blob/main/NADB-paper.pdf

**一句话介绍:**本文提出了噪声对齐扩散桥(NADB)方法,通过重构映射关系解决了模型端点处的欠拟合与噪声不匹配问题,提升了图像恢复和图像编辑任务的生成质量。
**论文简介:**扩散桥模型(Diffusion bridge models)为连接任意两种数据分布提供了强大的框架。目前,许多方法主要通过模仿标准扩散模型的分数匹配机制来学习这种桥接关系。然而本文发现当生成过程逼近目标分布时,这种方式会导致一种异常的欠拟合现象。具体表现为端点处预测的方差和方向发生显著偏移,而这主要是由于网络输入与其回归目标之间的噪声水平差异过大所致。为解决上述问题,我们提出了噪声对齐扩散桥(Noise-Aligned Diffusion Bridge, NADB)。该方法对扩散桥进行了重构:首先通过一个均值网络(mean network)来提供更加纯净的条件目标,随后引入了一种全新的噪声对齐映射关系。这一新范式成功消除了噪声不匹配的问题,并有效修正了目标端点附近的欠拟合现象。我们在多个图像恢复和图像编辑任务上进行了实验验证,结果充分证明了该方法的有效性。
3、DirectFisheye-GS: Enabling Native Fisheye Input in Gaussian Splatting with Cross-View Joint Optimization
顶会名称:CVPR

一句话介绍: 现有 3DGS 方法处理鱼眼图像时需预先去畸变,导致宽视场信息损失。我们通过嵌入鱼眼投影模型实现原生鱼眼输入,并引入跨视图联合优化策略,实现高质量鱼眼场景重建**。**
**论文简介:**3DGS 实现了从日常图像进行高效的 3D 场景重建,具备实时高保真渲染能力,极大地推动了 VR/AR 应用的发展。鱼眼相机凭借更宽的视场(FOV),能够以更少的输入实现高质量重建,因而近期受到了广泛关注。然而,由于 3DGS 依赖于光栅化,大多数涉及鱼眼相机输入的后续工作都需要先对图像进行去畸变处理再训练,这带来了两个问题:1) 图像边缘的黑边导致信息丢失,抵消了鱼眼相机大视场的优势;2) 去畸变过程中的拉伸-插值重采样将每个像素的值扩散到更大区域,稀释了细节密度------导致 3DGS 过拟合这些低频区域,产生模糊和悬浮伪影。在本工作中,我们将鱼眼相机模型集成到原始 3DGS 框架中,实现了无需预处理的原生鱼眼图像输入训练。此外,尽管建模正确,我们仍观察到重建场景在图像边缘会出现悬浮伪影:畸变向边缘逐渐增大,而 3DGS 原有的每轮迭代随机选择视图的优化方式忽略了高斯分布在跨视图间的相关性,导致出现极端形状(如过大或拉长),从而降低重建质量。为解决这一问题,我们提出了一种基于特征重叠驱动的跨视图联合优化策略,在视图间建立一致的几何和光度约束------该技术同样适用于现有的基于针孔相机的流程。我们的 DirectFisheye-GS 在公开数据集上达到了与最先进方法相当或更优的性能。
4、From Modularity to Unity: Towards Industrial-Scale Generative Recommendation
顶会名称:WWW
论文下载:https://github.com/tjuxiaofeng/WWW2026/blob/main/ind0316_www26.pdf

**一句话介绍:**面向工业级场景的生成式推荐统一排序框架UniGenR ,解决了传统推荐模型模块化限制及现有生成式推荐模型的架构不兼容、梯度干扰和异构序列对齐问题,提出规模化、无冲突的生成式推荐新范式。
**论文简介:**传统深度学习推荐模型采用人工设计的专用子网络构建模块化架构,用以处理多源异构数据。这类设计虽具备实际应用价值,却因引入强归纳偏置,制约了模型的性能上限与可扩展性。生成式推荐技术通过将各类异构数据处理架构融合至单一框架,为推荐模型从模块化向一体化演进提供了可行路径,但其落地应用仍面临三大核心挑战:生成式架构与判别式任务存在适配性矛盾、共享骨干网络中多优化目标间存在梯度干扰、异构行为序列存在表征错位问题。针对上述问题,本文提出一体化排序框架 UniGenR,从底层重构生成式推荐模型的设计范式。为实现深度学习推荐模型中判别式任务与生成式建模的深度融合,UniGenR 搭建了统一多任务骨干网络编解码架构,并创新设计因果行为多任务注意力机制,有效缓解多任务目标间的潜在冲突;为在生成式框架中实现高效的统一序列建模,UniGenR 构建双编码器结构,通过全局令牌编码器实现异构序列的精准对齐,依托局部令牌编码器完成动态令牌化与序列自适应适配。
5、Think Then Recommend: An LLM-Powered Multi-Agent Framework for Personalized Conversational Recommender System in E-Commerce
顶会名称:WWW

**一句话介绍:**本文提出大语言模型驱动的 TTR 多智能体框架,针对性解决传统对话式推荐系统的个性化不足、可解释性与鲁棒性差等问题。
**论文简介:**对话推荐系统在现代电子商务领域的重要性与日俱增,这类系统能够通过自然语言对话实现交互式的产品导购。尽管具备应用潜力,现有对话推荐系统仍存在两大核心局限:其一,这类系统往往聚焦于瞬时的对话上下文和短期查询,忽略了对理解用户长期偏好、完善用户意图至关重要的历史行为模式,进而削弱了推荐的个性化效果;其二,系统缺乏可解释性与可控性,决策过程不透明,不仅阻碍用户理解推荐逻辑、难以对系统进行定向调控,对意外输入的鲁棒性也表现不佳。为解决上述问题,本文提出了TTR的多智能体框架,该框架由大语言模型驱动,将基于对话的意图提取、从历史行为模式衍生的生成式意图补全,以及检索增强的排序机制整合至端到端的对化推荐范式中。TTR 框架包含三大核心组件:一是基础意图提取智能体,可融合对话上下文与用户当前问题,完成基础的意图判断;二是详细意图生成智能体,依托生成式大语言模型,通过分析用户历史行为模式挖掘潜在需求;三是偏好对齐推荐智能体,先在嵌入空间中通过潜在特征匹配检索产品,再借助大语言模型驱动的意图 - 商品对齐机制,对排名靠前的候选产品进行语义重排序,从而给出合理的推荐结果。在公共基准数据集和专有工业电子商务数据集上开展的大量实验结果表明,TTR 的性能优于现有同类对化式推荐系统。
6、Spectral Disentanglement and Enhancement: A Dual-domain Contrastive Framework for Representation Learning
顶会名称:WWW
论文下载:https://arxiv.org/pdf/2602.09066

**一句话介绍:**该研究提出谱解耦增强框架,通过自适应谱分解机制和双域对比优化策略,有效解决多模态对比学习中的特征坍缩与谱失衡问题,有效提升表征的鲁棒性和泛化能力,在多个基准测试中超越现有方法。
**论文简介:**大规模多模态对比学习近期在获取丰富且可迁移的表征方面取得了显著成功,但其根本局限性在于对特征维度的均一化处理以及对学习特征内在谱结构的忽视。实证研究表明,高维嵌入往往会坍缩成狭窄的锥形空间------将任务相关语义集中于微小子空间,而让噪声和伪相关占据多数维度。这种谱失衡与特征纠缠问题严重损害了模型泛化能力。我们提出谱解耦增强框架,通过建立嵌入空间几何结构与谱特性的理论桥梁实现突破。本方法的创新性体现在:1)自适应谱分解机制:基于奇异值分解将特征维度动态划分为三类------捕获核心语义的强信号、反映辅助关联的弱信号以及无关干扰的噪声。2)课程式谱增强策略:选择性放大信息性成分,通过理论保证的训练稳定性实现渐进式特征提纯。3)双域对比损失函数:在特征空间与谱空间同步优化对齐,将谱正则化融入训练过程以构建更丰富、更鲁棒的表征。在大规模多模态基准测试中,SDE持续提升表征鲁棒性与泛化性能。该框架可无缝集成现有对比学习流程,为多模态表征学习提供了创新性解决方案。
7、Auto-bidding under Return-on-Spend Constraints with Uncertainty Quantification
顶会名称:WWW
论文下载:https://arxiv.org/pdf/2509.16324
**一句话介绍:**本文针对广告自动出价中广告曝光真实价值未知的实际场景,提出一种基于历史上下文出价数据训练的机器学习模型、结合保形预测量化价值不确定性的新方法,该方法兼容现有行业系统,设计的修正型价值估计器无需真实价值即可提供性能保障。
论文简介: 自动出价系统在广告领域应用广泛,可在总预算、支出回报率(RoS)目标等约束条件下,自动确定广告出价金额。现有相关研究往往假定广告曝光的价值(如转化率)是已知的,而本文聚焦于广告曝光真实价值未知这一更贴合实际的业务场景。本文提出了一种全新方法:该方法以基于含上下文特征的历史出价数据训练得到的机器学习模型为基础,采用保形预测法对广告曝光价值的不确定性进行量化,且无需假设数据满足独立同分布特性。该方法可与当前行业内基于机器学习做价值预测的系统兼容;并以预测区间为基础,设计了一种由机器学习预测结果推导而来的修正型价值估计器,证明了该估计器无需获取曝光真实价值,也能为出价效果提供性能保障。本文将该方法应用于现有带预算和支出回报率约束的自动出价算法优化中,从理论层面证明了该方法能在将支出回报率违规率控制在较低水平的同时,实现广告收益的高效提升。基于仿真数据集和真实工业数据集的实证实验结果表明,该方法在提升广告出价性能的同时,还能保持高效的计算效率。
8、Are LLMs Stable Formal Logic Translators in Logical Reasoning Across Linguistically Diversified Texts?
顶会名称:WWW
论文下载:https://arxiv.org/abs/2506.04575

**一句话介绍:**我们提出了MenTaL方法,指导大模型在翻译过程中建立概念-符号映射表。通过将等价表达式链接到共享符号,保持了一致性并减轻了符号漂移,提升了大模型在逻辑推理场景的准确率。
**论文简介:**基于大语言模型的逻辑推理越来越受到人们的关注。一种主流的方法是将自然语言转化为形式逻辑,然后应用符号解算器进行演绎。虽然在许多任务中有效,但当相同的概念以不同的语言形式出现时,这些基于LLM的翻译器往往无法生成一致的符号表示。这种不一致打破了逻辑的连贯性,导致求解错误。然而,大多数现有的基准缺乏这种类型的语言变化,这种变化经常发生在现实世界的文本中,使得问题没有得到充分的研究。为了解决这一差距,我们提出了SoLT,可以系统地将推理数据集重写为跨多个级别的不同但逻辑等效的形式。除了评估之外,SoLT还提供了一种通用方法,可以在保留意义和逻辑的同时,用语言多样性丰富任何数据集。为了进一步提高基于llm推理的稳定性,我们提出了MenTaL,它明确地指导模型在翻译过程中建立概念-符号映射表。通过将等价表达式链接到共享符号,MenTaL保持了一致性并减轻了符号漂移。在SoLT上的实验表明,llm在语言变化下确实存在符号映射不一致的问题,导致推理精度显著下降。同时,应用MenTaL可以在不同的输入中带来清晰而稳定的性能改进。总的来说,我们的研究结果表明,忽视语言多样性隐藏了基于LLM的翻译的关键弱点,我们的工作为在各种现实世界场景中更可靠的逻辑推理提供了一步。
9、iFusion: Integrating Dynamic Interest Streams via Diffusion Model for Click-Through Rate Prediction
顶会名称:ICLR

**一句话介绍:**本文提出了基于扩散模型的IFUSION框架,将用户长短期兴趣融合重新构建为条件生成过程,通过解耦式无分类器扩散引导与混合自回归去噪网络,有效解决兴趣建模中特征空间错位与噪声传播问题,在多项测试中显著提升点击率预测效果,为生成式兴趣融合建立了新范式。
**论文简介:**点击率预测对推荐系统和在线广告至关重要,其效果高度依赖有效的用户行为建模。现有方法通常独立优化长短期兴趣表征,但由于特征空间错位、建模方式割裂以及短期兴趣的噪声传播问题,二者融合仍是一项关键且研究不足的挑战。为突破这些局限,本文提出了IFUSION------一种基于扩散模型的生成式用户兴趣融合方法,将兴趣融合重新构建为条件生成过程。该方法以短期兴趣为条件引导,通过渐进式去噪融合长期兴趣表征,摆脱了对线性融合假设的依赖。我们的框架包含两个核心组件:(1)解耦式无分类器扩散引导机制,可自适应地从瞬时波动中分离核心偏好;(2)混合自回归去噪网络,通过自回归去噪实现兴趣建模与融合的协同优化。实验表明,IFUSION在公开和工业数据集以及在线A/B测试中均优于基准模型,验证了其在鲁棒点击率预测中的有效性。本工作为点击率预测中的生成式用户兴趣融合建立了新范式。
10、On the Tension Between Optimality and Adversarial Robustness in Policy Optimization
顶会名称:ICLR
论文下载:https://openreview.net/pdf?id=ion4VYJWvo

**一句话介绍:**本文提出了一种双层优化框架 BARPO,通过动态调节对抗强度,在强化学习中实现了最优性与鲁棒性的统一。
**论文简介:**在强化学习领域,实现最优性(optimality)与鲁棒性(robustness)长期以来被视为两个相互冲突的目标。然而,近期工作发现这两者具有潜在的理论统一性,这随之引出了一个重要的问题:如何在实践中实现这种统一。本文首先通过比较标准策略优化(Standard Policy Optimization, SPO)与对抗鲁棒策略优化(Adversarially Robust Policy Optimization, ARPO),揭示了理论与实践之间的一个关键鸿沟。尽管这两者在理论上具有一致性,但在实际的策略梯度方法中,鲁棒性与最优性之间却表现出根本性的冲突。具体而言,SPO 倾向于收敛到具有良好常规性能但十分脆弱的"一阶平稳策略"(First-Order Stationary Policies, FOSPs);而 ARPO 则通常偏好更具鲁棒性的 FOSPs,但代价是牺牲了部分回报。此外,我们将这种权衡归因于 ARPO 中最强对抗者的"重塑效应"。该效应通过诱发具有欺骗性的"粘性"一阶平稳策略,极大地复杂化了全局优化景观。这虽然提升了模型的鲁棒性,却让优化过程变得更加困难。为了缓解这一问题,我们开发了 BARPO,一个通过调节对抗者强度来统一 SPO 与 ARPO 的双层框架。该框架不仅保留了全局最优解,还显著提升了优化过程的顺畅度。大量实证结果表明,BARPO 的表现始终优于传统的ARPO,为调和理论与实际性能提供了一种切实可行的方法。
11、Bayesian Ensemble for Sequential Decision-Making
顶会名称:ICLR
论文下载:https://openreview.net/pdf?id=s2hxd8JghB

**一句话介绍:**本文提出一种面向序列决策任务的不确定性建模框架 Bayesian Ensemble(BE):将集成成员的选择建模为 bandit,并依据观测回报对成员采样分布进行贝叶斯更新,从而提升 bandit 与强化学习中的探索与决策效果。
**论文简介:**集成学习是一类用于不确定性建模的实用方法族,尤其适用于推荐系统与强化学习等序列决策问题。现有集成方法通常通过从预先设定的索引分布中抽取一个集成成员来近似似然参数的后验分布,其中集成成员的多样性反映了不确定性的程度。本文提出 Bayesian Ensemble(BE):一种轻量但有理论依据的、可叠加在现有集成方法之上的贝叶斯层。BE 将"选择哪个集成成员"本身视为一个 bandit 问题,并基于观测到的回报通过贝叶斯推断动态更新对各成员的采样分布,从而区别于以往依赖固定、均匀采样的做法。我们将该框架扩展到 bandit 学习与强化学习,分别提出 Bayesian Ensemble Bandit 与 Bayesian Ensemble Deep Q-Network,以适配不同的决策任务。大量在合成环境与真实环境上的实验结果表明,BE 具有良好的有效性与效率。