京东广告创意:高质量创意生成和千人千面的创意推荐

作者;京东零售 冯伟

一、前言

优秀的广告创意不仅能够增强信息传递的效果,还可以提高用户的点击和转化率。2023年广告团队利用AIGC技术显著提升了创意内容的多样性。然而随着多样性的提升,质量欠佳的素材限制了智能创意的覆盖率,海量创意如何匹配用户的问题更加凸显。2024年广告团队在创意生成和优选方面进行了技术突破,实现了高质量广告创意的自动生成和千人千面的创意推荐效果。

创意生成方面,广告团队提出了一种提高生成图片可用率的方法,通过多模态可靠反馈模型 模拟人类审核图片,并利用该模型的反馈显著提升生成图片的可用率,同时保持了视觉吸引力。团队还发布了业界首个人工标注生成广告图片的RF1M数据集,用于帮助模型更真实地反映人类反馈。创意优选方面,广告团队利用多模态大语言模型提取创意的表征信息,提升优选模型对创意的区分能力和冷启效果。同时将创意优选任务拆分为元素选择和组合选择两个阶段,使得优选模型能够应对更丰富的创意素材。

以上技术突破成功解决了现有AIGC图片可用率低的问题,提升了AIGC素材的覆盖率 ;并有效缓解了数据稀疏和海量创意接入带来的组合爆炸问题 ,实现了线上创意和用户的精准推荐。相关创新成果已在 AAAI,ECCV,IJCV等顶会上发表多篇论文。

本文将详细阐述2024年广告团队在创意生成和优选方面的技术突破。

二、可信赖创意生成

吸引人的广告图片对于电子商务的成功至关重要。由于手动设计图片需要大量的人工成本,因此对自动广告图像生成的需求正在上升。尽管生成模型有潜力创造出吸引人的背景,但我们观察到其经常会生成质量欠佳的广告图片,因此需要大量人工来检查生成的图像。这些缺陷限制了生成模型在广告图像生产中的广泛应用。因此,我们要解决的问题是如何建立一个可信赖的广告图像生成流程,以高可用率生成图像。

【2.1 信赖反馈模型】

提高可用率的自然解决方案是利用生成过程中的随机性,反复生成图像直到获得可用的图像(循环生成)。为了替代人工检查,我们提出了一种新颖的信赖反馈网络(RFNet),充当人工检查员来评估生成的广告图像的可用性。由于仅依赖单一生成的图像,模型无法有效获得进行精确检查所需的关键知识,例如产品是什么以及产品如何出现在背景中。因此,RFNet整合了多种辅助模态,以提供对判断不同不可用情况至关重要的信息。RFNet的结构如下所示:

【2.2 可信赖人类反馈】

虽然循环生成大大增加了可用图像的数量,但因为生成模型本身能力有限,多次尝试会显著延长生成过程。利用人类反馈(RLHF)来增强扩散模型的能力提供了一种可行的选择,这些方法在提高生成图像的视觉质量方面已经取得显著结果。类似的,在训练完信赖反馈模型后,我们将其输出看作人类对于生成图片的评价,通过将其结果反传回生成模型来提升生成图片中可用的比例。该流程如下所示:

其中,yd为一个one-hot向量,其中合格类别的概率为1,而其他类别的概率为0。oi为生成图像输入给信赖反馈模型后得到的概率,N为一次训练中样本的总数。所得到的梯度被反传至生成模型中,来使其朝着更高概率生成合格图像的方向优化。沿用ControlNet原有的设定,只有ControlNet部分参与梯度更新,而Stable Diffusion部分是不更新参数的。

三、离线表征建设和接入

离线表征建设上,广告团队基于MLLM技术,提取创意图片和文案的表征信息,完善创意粒度现有表征体系,并将其接入优选模型进行表征的对齐和优化,提升优选模型对不同创意的区分能力,并增强新增创意的冷启效果。

【3.1 创意粒度表征建设】

创意粒度表征建设主要包括两方面:

•显式特征:创意素材中可见的显式信息,例如如NER、背景色、人脸/品牌LOGO识别等。

•隐式特征:从创意素材展示内容中可推断的隐式信息,如商品是否在促销,适合哪种用户群体。

我们从不同表征的提取及表征质量评估两个方面进行了探索和优化:

•基于MLLM的创意表征体系建设:利用MLLM的图文处理能力,从创意图像中同步提取显式和隐式特征,包括图像布局,展示风格,商品信息,及促销活动等内容。

•基于对比学习的多模态表征抽取:基于MOCO v3设计对比学习任务,将同sku下的其他创意作为当前创意表征学习的负样本,提升表征在同sku创意间区分度。

•表征质量评价体系:基于Fassi检索工具,评测创意表征检索效果是否符合预期。

【3.2 创意多模态表征落地优选】

任务目标:

•创补充创意表征:创意本身表征太少,只有部分id信息,无法感知创意细节,影响模型打分效果。

•增强三元组交互:已有工作基础上,直接接入多模态信息带来的增益有限,需考虑更加精细化的建模方式,提升模型精度。

实现方案:

•接入增量表征:考量新接入表征相对现有模型的信息增益,多角度补充特征。

•适配建模目标:注重同sku不同创意图像差异性表征接入。

•精细化建模:增加模型中user,sku,creative素材之间的交互强度,提升建模效果。

四、优选任务在线架构优化

【4.1 优选模型建模目标升级】

线上模型打分是在同sku下对下挂的不同创意进行排序的,但是我们离线训练时,从特征输入及目标优化的角度均未考虑候选创意对当前创意的影响。导致两个问题:1、模型建模学习接收的信息不完整。2、无法将离线基于ctr的点预估任务与线上推理的创意list排序任务统一。

因此,优选模型在原有建模目标上进行了任务目标的升级:

1、推动候选创意特征建设,包括特征数据的接入和落表,将候选创意接入现有排序模型,与待排序创意进行整体建模,提升离线模型训练和在线优选任务服务场景的一致性。

2、升级建模目标,在原有的CTR点预估基础上,新增同样本中曝光创意和其他候选创意之间的list-wise建模目标,提升创意优选模型精确度。具体公式如下:

【4.2 优选-精排模型联合训练】

在线方案设计上,为缓解线上serve压力,提出创意-精排联和学习范式:将<user,sku,creative>三元组预估问题拆解为<user, sku>二元组预估与在该分布下的创意排序问题,分别由排序模型和创意优选模型进行联合训练,拆解创意对点击的贡献,缓解组合爆炸问题。线上只部署创意模型,通过轻量化的特征和模型服务,减轻线上压力。

上述技术针对线上个性化创意优选任务,从数据、模型、算力等方面进行提效,有效缓解了创意素材接入带来的组合爆炸和数据稀疏问题,提升了线上创意展示效果。

五、总结&展望

【5.1 技术路线总结】

为了解决广告创意中生成素材的bad case,以及海量创意和用户匹配的问题,京东广告部门提出了以下技术方案:

创意生成方面,广告团队提出了一种提高生成图片可用率的方法,通过多模态可靠反馈网络模拟人类审核图片,并利用该网络的反馈显著提升了生成图片的可用率,同时保持了视觉吸引力。该团队还发布了一个超过一百万张人工标注生成广告图片的RF1M数据集,用于促进该领域的研究工作。

创意优选方面,广告团队利用 MLLM 技术提取创意的多模态表征,并通过对齐和优化提升模型对创意的区分能力和冷启效果。同时采用多示例学习方法,将创意组合与元素统一建模,利用组合点击作为监督信号,训练组合和元素优选分支,实现联合建模。

【5.2 未来技术展望】

尽管AIGC技术在广告创意领域有较为广泛的应用,但仍存在诸多待解决的问题,未来我们将在以下方向开展技术探索:

多模态:优化技术在处理和整合不同模态的内容上的能力,如如何将文字、图像、视频等元素有效融合,以创造吸引力更强的创意形式。

个性化:针对不同的目标用户群体,利用用户数据和行为分析,生成符合特定用户偏好的个性化广告创意。

参考文献

【1】Parallel Ranking of Ads and Creatives in Real-Time Advertising Systems, AAAI2024.

【2】Towards Reliable Advertising Image Generation Using Human Feedback, ECCV2024.

【3】CBNet: A Plug-and-Play Network for Segmentation-Based Scene Text Detection, IJCV2024.

【4】Generate E-commerce Product Background by Integrating Category Commonality and Personalized Style, ICASSP2025.

相关推荐
小和尚同志3 小时前
3. Github Actions 自动部署
程序员·开源·github
无限大67 小时前
《计算机“十万个为什么”》之前端与后端
前端·后端·程序员
陈随易10 小时前
薪资跳动,VSCode实时显示今日打工收入
前端·后端·程序员
世界因我而不同10 小时前
字节跳动TRAE国内版使用配置超详细教程,小白也能轻松上手!
程序员
陈随易15 小时前
实测:打包4321个文件,下一代Vite速度快一倍
前端·后端·程序员
猫蝠侠1 天前
2025 年 Python AI 技术白皮书:AI Agent、Prompt、RAG、Function Calling、MCP 与 AI 开发框架
程序员
袁煦丞1 天前
你的在线相册管理专家Piwigo:cpolar内网穿透实验室第487个成功挑战
前端·程序员·远程工作
用户401761214752 天前
AI 能从一句话搞定一个 2048 游戏吗?codebuddy 初体验
程序员
全栈若城2 天前
14. HarmonyOS NEXT弹性表单设计精解:flexGrow与空间分配策略
程序员
全栈若城2 天前
09.HarmonyOS Next数据驱动UI开发:ForEach与动态渲染完全指南
程序员