在电商领域,商品图像的质量和效果、商品营销文案的准确程度,都会直接影响消费者的购买决策。这些营销素材的制作会耗费商家很多的成本和精力。为支持商家在专业营销材料方面的内容生成需求,京东零售技术自研了京点点 AIGC 内容生成平台(以下简称"京点点"),商家只需轻点鼠标,就能免费获得高质量的商品图片、运营文案、主图视频(即将上线) 。"京点点"已接入京东核心商家产品,覆盖20多个核心场景, AI 能力单日调用量超 1000 万次 ,助力35万+ 京东商家一键生成店铺运营所需的各类商品素材,提高内容制作效率,降低制作成本。本文为2024年度总结系列文章,将重点介绍"京点点"的技术创新、能力特性与实践结果。欢迎感兴趣的朋友进入官网体验:ai.jd.com
01 ****四大核心技术创新,实现高效、智能的多模态内容生成 "京点点" 是一款专为电商人打造的AIGC工具,平台基于多种AI能力改变传统的零售、电商内容生产模式,覆盖图片、文案、视频等,无需专业人员,小白点一点就能生成专业的电商内容素材。目前,"京点点"已上线了两项AIGC能力:一是AI商品图生成。用户上传商品普通拍摄图或白底图,系统可自动抠图并结合电商数据推荐合适的场景模板,生成高质量商品场景图,还能AI添加商品核心卖点文案、营销利益点等变为商品主图、商品详情图、商品营销图等素材。
二是AI营销文案生成。用户输入京东商品SKU编号或名称,系统能从相关商品中提取卖点信息,按用户需求的文章风格生成营销文案。
然而,电商领域的AI内容生成往往面临着以下几个方面的技术问题: (1)数据处理难度大 电商行业涉及海量的商品信息和用户数据,如何有效地收集、整理和分析这些数据,以训练出准确的文生图基底模型,是一个巨大的挑战。海量的零售图片数据需要进行高效处理和分析,这不仅需要强大的计算能力,还需要先进的数据处理技术和算法,以确保数据的质量和准确性。 (2)图像生成精准控制困难 在电商领域,商品图像的质量和效果直接影响消费者的购买决策。因此,如何精确控制图像的轮廓、风格、视角和布局,同时确保商品的一致性,是一个亟待解决的问题。传统的图像生成技术往往难以实现对图像的精细控制,导致生成的图像无法满足电商企业的个性化需求。 (3)营销文案生成的准确性和风格问题 营销文案是电商内容的重要组成部分,它不仅需要准确地传达商品的信息和特点,还需要具备吸引消费者的语言风格。然而,大模型幻觉问题导致营销文案的准确性和语言风格难以满足实际需求,这使得电商用户在营销推广方面面临着一定的困难。 (4)模型优化与适应性 电商市场变化迅速,消费者的需求和喜好也在不断变化。因此,如何根据用户反馈和市场趋势不断优化生成模型,使其更好地适应电商业务的实际需求,是一个持续的挑战。传统的模型往往缺乏灵活性和适应性,难以快速响应市场的变化。为了解决上述问题,"京点点"进行了以下技术创新和实践,致力于为电商行业提供高质量、高效率的内容生成解决方案。
先进的文生图基底,提供更有吸引力的视觉图像
•海量数据训练: "京点点"通过使用海量的零售图片数据训练京东的文生图基底模型。这些数据涵盖了各种商品类型、风格和场景,使模型能够对商品和销售有更深入的理解。为了提高数据处理效率,平台自研了高效海量数据处理平台,能够快速生产和迭代基底训练数据。•先进技术框架: 采用DiT(Diffusion Transformer)框架与Flow Matching技术构建了先进的基底模型,实现了图像生成效率的显著提升。其中,DiT框架作为基于Transformer架构的创新性图像生成方案,通过其自注意力机制和多层感知结构,能够有效捕捉图像的全局特征与局部细节,从而生成具有高度真实感和自然度的图像。Flow Matching技术则创新性地绕过了传统常微分方程(ODE)的求解过程,通过直接优化概率路径的方式实现目标数据分布的推理,确保变换后的概率分布与目标分布达到最优匹配,这不仅提升了模型的推理效率,同时显著增强了生成图像的多样性与准确性。基于上述技术优势,"京点点"系统在电商领域的商品主图生成、详情页设计、营销素材制作及广告创意等应用场景中展现出卓越的性能,能够为电商企业提供高质量、高真实度的视觉内容解决方案,有效提升商业转化率。
Zero-Shot 可控生成框架?自研图像模型,让商品展示效果更逼真
•图像特征一致性注入: 自主研发的ReferenceNet网络架构,创新性地实现了图像特征一致性的精准注入。这意味着在不需要大量标注数据的情况下,平台可以以极低的成本确保商品的一致性。通过 ReferenceNet,平台能够提取商品的关键特征,并将其应用于图像生成过程中,从而保证生成的图像能够准确地反映商品的特点和属性。•精确图像控制: 自研的 ControlNet 可以对图像的轮廓、风格和布局进行精确控制。与传统的图像控制技术不同,京点点 的 ControlNet 解决了业内 ControlNet 对基础模型的负面影响,在良好控制下不会降低基础模型的生成效果。这使得平台能够根据商品的特征和风格需求,生成高度真实且富有创意的图像,为商品展示提供更加生动、吸引人的视觉效果。
多技术融合创新,产品营销文案更有趣
•多模态商品理解模型: 在营销文案生成方面,"京点点"自研了多模态商品理解模型。该模型能够综合分析商品的图像、文字描述、用户评价等多模态信息,构建商品的 FAB(Feature, Advantage, Benefit),即商品卖点文案策略知识库,涵盖了商品的规格参数、优势、用户使用场景等多维度信息,为营销文案的生成提供了丰富的素材和依据。•RAG 方案与知识融合: 平台使用 RAG(Retrieval-Augmented Generation)方案结合商品知识与大语言模型能力,撰写事实准确且语言风格接地气的营销文案。RAG 方案通过在生成过程中引入相关的知识和信息,有效地改善了大模型幻觉问题,提升了营销文案的写作效果。生成的营销文案不仅能够准确地传达商品的信息和特点,还能够以生动、有趣的语言风格吸引消费者的注意力,提高商品的销售转化率。
强化学习与优化,提高内容生产质量
•用户反馈与数据驱动优化: "京点点"引入了强化学习机制,根据用户反馈和京东商品数据,不断优化生成模型的参数和策略。通过收集用户的行为数据、评价数据和购买数据等,平台能够深入了解用户的需求和喜好,从而针对性地调整生成模型的参数和策略,使生成的内容更加符合用户的期望。•紧密结合电商业务: 平台与实际电商业务紧密结合,实时调整生成策略。根据市场趋势、商品销售情况和用户需求的变化,平台能够及时调整内容生成的方向和重点,为电商用户提供更加具有针对性和时效性的内容。例如,在促销活动期间,平台可以生成更多与促销相关的营销文案和图片,以提高活动的效果和影响力。02 ******京点点 AIGC 技术应用,成效如何? ** 目前,"京点点"面向京东商家、京东生态伙伴和京东内部员工全量开放,同时能力接入到京东各个核心B端产品中,包括智能抠图、智能文案、商品场景图/模特图生成、AI搭配购等功能。用户在商品图、商品营销文案等内容制作的效率提升高达95%以上,从原来的天级降低到秒级。成本由原来单张商品图几十到几百元降低99%以上。以AI生图为例: 在图片生产人力与时间、生产成本、生产效果等方面,"京点点"AI生图相较传统人工生产有显著优势。如在家装2D场景图场景中:AI生图相比传统人工作图具有显著优势。从人力、时间与成本方面看,传统人工制作家装 2D 场景图往往需要花费较长时间和费用,需要租用场地、运输大件家居商品、搭建场景、拍摄、后期处理等,往往一组成图的成本可能耗时一周且高达上万元,而京点点AI生图只需要上传几张商品图(或手机拍摄),无需物理空间和专业设计师,小白即可完成符合质量需求的图片。这进一步减少了对内容生产专业资源的依赖,为家装领域带来了新的可能性。除了要达到最佳的生成质量,还需要尽可能减少资源投入,实现业务应用的最佳投入产出。"京点点"创新性地采用了大模型加速方案和大小模型联合推理技术算法,针对电商领域的特定需求,显著提升了资源利用效率,相较于传统的单一大模型方案,在内容生成质量效果一致的情况下,资源投入度减少高达90%。以下是对两种技术方案的详细对比分析:
类型 | 单一通用大模型方案 | 京点点方案 |
---|---|---|
模型推理方面 | 通用大模型方案针对场景更广的零售场景不会做特意的优化,很难做大性能和效果的平衡。 | 我们基于零售用户信息,分析用户生成商品图片的习惯、品类分布和场景分布,动态调整模型调用策略。通过大小模型联合推理,极大降低了生成成本;并采用模型加速方案,将推理成本降低了60%以上。 |
模型应用方面 | 缺乏针对性传统模型应用:在应用于电商领域时,可能由于缺乏对电商特定需求的深入理解,导致生成的内容不够精准和实用,从而多次生产导致资源浪费。 | 多模态融合的先进性:利用多模态技术,将图像生成、文本生成、数据挖掘等多种智能体有机结合,提升了内容生成的多样性和创意性,满足电商场景下对高质量商品图和营销文案的需求,生成次数从8-10次减少到1-2次即可达到应用效果,降低75%以上。 |
服务扩展方面 | 服务扩展的低效性:当某一垂类请求量激增时,单一大模型需整体扩展服务资源,导致不必要的硬件投入和运维成本增加,资源利用率低下。 | 按需扩展的灵活性:针对高请求量的垂类应用,平台仅需扩展相应智能体的服务资源,避免了整体服务的冗余扩展。这种按需扩展的策略不仅提高了资源利用率,通过动态资源调度,减少了GPU的数量,提升了约50%使用率,还降低了运维成本。 |
平台建设方面 | 高成本传统建设:需要构建庞大的硬件基础设施和复杂的软件架构,导致建设成本高、维护难度大。 | 模块化迭代的高效性:将不同功能模块化为独立的智能体,如商品图生成智能体、文案生成智能体等,实现了针对特定场景的轻量化迭代。各智能体可根据实际需求独立更新,无需全局重训练,大幅节约计算资源。 |
03 ****结语 "京点点"始终以业务发展为引领,围绕电商行业的需求和趋势,不断探索新的技术应用和业务模式。依托京东丰富的电商数据资源,"京点点"能够为模型训练提供大量的高质量数据。这些数据涵盖了商品信息、用户行为、市场趋势等多个方面,为模型的准确性和泛化能力提供了有力的支持。通过对这些数据的深入分析和挖掘,平台能够更好地理解用户需求和市场动态,从而为电商用户提供更加精准和有效的内容生成服务。通过"京点点"探索电商领域中 AI 技术与内容生产协同的前沿应用,解决了行业中电商内容生成效率低下、内容生产成本高、内容生产质量参差不齐的问题,提供了宝贵的实践经验和可复制的模式。未来我们也将在以下几方面继续投入资源打造提升:生成式技术优化与升级,用户一键出"好"图 "京点点"将继续致力于生成式技术的优化与升级,通过模型改进、效率提升、多模态融合、多智能体协同等技术优化,提升AI生成内容结果的质量、效率,从而生成更加高质量、符合用户需求的内容,从一键出图提升到一键出"好"图。融入业务数据的AI生成,工具到经营助手进化 当"京点点"生成内容的质量达到基础要求后,通过融入业务客观的数据反馈,如商品主图分析关注、点击、转化效果好的内容所具有的特征,以此反哺大模型,使其能够进行持续的自学习和训练进化。这样一来,京点点生成的内容就能更好地适应市场需求的变化,能够及时帮助用户调整自己经营策略,提高市场反应速度,激发创新活力,从而推动用户经营。加强与业务的深度融合,拓展更多AI+应用场景 "京点点"团队更加紧密地与业务团队合作,深入了解业务需求,不断优化内容生成策略,以提高商品的销售效果和用户体验。目前,我们已在多个业务领域开展 AI 联合共建,如家装 2D 搭配场景图,通过 AI 技术让用户提前预览家居布置效果;时尚 AI 穿搭,为消费者提供个性化穿搭建议;京麦商家 AI 提效,助力商家提升发品和运营效率。未来,我们将持续探索 AI 技术的更多应用可能,将其融入更多业务场景,为各业务领域提供更高效、更智能的内容创作解决方案,激发全新的业务增长活力 。打造更多普适性与可复制性的AI生成技术解决方案"京点点"采用了电商场景的文生图基底、Zero-Shot 可控生成框架、多智能体协同、强化学习与优化深度整合的技术路线,有效克服了通用大模型在特定产业应用中的能力瓶颈,包括专业领域知识精准度不足、复杂任务处理能力有限,以及单一模型难以实现高效多模态协同等问题。通过模块化设计、可插拔的智能体架构以及灵活的领域知识注入机制,确保了系统在不同电商场景中的高度适应性和可扩展性,将来将打造更多普适性与可复制性AI生成技术解决方案,如AI生成视频、AI生成音频等,为其它行业、京东其它产品在面对类似挑战时提供系统化的解决方案和可借鉴的技术框架。