从“拦路虎”到“修路工”:基于AhaEdit的广告素材修复

零、引言

一条保健品广告在系统里亮起了红灯。

视频里,一位精神矍铄的老人正在分享体验。画面看似阳光健康,但我们的风险定位模型精准捕捉到了违规点------那句"喝了能够清宿便,相当于给肠道做SPA"的文案,涉及到医疗保健功效问题。

按照传统流程,这条广告将被驳回,客户需要根据政策修改创意,然后重新提交。这个过程往往伴随着不确定性:哪里违规?怎么改才能通过?多次往返沟通也会影响投放效率。

但这一次,AhaEdit让流程变得不同。系统在识别风险的同时,已自动生成合规版本,将违规文案替换为"缓解肠道压力"。从风险定位到合规优化一步到位,客户可直接使用的修改后的素材进行持续投放。在快手商业化风控平台,我们每天审核数亿创意。面对海量且复杂的广告内容,如何在保障合规的同时,让创作者清晰知"怎样才能过审"------这就是AhaEdit致力解决的核心问题。

一、困在"猜谜游戏"里的创意人

"素材又被拒了,到底哪里不行?" 这可能是广告创作者最头疼的问题。现在的审核系统就像一个"信息黑洞"------你知道有问题,却不知道问题在哪,只能凭经验试错。"如果能直接告诉我是哪一帧、哪句文案有问题就好了。"这是许多创作者的心声。特别是对于时效性强的营销活动,快速定位问题、高效完成修改,能够有效提升投放效率。

商业化广告审核的特殊性在于:既要保障合规"安全",也要实现营销"效果"。通用审核规则侧重风险规避,但优质的商业表达需要在合规基础上充分释放传播价值。比如,将违规的"第一"简单替换成"最佳",虽然规避了排名类用词,但"最佳"本身仍可能被判定为绝对化表达。这反映出一个关键需求:风控审核不仅要识别"什么不行",更要提供"怎样表达更好"的建设性方案。

在商业化生态安全场景下,商业化风控围绕自建风控明镜大模型BLM,依据业务所需构建了系列大模型。专门用于修复素材的就是其中的BLM-AhaEdit,这个名字取自"Aha Moment"------期望每一次修复,都不只是简单的合规通过,而是一个能激发灵感、实现"点石成金"的"顿悟时刻"。

图1 快手商业化风控明镜系列大模型

二、从"发现问题"到"解决问题"的技术突围

面对这些挑战,我们决心让AI学会的不仅是识别风险,更是修复风险。这条技术突围之路并不平坦。

首先,通用大模型在广告修复上表现不佳:

  • 风格保持性差:修改后的字体影响观感,画面失去原意

  • 缺乏全局观:遮挡一个Logo时,会忽略背景透视关系,留下生硬"补丁"

  • 多对象协同难:修复多个关联元素时,容易出现逻辑断裂

  • 可控性挑战:生成式模型的随机性导致修复结果时好时坏,这在商业化广告场景中是致命的。

在这些问题的背后,隐藏着一个关键的因素:编辑模型难以将编辑指令与编辑区域精细匹配,导致模型出现幻觉,生成偏离指令甚至违反物理规律的结果。

图2 闭环修复系统流程图

为此,我们为AhaEdit设计了一套独特的技术路径:"分层解构、精准定位、定向生成",构建了"审核-定位-修复-再审核"的闭环修复系统。在这个系统中,我们聚焦两项核心能力:"风险定位"和"AI修复",不仅告诉模型怎么改,还要让模型知道改哪里,为什么改。

2.1 风险定位:AhaEdit的"火眼金睛"

在数字广告的浩瀚海洋中,精准识别风险是AI修复的第一步。AhaEdit的风险定位模型,就如同为系统装上了一双"火眼金睛"------它不仅要找到违规的"病灶",更要精准诊断其"病因"。

多模态精准打击:从"看到"到"看懂"

我们为不同形态的素材,设定了统一的精准定位范式:

  • 文字素材:直接定位到违规的具体词汇或片段,并阐明其触发的审核条款。

  • 图像素材:以包围框圈定违规区域,并解释其违反的具体规则。

  • 视频素材:精确到违规内容出现的起止时间戳,实现对动态内容的帧级管控。

这些信息共同为后续的修复模型绘制出一张清晰的"手术导航图",指明了不仅是"改哪里",更是"为什么改"的核心方向。

图3 风险定位流程图

架构革新:"识别+定位"的一体化作战

传统的风险定位流程如同一个松散的"流水线":先识别风险类型,再根据类型去定位风险区域。这种两阶段模式存在天然的"阿喀琉斯之踵"------误差累积。前序的识别误差会直接传递给后续定位,导致"失之毫厘,谬以千里"。

为从根本上解决这一问题,我们摒弃了传统架构,训练了一个"识别与定位一体化"的端到端模型。主要包含两个核心环节:即CoT SFT和RL环节,将风控审核规则与大模型深度融合,完成风险定位能力建设。

图4 识别&定位一体化模型

将风险识别和风险定位两个任务深度融合,实现了两大核心优势:

  • 误差最小化:一体化建模消除了阶段间的误差传递,显著提升了定位精度。

  • 任务协同化:识别与定位过程相辅相成。模型在识别"是什么"风险时,对场景的深度理解会反向增强其"在哪里"的定位能力,形成了"1+1 > 2"的协同效应。

这双经过架构革新锤炼的"火眼金睛",让AhaEdit能够在亿级创意中,瞬间锁定毫厘之间的风险,为后续的精准修复奠定了无可撼动的坚实基础。

2.2 AI修复:兼具外科医生的精准与艺术家的美感

当风险被精准定位后,系统便进入了最具挑战性的环节------修复。这不仅需要外科手术般的精准,更要求艺术家般的审美,以确保修复后的内容"天衣无缝"。我们为此构建了一套"理解-生成"协同的AI修复流程。

图5 AI修复流程图

理解环节:基于大模型的编辑决策

面对一个违规元素,首要问题是确定"如何修"。是直接删除,还是寻找合规的词汇或视觉元素进行替换?甚至是调整人物姿态以符合规范?

我们引入VLM大模型作为系统的"策略大脑",它能根据风险定位信息进行深度语义推理,生成最优的编辑方案,告诉模型"怎么改"。

生成环节:数据与算法双轮驱动的专有模型

明确的指令需要卓越的"执行者"。我们并未使用通用模型,而是专门为商业化广告场景,从数据与模型两方面入手,训练了一个专业的AIGC编辑模型。

  1. 数据基石:构建行业领先的广告修复"教科书"

高质量的训练数据是模型的基石。由于广告素材的多样性与复杂性,我们设计了一套 "预处理-生成-后处理" 的数据自动化生成链路,系统性地构建了百万量级的商业化场景数据集,覆盖文本、图像、视频模态,基本囊括了所有常见广告场景,其中图像和视频数据生成链路如图6所示。

图6 图像和视频数据生成链路

  1. 模型炼金术:基于DiT架构的精细化训练

我们采用DiT架构作为模型主干,并通过LoRA微调等技术大幅降低训练成本。为了让模型精准理解"怎么改"、"改哪里"和"为什么改",我们将编辑指令与风险定位信息作为控制条件输入。

训练采用由粗到精的两阶段策略:

  • 阶段一:大规模能力奠基。我们以文生图/视频模型为基座,结合开源与广告数据,使用千万级数据进行预训练,让模型广泛掌握各种编辑技能。

  • 阶段二:商业化场景精修。本阶段仅使用高价值的广告场景数据微调,并将编辑指令和风险定位信息融入提示词,使模型能精确定位风险区域并理解违规原因,最终确保编辑结果在视觉、语义与合规性上都达到高标准。

通过这套"策略大脑"与"专业巧手"的协同,AhaEdit的修复不再是简单的涂抹,而是基于深度理解的智能再创造,真正实现了从感知到执行的无缝闭环。

图7 AIGC编辑模型

三、"一键过审"正在成为现实

如今的AhaEdit已经能够支持多种模态的素材修复:

  • 文本编辑:精准删除或替换违规词汇

  • 图像编辑:文字擦除、物体擦除/替换、人体表情/姿态调整、背景替换

  • 视频编辑:擦除/替换违规元素

这意味着,那些曾经需要数小时甚至数天的修改流程,现在可以在几分钟内完成。"一键过审"从一个美好愿景,正在变成可衡量的技术指标。让我们一起来看看AhaEdit的"魔法"。

3.1 文本编辑--文本删除/替换

编辑方法

编辑前

编辑后

文本删除

然后还有一个这个可可咖啡色,还有个咖啡色,然后最推荐卖的最好的颜色就这个驼色,这个驼色真的好看

然后还有一个这个可可咖啡色,还有个咖啡色,还有这个驼色真的好看

文本替换

然后还有一个这个可可咖啡色,还有个咖啡色,最推荐卖的最好的颜色就这个驼色,这个驼色真的好看

然后还有一个这个可可咖啡色,还有个咖啡色,推荐一款很受欢迎的颜色是驼色,这个驼色真的好看

3.2 图像编辑--文字擦除

prompt:擦除图像中的标语和符号

编辑前

编辑后

3.3 图像编辑--物体擦除/替换

prompt:擦除画面中红色灯笼

编辑前

编辑后

prompt:将陶瓷杯替换成盛着水的透明玻璃杯

编辑前

编辑后

3.4 图像编辑--人体表情/姿态调整

prompt:将画面中人物表情修改成微笑

编辑前

编辑后

prompt:将画面中人物头部姿态修改成朝前看

编辑前

编辑后

3.5 图像编辑--背景替换

prompt:将画面背景替换成黄土地背景

编辑前

编辑后

3.6 视频编辑--字幕擦除

prompt:擦除视频下方的字幕

编辑前

编辑后

3.7 视频编辑--物体擦除

prompt:将视频中的猫擦除

编辑前

编辑后

3.8 视频编辑--物体替换

prompt:将视频中的黑色越野车替换成轿车

编辑前

编辑后

四、迈向新范式:内容理解与内容生成的统一

AIGC技术正朝着更高效、更轻量的方向演进。在这个背景下,风控审核正在经历一场深刻的范式变革。通过建设AhaEdit,我们不再止步于过去单一的内容理解,而是构建了内容理解与生成的统一能力,即在识别风险的同时,提供智能化的修复方案。这一转变尤其对中小自助客户意义重大:有效解决了广告主不理解审核规则、难以精准定位问题的痛点,助力广告主长效经营。

面向未来,我们的目标是构建下一代智能编辑架构:将内容的理解、定位与编辑能力深度融合于单一模型,从根本上实现从感知到生成的统一。为此,我们将聚焦四大技术攻坚:生成过程的可控编辑、跨模态内容的高一致性、实时的人机交互体验,以及多模态的协同编辑。特别是在充满挑战的视频领域,我们致力于攻克时序和空间一致性的核心难题,打造真正高效、轻量的长视频编辑解决方案。

让创作更自由,让表达更安全。这不只是目标,更是我们的使命------颠覆性内容审核创新,理解+生成统一范式,助力商家持续经营。

相关推荐
xiaofeichaichai1 小时前
Webpack
前端·webpack·node.js
Thecozzy2 小时前
线上 Bug 排查与修复实录
架构
鹏大师运维2 小时前
为什么信创电脑装软件总提示“软件包架构不匹配”?
linux·运维·架构·国产化·麒麟·deb·统信uos
问心无愧05132 小时前
ctf show web入门111
android·前端·笔记
唐某人丶2 小时前
模型越来越强,我们还需要 Agent 工程吗?—— 从价值重估到 Harness 实践
前端·agent·ai编程
智码看视界2 小时前
现代Web开发基础:全栈工程师的起航点
前端·后端·c5全栈
小欣加油2 小时前
leetcode56 合并区间
c++·算法·leetcode·职场和发展
JS菌2 小时前
手写一个 AI Agent 全栈项目:从沙箱执行到子智能体的完整实现
前端·人工智能·后端
lqqjuly2 小时前
前沿算法深度解析(二)
人工智能·算法·机器学习