从“拦路虎”到“修路工”：基于AhaEdit的广告素材修复

零、引言

一条保健品广告在系统里亮起了红灯。

视频里，一位精神矍铄的老人正在分享体验。画面看似阳光健康，但我们的风险定位模型精准捕捉到了违规点------那句"喝了能够清宿便，相当于给肠道做SPA"的文案，涉及到医疗保健功效问题。

按照传统流程，这条广告将被驳回，客户需要根据政策修改创意，然后重新提交。这个过程往往伴随着不确定性：哪里违规？怎么改才能通过？多次往返沟通也会影响投放效率。

但这一次，AhaEdit让流程变得不同。系统在识别风险的同时，已自动生成合规版本，将违规文案替换为"缓解肠道压力"。从风险定位到合规优化一步到位，客户可直接使用的修改后的素材进行持续投放。在快手商业化风控平台，我们每天审核数亿创意。面对海量且复杂的广告内容，如何在保障合规的同时，让创作者清晰知"怎样才能过审"------这就是AhaEdit致力解决的核心问题。

一、困在"猜谜游戏"里的创意人

"素材又被拒了，到底哪里不行？" 这可能是广告创作者最头疼的问题。现在的审核系统就像一个"信息黑洞"------你知道有问题，却不知道问题在哪，只能凭经验试错。"如果能直接告诉我是哪一帧、哪句文案有问题就好了。"这是许多创作者的心声。特别是对于时效性强的营销活动，快速定位问题、高效完成修改，能够有效提升投放效率。

商业化广告审核的特殊性在于：既要保障合规"安全"，也要实现营销"效果"。通用审核规则侧重风险规避，但优质的商业表达需要在合规基础上充分释放传播价值。比如，将违规的"第一"简单替换成"最佳"，虽然规避了排名类用词，但"最佳"本身仍可能被判定为绝对化表达。这反映出一个关键需求：风控审核不仅要识别"什么不行"，更要提供"怎样表达更好"的建设性方案。

在商业化生态安全场景下，商业化风控围绕自建风控明镜大模型BLM，依据业务所需构建了系列大模型。专门用于修复素材的就是其中的BLM-AhaEdit，这个名字取自"Aha Moment"------期望每一次修复，都不只是简单的合规通过，而是一个能激发灵感、实现"点石成金"的"顿悟时刻"。

图1 快手商业化风控明镜系列大模型

二、从"发现问题"到"解决问题"的技术突围

面对这些挑战，我们决心让AI学会的不仅是识别风险，更是修复风险。这条技术突围之路并不平坦。

首先，通用大模型在广告修复上表现不佳：

风格保持性差：修改后的字体影响观感，画面失去原意
缺乏全局观：遮挡一个Logo时，会忽略背景透视关系，留下生硬"补丁"
多对象协同难：修复多个关联元素时，容易出现逻辑断裂
可控性挑战：生成式模型的随机性导致修复结果时好时坏，这在商业化广告场景中是致命的。

在这些问题的背后，隐藏着一个关键的因素：编辑模型难以将编辑指令与编辑区域精细匹配，导致模型出现幻觉，生成偏离指令甚至违反物理规律的结果。

图2 闭环修复系统流程图

为此，我们为AhaEdit设计了一套独特的技术路径："分层解构、精准定位、定向生成"，构建了"审核-定位-修复-再审核"的闭环修复系统。在这个系统中，我们聚焦两项核心能力："风险定位"和"AI修复"，不仅告诉模型怎么改，还要让模型知道改哪里，为什么改。

2.1 风险定位：AhaEdit的"火眼金睛"

在数字广告的浩瀚海洋中，精准识别风险是AI修复的第一步。AhaEdit的风险定位模型，就如同为系统装上了一双"火眼金睛"------它不仅要找到违规的"病灶"，更要精准诊断其"病因"。

多模态精准打击：从"看到"到"看懂"

我们为不同形态的素材，设定了统一的精准定位范式：

文字素材：直接定位到违规的具体词汇或片段，并阐明其触发的审核条款。
图像素材：以包围框圈定违规区域，并解释其违反的具体规则。
视频素材：精确到违规内容出现的起止时间戳，实现对动态内容的帧级管控。

这些信息共同为后续的修复模型绘制出一张清晰的"手术导航图"，指明了不仅是"改哪里"，更是"为什么改"的核心方向。

图3 风险定位流程图

架构革新："识别+定位"的一体化作战

传统的风险定位流程如同一个松散的"流水线"：先识别风险类型，再根据类型去定位风险区域。这种两阶段模式存在天然的"阿喀琉斯之踵"------误差累积。前序的识别误差会直接传递给后续定位，导致"失之毫厘，谬以千里"。

为从根本上解决这一问题，我们摒弃了传统架构，训练了一个"识别与定位一体化"的端到端模型。主要包含两个核心环节：即CoT SFT和RL环节，将风控审核规则与大模型深度融合，完成风险定位能力建设。

图4 识别&定位一体化模型

将风险识别和风险定位两个任务深度融合，实现了两大核心优势：

误差最小化：一体化建模消除了阶段间的误差传递，显著提升了定位精度。
任务协同化：识别与定位过程相辅相成。模型在识别"是什么"风险时，对场景的深度理解会反向增强其"在哪里"的定位能力，形成了"1+1 > 2"的协同效应。

这双经过架构革新锤炼的"火眼金睛"，让AhaEdit能够在亿级创意中，瞬间锁定毫厘之间的风险，为后续的精准修复奠定了无可撼动的坚实基础。

2.2 AI修复：兼具外科医生的精准与艺术家的美感

当风险被精准定位后，系统便进入了最具挑战性的环节------修复。这不仅需要外科手术般的精准，更要求艺术家般的审美，以确保修复后的内容"天衣无缝"。我们为此构建了一套"理解-生成"协同的AI修复流程。

图5 AI修复流程图

理解环节：基于大模型的编辑决策

面对一个违规元素，首要问题是确定"如何修"。是直接删除，还是寻找合规的词汇或视觉元素进行替换？甚至是调整人物姿态以符合规范？

我们引入VLM大模型作为系统的"策略大脑"，它能根据风险定位信息进行深度语义推理，生成最优的编辑方案，告诉模型"怎么改"。

生成环节：数据与算法双轮驱动的专有模型

明确的指令需要卓越的"执行者"。我们并未使用通用模型，而是专门为商业化广告场景，从数据与模型两方面入手，训练了一个专业的AIGC编辑模型。

数据基石：构建行业领先的广告修复"教科书"

高质量的训练数据是模型的基石。由于广告素材的多样性与复杂性，我们设计了一套 "预处理-生成-后处理" 的数据自动化生成链路，系统性地构建了百万量级的商业化场景数据集，覆盖文本、图像、视频模态，基本囊括了所有常见广告场景，其中图像和视频数据生成链路如图6所示。

图6 图像和视频数据生成链路

模型炼金术：基于DiT架构的精细化训练

我们采用DiT架构作为模型主干，并通过LoRA微调等技术大幅降低训练成本。为了让模型精准理解"怎么改"、"改哪里"和"为什么改"，我们将编辑指令与风险定位信息作为控制条件输入。

训练采用由粗到精的两阶段策略：

阶段一：大规模能力奠基。我们以文生图/视频模型为基座，结合开源与广告数据，使用千万级数据进行预训练，让模型广泛掌握各种编辑技能。
阶段二：商业化场景精修。本阶段仅使用高价值的广告场景数据微调，并将编辑指令和风险定位信息融入提示词，使模型能精确定位风险区域并理解违规原因，最终确保编辑结果在视觉、语义与合规性上都达到高标准。

通过这套"策略大脑"与"专业巧手"的协同，AhaEdit的修复不再是简单的涂抹，而是基于深度理解的智能再创造，真正实现了从感知到执行的无缝闭环。

图7 AIGC编辑模型

三、"一键过审"正在成为现实

如今的AhaEdit已经能够支持多种模态的素材修复：

文本编辑：精准删除或替换违规词汇
图像编辑：文字擦除、物体擦除/替换、人体表情/姿态调整、背景替换
视频编辑：擦除/替换违规元素

这意味着，那些曾经需要数小时甚至数天的修改流程，现在可以在几分钟内完成。"一键过审"从一个美好愿景，正在变成可衡量的技术指标。让我们一起来看看AhaEdit的"魔法"。

3.1 文本编辑--文本删除/替换

编辑方法

编辑前

编辑后

文本删除

然后还有一个这个可可咖啡色，还有个咖啡色，然后最推荐卖的最好的颜色就这个驼色，这个驼色真的好看

然后还有一个这个可可咖啡色，还有个咖啡色，还有这个驼色真的好看

文本替换

然后还有一个这个可可咖啡色，还有个咖啡色，最推荐卖的最好的颜色就这个驼色，这个驼色真的好看

然后还有一个这个可可咖啡色，还有个咖啡色，推荐一款很受欢迎的颜色是驼色，这个驼色真的好看

3.2 图像编辑--文字擦除

prompt：擦除图像中的标语和符号

编辑前

编辑后

3.3 图像编辑--物体擦除/替换

prompt：擦除画面中红色灯笼

编辑前

编辑后

prompt：将陶瓷杯替换成盛着水的透明玻璃杯

编辑前

编辑后

3.4 图像编辑--人体表情/姿态调整

prompt：将画面中人物表情修改成微笑

编辑前

编辑后

prompt：将画面中人物头部姿态修改成朝前看

编辑前

编辑后

3.5 图像编辑--背景替换

prompt：将画面背景替换成黄土地背景

编辑前

编辑后

3.6 视频编辑--字幕擦除

prompt：擦除视频下方的字幕

编辑前

编辑后

3.7 视频编辑--物体擦除

prompt：将视频中的猫擦除

编辑前

编辑后

3.8 视频编辑--物体替换

prompt：将视频中的黑色越野车替换成轿车

编辑前

编辑后

四、迈向新范式：内容理解与内容生成的统一

AIGC技术正朝着更高效、更轻量的方向演进。在这个背景下，风控审核正在经历一场深刻的范式变革。通过建设AhaEdit，我们不再止步于过去单一的内容理解，而是构建了内容理解与生成的统一能力，即在识别风险的同时，提供智能化的修复方案。这一转变尤其对中小自助客户意义重大：有效解决了广告主不理解审核规则、难以精准定位问题的痛点，助力广告主长效经营。

面向未来，我们的目标是构建下一代智能编辑架构：将内容的理解、定位与编辑能力深度融合于单一模型，从根本上实现从感知到生成的统一。为此，我们将聚焦四大技术攻坚：生成过程的可控编辑、跨模态内容的高一致性、实时的人机交互体验，以及多模态的协同编辑。特别是在充满挑战的视频领域，我们致力于攻克时序和空间一致性的核心难题，打造真正高效、轻量的长视频编辑解决方案。

让创作更自由，让表达更安全。这不只是目标，更是我们的使命------颠覆性内容审核创新，理解+生成统一范式，助力商家持续经营。