零、引言
一条保健品广告在系统里亮起了红灯。
视频里,一位精神矍铄的老人正在分享体验。画面看似阳光健康,但我们的风险定位模型精准捕捉到了违规点------那句"喝了能够清宿便,相当于给肠道做SPA"的文案,涉及到医疗保健功效问题。
按照传统流程,这条广告将被驳回,客户需要根据政策修改创意,然后重新提交。这个过程往往伴随着不确定性:哪里违规?怎么改才能通过?多次往返沟通也会影响投放效率。
但这一次,AhaEdit让流程变得不同。系统在识别风险的同时,已自动生成合规版本,将违规文案替换为"缓解肠道压力"。从风险定位到合规优化一步到位,客户可直接使用的修改后的素材进行持续投放。在快手商业化风控平台,我们每天审核数亿创意。面对海量且复杂的广告内容,如何在保障合规的同时,让创作者清晰知"怎样才能过审"------这就是AhaEdit致力解决的核心问题。
一、困在"猜谜游戏"里的创意人
"素材又被拒了,到底哪里不行?" 这可能是广告创作者最头疼的问题。现在的审核系统就像一个"信息黑洞"------你知道有问题,却不知道问题在哪,只能凭经验试错。"如果能直接告诉我是哪一帧、哪句文案有问题就好了。"这是许多创作者的心声。特别是对于时效性强的营销活动,快速定位问题、高效完成修改,能够有效提升投放效率。
商业化广告审核的特殊性在于:既要保障合规"安全",也要实现营销"效果"。通用审核规则侧重风险规避,但优质的商业表达需要在合规基础上充分释放传播价值。比如,将违规的"第一"简单替换成"最佳",虽然规避了排名类用词,但"最佳"本身仍可能被判定为绝对化表达。这反映出一个关键需求:风控审核不仅要识别"什么不行",更要提供"怎样表达更好"的建设性方案。
在商业化生态安全场景下,商业化风控围绕自建风控明镜大模型BLM,依据业务所需构建了系列大模型。专门用于修复素材的就是其中的BLM-AhaEdit,这个名字取自"Aha Moment"------期望每一次修复,都不只是简单的合规通过,而是一个能激发灵感、实现"点石成金"的"顿悟时刻"。

图1 快手商业化风控明镜系列大模型
二、从"发现问题"到"解决问题"的技术突围
面对这些挑战,我们决心让AI学会的不仅是识别风险,更是修复风险。这条技术突围之路并不平坦。
首先,通用大模型在广告修复上表现不佳:
-
风格保持性差:修改后的字体影响观感,画面失去原意
-
缺乏全局观:遮挡一个Logo时,会忽略背景透视关系,留下生硬"补丁"
-
多对象协同难:修复多个关联元素时,容易出现逻辑断裂
-
可控性挑战:生成式模型的随机性导致修复结果时好时坏,这在商业化广告场景中是致命的。
在这些问题的背后,隐藏着一个关键的因素:编辑模型难以将编辑指令与编辑区域精细匹配,导致模型出现幻觉,生成偏离指令甚至违反物理规律的结果。

图2 闭环修复系统流程图
为此,我们为AhaEdit设计了一套独特的技术路径:"分层解构、精准定位、定向生成",构建了"审核-定位-修复-再审核"的闭环修复系统。在这个系统中,我们聚焦两项核心能力:"风险定位"和"AI修复",不仅告诉模型怎么改,还要让模型知道改哪里,为什么改。
2.1 风险定位:AhaEdit的"火眼金睛"
在数字广告的浩瀚海洋中,精准识别风险是AI修复的第一步。AhaEdit的风险定位模型,就如同为系统装上了一双"火眼金睛"------它不仅要找到违规的"病灶",更要精准诊断其"病因"。
多模态精准打击:从"看到"到"看懂"
我们为不同形态的素材,设定了统一的精准定位范式:
-
文字素材:直接定位到违规的具体词汇或片段,并阐明其触发的审核条款。
-
图像素材:以包围框圈定违规区域,并解释其违反的具体规则。
-
视频素材:精确到违规内容出现的起止时间戳,实现对动态内容的帧级管控。
这些信息共同为后续的修复模型绘制出一张清晰的"手术导航图",指明了不仅是"改哪里",更是"为什么改"的核心方向。

图3 风险定位流程图
架构革新:"识别+定位"的一体化作战
传统的风险定位流程如同一个松散的"流水线":先识别风险类型,再根据类型去定位风险区域。这种两阶段模式存在天然的"阿喀琉斯之踵"------误差累积。前序的识别误差会直接传递给后续定位,导致"失之毫厘,谬以千里"。
为从根本上解决这一问题,我们摒弃了传统架构,训练了一个"识别与定位一体化"的端到端模型。主要包含两个核心环节:即CoT SFT和RL环节,将风控审核规则与大模型深度融合,完成风险定位能力建设。

图4 识别&定位一体化模型
将风险识别和风险定位两个任务深度融合,实现了两大核心优势:
-
误差最小化:一体化建模消除了阶段间的误差传递,显著提升了定位精度。
-
任务协同化:识别与定位过程相辅相成。模型在识别"是什么"风险时,对场景的深度理解会反向增强其"在哪里"的定位能力,形成了"1+1 > 2"的协同效应。
这双经过架构革新锤炼的"火眼金睛",让AhaEdit能够在亿级创意中,瞬间锁定毫厘之间的风险,为后续的精准修复奠定了无可撼动的坚实基础。
2.2 AI修复:兼具外科医生的精准与艺术家的美感
当风险被精准定位后,系统便进入了最具挑战性的环节------修复。这不仅需要外科手术般的精准,更要求艺术家般的审美,以确保修复后的内容"天衣无缝"。我们为此构建了一套"理解-生成"协同的AI修复流程。

图5 AI修复流程图
理解环节:基于大模型的编辑决策
面对一个违规元素,首要问题是确定"如何修"。是直接删除,还是寻找合规的词汇或视觉元素进行替换?甚至是调整人物姿态以符合规范?
我们引入VLM大模型作为系统的"策略大脑",它能根据风险定位信息进行深度语义推理,生成最优的编辑方案,告诉模型"怎么改"。
生成环节:数据与算法双轮驱动的专有模型
明确的指令需要卓越的"执行者"。我们并未使用通用模型,而是专门为商业化广告场景,从数据与模型两方面入手,训练了一个专业的AIGC编辑模型。
- 数据基石:构建行业领先的广告修复"教科书"
高质量的训练数据是模型的基石。由于广告素材的多样性与复杂性,我们设计了一套 "预处理-生成-后处理" 的数据自动化生成链路,系统性地构建了百万量级的商业化场景数据集,覆盖文本、图像、视频模态,基本囊括了所有常见广告场景,其中图像和视频数据生成链路如图6所示。

图6 图像和视频数据生成链路
- 模型炼金术:基于DiT架构的精细化训练
我们采用DiT架构作为模型主干,并通过LoRA微调等技术大幅降低训练成本。为了让模型精准理解"怎么改"、"改哪里"和"为什么改",我们将编辑指令与风险定位信息作为控制条件输入。
训练采用由粗到精的两阶段策略:
-
阶段一:大规模能力奠基。我们以文生图/视频模型为基座,结合开源与广告数据,使用千万级数据进行预训练,让模型广泛掌握各种编辑技能。
-
阶段二:商业化场景精修。本阶段仅使用高价值的广告场景数据微调,并将编辑指令和风险定位信息融入提示词,使模型能精确定位风险区域并理解违规原因,最终确保编辑结果在视觉、语义与合规性上都达到高标准。
通过这套"策略大脑"与"专业巧手"的协同,AhaEdit的修复不再是简单的涂抹,而是基于深度理解的智能再创造,真正实现了从感知到执行的无缝闭环。

图7 AIGC编辑模型
三、"一键过审"正在成为现实
如今的AhaEdit已经能够支持多种模态的素材修复:
-
文本编辑:精准删除或替换违规词汇
-
图像编辑:文字擦除、物体擦除/替换、人体表情/姿态调整、背景替换
-
视频编辑:擦除/替换违规元素
这意味着,那些曾经需要数小时甚至数天的修改流程,现在可以在几分钟内完成。"一键过审"从一个美好愿景,正在变成可衡量的技术指标。让我们一起来看看AhaEdit的"魔法"。
3.1 文本编辑--文本删除/替换
编辑方法
编辑前
编辑后
文本删除
然后还有一个这个可可咖啡色,还有个咖啡色,然后最推荐卖的最好的颜色就这个驼色,这个驼色真的好看
然后还有一个这个可可咖啡色,还有个咖啡色,还有这个驼色真的好看
文本替换
然后还有一个这个可可咖啡色,还有个咖啡色,最推荐卖的最好的颜色就这个驼色,这个驼色真的好看
然后还有一个这个可可咖啡色,还有个咖啡色,推荐一款很受欢迎的颜色是驼色,这个驼色真的好看
3.2 图像编辑--文字擦除
prompt:擦除图像中的标语和符号
编辑前
编辑后


3.3 图像编辑--物体擦除/替换
prompt:擦除画面中红色灯笼
编辑前
编辑后


prompt:将陶瓷杯替换成盛着水的透明玻璃杯
编辑前
编辑后


3.4 图像编辑--人体表情/姿态调整
prompt:将画面中人物表情修改成微笑
编辑前
编辑后


prompt:将画面中人物头部姿态修改成朝前看
编辑前
编辑后


3.5 图像编辑--背景替换
prompt:将画面背景替换成黄土地背景
编辑前
编辑后


3.6 视频编辑--字幕擦除
prompt:擦除视频下方的字幕
编辑前
编辑后

3.7 视频编辑--物体擦除
prompt:将视频中的猫擦除
编辑前
编辑后

3.8 视频编辑--物体替换
prompt:将视频中的黑色越野车替换成轿车
编辑前
编辑后

四、迈向新范式:内容理解与内容生成的统一

AIGC技术正朝着更高效、更轻量的方向演进。在这个背景下,风控审核正在经历一场深刻的范式变革。通过建设AhaEdit,我们不再止步于过去单一的内容理解,而是构建了内容理解与生成的统一能力,即在识别风险的同时,提供智能化的修复方案。这一转变尤其对中小自助客户意义重大:有效解决了广告主不理解审核规则、难以精准定位问题的痛点,助力广告主长效经营。
面向未来,我们的目标是构建下一代智能编辑架构:将内容的理解、定位与编辑能力深度融合于单一模型,从根本上实现从感知到生成的统一。为此,我们将聚焦四大技术攻坚:生成过程的可控编辑、跨模态内容的高一致性、实时的人机交互体验,以及多模态的协同编辑。特别是在充满挑战的视频领域,我们致力于攻克时序和空间一致性的核心难题,打造真正高效、轻量的长视频编辑解决方案。
让创作更自由,让表达更安全。这不只是目标,更是我们的使命------颠覆性内容审核创新,理解+生成统一范式,助力商家持续经营。