51c视觉~合集55

我自己的原文哦~ https://blog.51cto.com/whaosoft143/14351959

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#Anomagic

华中科大×湖大×清华联合提出Anomagic:实现跨模态提示驱动的零样本异常生成

Anomagic用跨模态提示编码+对比掩码细化,把文本/图像提示直接变成逼真实异常与像素级掩码,无需微调即可在工业、医疗、消费等场景零样本生成缺陷,显著拉升下游检测上限。

Anomagic:跨模态提示驱动的零样本异常生成,为多领域缺陷检测注入新动能

论文名称: Anomagic: Crossmodal Prompt-driven Zero-shot Anomaly Generation

作者: Yuxin Jiang、Wei Luo、Hui Zhang、Qiyu Chen、Haiming Yao、Weiming Shen、Yunkang Cao

机构: 华中科技大学、湖南大学、清华大学、中国科学院自动化研究所

论文地址 :​​https://arxiv.org/abs/2511.10020v1​

代码仓库 :​​https://github.com/yuxin-jiang/Anomagic​

数据集仓库

​https://huggingface.co/datasets/yuxinjiang11/AnomVerse​

HuggingFace 在线演示

​https://huggingface.co/spaces/yuxinjiang11/Anomagic​

试想一下,在工业质检、医疗影像诊断、日常物品瑕疵识别等场景中,无需任何示例缺陷样本,也无需针对特定领域微调模型,就能根据文字或图像提示,自动生成真实且符合语义的异常,还能精准输出缺陷掩码,大幅提升下游异常检测模型的性能。这曾经是多领域异常生成的难题,而华中科技大学等机构联合提出的Anomagic技术,让这一设想成为了现实。

在工业制造、医疗影像、消费品检测等领域,异常检测是保障产品质量和诊断准确性的关键,但稀缺的异常样本一直是制约相关技术发展的核心瓶颈。此前的异常生成方法,要么依赖少量标注缺陷样本,只能生成已知类型的异常,无法适配新的缺陷类别;要么生成的异常真实性不足、掩码精度低,且难以跨领域复用。Anomagic的出现,构建了"跨模态提示编码-掩码精准细化-大规模数据集支撑"的完整技术框架,实现了零样本、多领域的高质量异常生成,为通用异常生成基础模型的发展奠定了基础。

01 整体技术框架

Anomagic的核心目标是实现零样本跨领域异常生成,其整体技术框架可分为三大核心模块,形成"数据支撑-模型生成-效果优化"的闭环,具体如下:

  1. 基础数据层:构建大规模、多领域的"异常-掩码-描述"三元组数据集AnomVerse,为模型训练提供充足且规范的语义与视觉数据;
  2. 核心生成层:基于潜扩散模型(LDM),结合LoRA轻量化微调,通过跨模态提示编码(CPE)融合文本与视觉语义,引导模型在指定区域生成符合提示的异常;
  3. 效果优化层:引入对比异常掩码细化策略,实现生成异常与掩码的像素级对齐,提升生成数据对下游检测任务的实用性。

整个框架在训练阶段完成跨模态语义理解与生成能力的学习,在推理阶段可直接接收用户自定义的文本/视觉提示,无需领域微调即可在不同场景下完成零样本异常生成。

02 核心创新技术点

为攻克零样本异常生成的模态局限与数据瓶颈,Anomagic在三大核心模块上实现了关键技术突破:

2.1 跨模态提示编码(CPE):解锁多模态精准语义控制

Anomagic创新性地融合视觉和文本双重语义,解决了单一模态提示语义可控性不足的问题,实现对异常生成的精细化引导。

  • 区域聚焦的视觉引导:预训练CLIP提取异常特征,结合区域聚焦注意力机制(通过掩码弱化正常区域权重),精确捕捉裂纹、污渍或肿瘤等形态细节。
  • 细粒度文本语义编码:针对长描述,采用分层编码策略,突破CLIP 77-token限制,经均值池化保留完整语义。
  • 跨模态特征融合:通过模态专属交叉注意力模块,实现视觉缺陷特征与文本语义特征的双向交互,生成统一的跨模态语义特征,作为扩散模型的生成条件,确保生成的异常既匹配视觉形态,又符合文本描述。

2.2 对比异常掩码细化:实现缺陷与掩码精准对齐

此前的异常生成方法常存在"异常与掩码不匹配"的问题(如缺陷超出掩码范围或未填满掩码),严重影响下游检测模型的训练效果。Anomagic引入对比掩码细化策略,通过计算输入正常图像与生成异常图像的像素级差异,结合预训练的MetaUAS模型,自动生成高精度缺陷掩码,实现异常区域与掩码的像素级对齐,大幅提升生成数据的实用性。

2.3 AnomVerse数据集:填补多领域大规模异常数据空白

为解决高质量异常数据匮乏的问题,研究团队构建了AnomVerse数据集,这是目前规模最大的多领域"异常-掩码-描述"三元组数据集。

其数据构建管线如下:先收集13个公开数据集的异常图像和掩码,再利用多模态大语言模型,结合缺陷区域最小边界框和结构化模板("图像展示了[物体描述],在[位置]存在[缺陷类型],该缺陷具有[细节特征]"),自动生成精准的缺陷描述,确保数据的语义一致性。

AnomVerse包含12,987个三元组样本,覆盖工业、纺织、消费品、医疗、电子五大领域的131种缺陷类型,远超此前的MMAD数据集(仅8,366个样本),为零样本、跨领域异常生成模型的训练提供了充足且多样的数据支撑。

03 技术流程:提示引导的修复式生成

Anomagic基于潜扩散模型(LDM)实现异常生成,整体流程分为训练和推理两个阶段:

3.1 训练阶段

从AnomVerse中采样"异常-掩码-描述"三元组,通过跨模态提示编码生成统一语义特征;将异常掩码膨胀得到修复掩码,对参考异常图像进行掩码处理后输入模型;利用修复式扩散损失,仅微调模型的交叉注意力层,让模型学会在掩码区域生成符合跨模态提示的异常。

3.2 推理阶段

用户输入自定义文本/视觉提示后,模型先通过多模态大语言模型从AnomVerse中检索匹配提示,生成跨模态语义特征;随机采样粗糙掩码后,在目标正常图像的掩码区域生成异常,最后通过对比掩码细化模块得到高精度缺陷掩码,完成零样本异常生成。

04 实验效果:多领域零样本生成能力的双重突破

大量实验证明,Anomagic在异常生成质量、下游检测性能上均远超现有方法,且可在工业、医疗、日常生活等多领域实现零样本异常生成,展现出卓越的泛化能力。

4.1 异常生成质量领先

在VisA工业数据集测试中,Anomagic的Inception Score(IS,衡量生成真实性)均值达2.16,Intra-cluster LPIPS距离(IL,衡量生成多样性)均值为0.39,全面超越DRAEM、RealNet等零样本方法,甚至优于依赖真实缺陷样本的少样本方法AnoGen。

从定性效果看,Anomagic生成的异常视觉逼真,且能实现缺陷与掩码的精准对齐,而传统方法要么异常失真,要么掩码粗糙。

4.2 下游检测性能显著提升

将Anomagic生成的异常样本用于增强INP-Former++检测模型后,模型在VisA数据集上的图像级F1分数达96.77%、像素级PRO指标达95.92%、像素级F1分数达54.00%,均超过AnoGen等方法增强后的模型,证明了生成数据的高实用性。

4.3 多领域零样本生成能力突出

Anomagic无需针对特定领域微调,即可根据用户提示在工业、医疗、日常生活等场景生成高保真异常:

  • 工业领域:可生成PCB板短路、药片破损、金属零件裂纹等缺陷,且缺陷与掩码精准匹配;
  • 医疗领域:可生成脑部MRI肿瘤、视网膜OCT病灶等异常,且保留医学影像的解剖学保真度;
  • 日常生活场景:可生成水果磕碰、手机屏幕划痕等日常瑕疵,满足消费品检测需求。

05 结论

Anomagic构建了跨模态提示驱动的零样本异常生成基础框架,通过跨模态提示编码、对比掩码细化和AnomVerse数据集三大核心创新,打破了传统异常生成的模态局限与领域壁垒。该模型无需针对特定领域微调训练,即可根据用户自定义的文本或视觉提示,在工业、医疗、日常生活等多领域实现高质量、高精准度的异常生成,是一个可适配多样化用户提示的通用异常生成基础框架。想要快速搭建多领域缺陷生成系统,不妨试试Anomagic的开源代码,或许能为你的检测方案带来颠覆性提升!

最后,感谢阅读以及欢迎使用我们的代码

....

#LoVoRA

纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

LoVoRA首次用可学习Diffusion Mask Predictor把文本语义映射为时变软掩码,无需掩码或参考帧即可完成视频对象的移除/添加,在DAVIS与自建Bench上同时拿下最高文本对齐度与时序一致性。

近年来,基于扩散的视频生成模型的最新进展极大地提高了视频编辑的真实感和可控性。然而,文字驱动的视频对象移除添加依然面临巨大挑战:

不仅需要精准定位目标对象,还要同时保持背景连续性、时序一致性以及语义匹配。

现有大多数方法在推理时必须依赖用户提供的掩码或参考帧来确定编辑区域,这不仅增加了使用门槛,也限制了模型在真实场景中的实用性和泛化能力。

为了解决上述难题,清华&华为&中科大团队提出LoVoRA(Learnable Object-aware Localization for Video Object Removal and Addition)------一个真正意义上文本驱动、无需掩码和参考帧的视频对象移除与添加框架。

论文地址 :​​https://arxiv.org/abs/2512.02933​

项目地址:​https://github.com/cz-5f/LoVoRA.github.io​

数据集:​https://huggingface.co/datasets/cz-5f/LoVoRA​

LoVoRA 能够仅凭文本提示精准定位编辑区域,并进行时序一致、背景自然的视频编辑,无需任何人工掩码或外部控制信号。大量实验和用户评测表明,LoVoRA 在编辑质量、背景一致性、时序稳定性等指标上均优于现有基线方法。

01 数据集构建

现有的基于指令的视频编辑数据集,例如InsViE, Ditto, Senoritia, ICVE-SFT等,具有显著先进的文本引导视频操作。

然而,它们仍然存在一些局限性:低空间和时间分辨率;由逐帧生成引起的背景不一致;以及对象添加和移除场景的覆盖范围有限。

为了克服这些问题,团队构建了一个高质量的数据集,专门用于视频中的对象级添加和擦除,这是框架的基础。数据集建立在高保真图像编辑数据集NHR-Edit上,并通过多级pipeline合成为时间一致的视频编辑序列。

与之前的工作相比,数据集提供了更好的背景一致性,准确的对象级时空掩码,与编辑语义一致的鲁棒文本指令。此外,它还提供密集的运动掩码监督,使LoVoRA中的目标感知编辑定位能够进行训练和评估。

给定一对高质量的图像编辑三元组Is, It, p(源图像、目标图像与编辑指令),通过一个统一的多阶段合成流水线将其转化为具有时空监督的视频编辑对Vs, Vt:

a. 使用基于文本的图像到视频生成器(Wan2.2)在保持场景布局与背景一致性的前提下,将单帧图像扩展为时间上连贯的源视频Vs,其中场景描述pscene由InternVL3提取以确保文本与视觉语义的初步对齐;

b. 随后针对编辑指令在源/目标图像的首帧上进行对象定位:通过Grounding-DINO获取目标边界框并调用 SAM2 提取高质量二值分割掩码,经过形态学平滑得到初始掩码M1。

c. 为将该静态掩码扩展为全视频的时序掩码流,采用GMFlow估计源视频的稠密光流并对掩码进行反向光流拼接与传播,同时引入双向流一致性检测以处理遮挡与位移误差,从而得到平滑且与运动相符的掩码序列{Mt}Tt=1。

d. 最后,基于得到的掩码流、源视频以及文本指令,用VACE进行视频内填充生成编辑后视频Vt,该步骤既保证了被编辑区域的语义变化(对象移除或插入),又维护了背景与运动的全局一致性。

为保证语义与质量的稳定性,整个流水线还通过InternVL3自动生成并校验文本指令,对生成样本应用面积与运动幅度阈值筛选(即保证掩码面积与视频运动量落在合理区间)以剔除弱信号样本。

最终构建的数据集包含每对Vs, Vt, p所需的全部信息:时序掩码、像素级光流以及语义对齐的指令文本,这些密集的时空与语义监督为训练 LoVoRA 的可学习定位与编辑模块提供了关键支持。

02 模型

LoVoRA 的核心思想,是在一个统一的端到端框架中,通过文本即可完成视频中对象的移除与添加,而不依赖任何推理阶段的掩码、参考帧或手工控制信号。

为实现这一点,团队构建了一个基于时空VAE与3D DiT的视频编辑架构:模型首先将输入视频编码到潜空间,通过通道拼接方式同时接收原视频的潜变量与噪声潜变量,再由3D DiT在文本指令的跨模态引导下逐步对潜空间进行结构化重建,从而生成与语义一致、运动自然的编辑后视频。

这一架构能够同时建模空间细节、时间一致性与文本语义,使LoVoRA可以在复杂场景中保持背景结构和时序连贯性。

仅靠文本并不足以让模型可靠地决定"应该在哪里编辑",因此进一步提出了一个轻量的可学习对象定位机制Diffusion Mask Predictor(DMP)。

该模块从DiT的中间特征中学习预测一个随时间变化的软掩码,用于表示哪些区域与当前编辑最相关。通过在训练过程中结合数据集中提供的时序掩码监督,DMP逐渐学会将模型的编辑能力集中到目标对象上,而在推理阶段无需任何显式掩码即可实现自动定位。这一机制有效避免了传统方法的过度编辑或漏编辑问题,显著提升了空间精度与时序稳定性。

在两者结合下,LoVoRA实现了真正意义上的文本驱动、完全mask-free的视频对象编辑。基础架构保证了整体视频的自然性与一致性,而可学习的对象定位使模型能够精准理解文本语义并聚焦于关键区域,从而在对象移除与添加两类任务中,都能生成高质量、语义一致、时序稳定的视频结果。

03 实验与分析

定量分析: 在DAVIS与LoVoRA-Bench的综合测试中,LoVoRA在文本对齐度、视频质量与VLM评估(包括Prompt Following与Edit Quality)等关键指标上全面领先主流视频编辑方法。

无论是对象移除还是对象添加任务,LoVoRA都在大多数指标上取得最佳或次优结果,体现出在语义一致性、对象级操作精度、背景稳定性与运动连续性上的显著优势。

与Ditto等注重外观增强但容易牺牲局部准确性的模型不同,LoVoRA在保持整体画面美观的同时,显著提升了编辑的可控性;而相比依赖参照帧的Senorita,LoVoRA在无辅助输入条件下仍展现出高度竞争力,证明了可学习定位机制的有效性。总体来看,各项定量指标验证了LoVoRA在文本理解、定位精度与编辑质量上的强综合表现。

定性分析: 从可视化结果中可以观察到LoVoRA在复杂场景下对对象的精准定位与自然编辑能力。对于移除任务,LoVoRA能够干净地擦除目标对象,几乎不留残影或结构性破坏,同时完整保留原有的纹理、光照与背景几何;

对于添加任务,插入的对象在颜色、光影、透视关系与运动轨迹上都能与环境无缝融合,甚至在遮挡关系、快速运动等困难场景中也保持稳定。而多种基线方法常出现模糊边界、背景扭曲、时序跳变或编辑区域偏移等问题------这些在 LoVoRA 中均得到改善,展现出更高的真实感与一致性。

04 结语

LoVoRA提供了一种面向未来的视频编辑范式:无需任何手工掩码,仅凭一句自然语言即可驱动对象级别的准确、自然且时序一致的视频修改。

结合新构建的数据集与可学习的对象定位策略,LoVoRA 在语义理解、空间精度与时间稳定性上均取得了领先表现,全面超越现有的指令式视频编辑模型。

研究表明,让模型在训练阶段学习"隐式定位"是实现通用、高可控、可扩展视频编辑的有效途径,也为后续面向开放世界的视频编辑与创作工具奠定了基础。

....

相关推荐
AI营销快线2 小时前
2025年AI营销内容生产革命:成本减半,效率倍增的关键
人工智能
正在走向自律2 小时前
AiOnly平台x FastGPT:一键调用Gemini 3 Pro系列模型从零构建AI工作流
大数据·数据库·人工智能·aionly·nano banana pro·gemini 3 pro
沃斯堡&蓝鸟2 小时前
DAY22 推断聚类后簇的类型
人工智能·机器学习·聚类
老蒋新思维2 小时前
创客匠人 2025 万人峰会实录:AI 智能体重构创始人 IP 变现逻辑 —— 从 0 到年入千万的实战路径
大数据·网络·人工智能·tcp/ip·创始人ip·创客匠人·知识变现
这张生成的图像能检测吗2 小时前
(论文速读)MoE-Adapters++: 过动态混合专家适配器实现更有效的视觉语言模型的持续学习
人工智能·自然语言处理·视觉语言模型·持续学习
数字冰雹2 小时前
数字孪生如何重塑数据中心运维新范式
大数据·人工智能
handuoduo12342 小时前
SITAN中avp必要性分析
人工智能·算法·机器学习
zl_vslam2 小时前
SLAM中的非线性优-3D图优化之相对位姿Between Factor右扰动(八)
人工智能·算法·计算机视觉·3d
TextIn智能文档云平台2 小时前
从散乱资料到智能知识库:基于TextIn与Coze的RAG实战
人工智能·pdf·知识库·rag·coze·文档解析