图像编辑

论文阅读笔记——In-Context EditICEdit 论文阅读笔记指令图像编辑现有方法的局限：将编辑指令嵌入专为语境化编辑设计的生成提示中，构建如下提示模板：“a side-by-side image of the same {subject}: the left depicts the original {description}, while the right mirrors the left but applies {edit instruction}.” 分析 IC 提示下编辑指令对应的注意力图，发现待修改区域呈现更显著的激活值。借

CV-deeplearning

StepX-Edit：一个通用图像编辑框架——论文阅读笔记代码：https://github.com/stepfun-ai/Step1X-Edit 论文：https://arxiv.org/abs/2504.17761 近年来，图像编辑技术发展迅速，GPT- 4o、Gemini2 Flash等前沿多模态模型的推出，展现了图像编辑能力的巨大潜力。这些模型展示了令人印象深刻的适应能力，能够满足绝大多数用户驱动的编辑需求，标志着图像处理领域取得了重大进展。然而，开源算法与这些闭源模型之间仍存在较大差距。为此，我们介绍了一种最先进的图像编辑模型——Step1X-Edi

NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一（昆仑万维等）Accepted by NeurIPS 2024文章链接：https://arxiv.org/pdf/2412.19806 项目链接：https://vitron-llm.github.io/ Github链接：https://github.com/SkyworkAI/Vitron

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了文章链接：https://arxiv.org/pdf/2412.10316 项目链接：https://liyaowei-stu.github.io/project/BrushEdit

阿里云大数据AI技术

【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024近期，阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM（ACM国际多媒体会议）是国际多媒体领域的顶级会议，旨在为研究人员、工程师和行业专家提供一个交流平台，以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。

浅析扩散模型与图像生成【应用篇】(七)——Prompt-to-Prpmpt本文提出一种利用交叉注意力机制实现文本驱动的图像编辑方法，可以对生成图像中的对象进行替换，整体改变图像的风格，或改变某个词对生成图像的影响程度，如下图所示。之前的文本驱动的图像生成方法很难对图像的内容进行精细地编辑，哪怕只改变了一点文本提示的内容都可能让生成的结果发生非常大的改变，而无法保留原有的内容和结构。为了保留图像整体的结构，只对特定目标进行修改，有些方法通过让使用者给出要修改对象的掩码，引导算法只针对掩码的内容进行修改。但这种方式不仅非常麻烦，而且无法对整体风格进行编辑。因此作者希望提出一种

Prompt-to-Prompt：基于 cross-attention 控制的图像编辑技术Hertz A, Mokady R, Tenenbaum J, et al. Prompt-to-prompt image editing with cross attention control[J]. arXiv preprint arXiv:2208.01626, 2022.

【论文阅读笔记】Prompt-to-Prompt Image Editing with Cross-Attention Control方法概述。论文使用了什么方法或技术？方法的创新点是什么？方法的优势和潜在劣势是什么？实施步骤设DM (zt, P, t, s)为扩散过程单步t的计算，输出噪声图像zt−1，注意图Mt(未使用省略)。用 DM (zt, P, t, s){M ← M ^ \hat{M} M^} 表示扩散步骤，我们用一个额外的给定映射 M ^ \hat{M} M^覆盖注意力图 M，但保留来自提供的提示的值 V。还用 M t ∗ M^*_t Mt∗表示使用编辑提示 p ∗ p^* p∗生成的注意图。最后，我们将 Edit( M

【论文阅读笔记】Emu Edit: Precise Image Editing via Recognition and Generation Tasks基于指令的图像编辑需求很大，但是在编辑准确性上还受限。提出了一种多任务图像编辑模型Emu Edit，将多种任务（基于区域的编辑、自由形式的编辑和计算机视觉任务）表述为生成任务，并学习任务嵌入（有点类似unicontrolnet指示不同任务的编码）以指导生成过程走向正确的编辑类型。

招财进宝129

Luminar Neo Mac/Windows中文版：引领AI图像编辑的革命性时代Luminar Neo运用先进的AI技术，能够自动化地完成许多繁琐的编辑任务，如色彩校正、噪点消除、人脸识别等。这不仅大大提高了工作效率，同时也降低了对专业知识和技能的要求。无论你是专业摄影师，还是摄影爱好者，甚至是一个刚刚接触图像编辑的新手，Luminar Neo都能让你轻松地实现你的创意。

革新技术，释放创意：Luminar NeoforMac/win超强AI图像编辑器Luminar Neo，一个全新的AI图像编辑器，正以其强大的功能和独特的创意引领着图像编辑的潮流。借助于最新的AI技术，Luminar Neo为用户提供了无限可能的图像编辑体验，让每一个想法都能被精彩地实现。

StyleCLIP global direction详解基于的假设： CLIP中虽然图像特征与文本特征不存在一一对应的关系，但相同的语义下，图像特征的变化方向与文本特征的变化方向是一致的，如下图右侧的man,woman所示核心观点：可以将stylegan中隐空间的语义变化方向投影至CLIP空间（下图左下角），这样若命令为man->woman,则可以首先计算CLIP中文本特征对应的变化方向 Δ t \Delta t Δt，再计算该 Δ t \Delta t Δt与CLIP中间中所有图像变化方向 Δ i \Delta i Δi的共线程度(即变化方向一致)，取出

Prompt-To-Prompt——仅通过文本进行图像编辑文生图到图像编辑充满挑战，图像编辑需要保留原始图片大部分信息，而对于文生图，只要prompt稍微更改将导致生成完全不同图像。当前SOTA方法用户需要提供编辑位置的mask，忽略mask区域内容。作者探究一种仅通过文本进行编辑的框架，对此对条件文本模型进行深入探究，发现cross-attention层控制图像空间布局与prompt中每个word之间的相关性。作者通过仅编辑纹理prompt进行图像生成，包括：替换单词进行局部编辑、增加明细进行全局编辑、甚至精细化控制哪个单词映射到图像中哪部分。