影楼精修-智能修图Agent

今天给大家介绍一篇令人惊喜的论文《JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent》

Code（暂无代码）：https://github.com/LYL1015/JarvisArt

项目主页：https://jarvisart.vercel.app/

国内主页：https://www.jarvisart.site/

这篇论文最大的亮点是给大家介绍了一个智能修图Agent：JarvisArt，它是一种由多模态大型语言模型（MLLM）驱动的智能照片修图代理，旨在通过理解和模仿专业艺术家的推理过程，实现高质量的图像编辑。个人认为这也是修图行业的未来趋势，未来的修图将会是一个基于语音+文字交互的Agent，而这个论文将这个未来变得越来越近。

JarvisArt这个Agent可以实现什么功能？用户如何使用？

答案很简单，用户输入一张图，然后输入修图的简单描述prompt，JarvisArt会使用MLLM对prompt进行分析，比如调色分析，最终得出用户输入图需要进行的调色步骤和指令，这些指令将包含lightroom的各项调色功能参数，将这些指令下发给Lightroom的200+工具，由工具执行对用户原图进行调色，最终得到调色效果图；

项目界面如下图所示：

创新点

这篇论文创新点总结：

多模态大语言模型驱动（MLLM-driven）：
1. 支持图像 + 文本输入；
2. 使用自然语言和区域框等多模态交互方式。
模仿专业修图师的思维过程：
1. 采用 Chain-of-Thought（CoT）训练模型先"思考"如何修图，再给出参数操作。
与 Lightroom 集成：
1. 通过提出 Agent-to-Lightroom (A2L) Protocol，让智能体能调用超过 200 项 Lightroom 操作指令，进行非破坏性编辑。

方案流程

JarvisArt 的总体流程可分为三大模块 + 一条训练主线：

输入：用户图像、自然语言指令、可选区域框或笔刷标记；
模型通过图像 + 文本联合理解，明确目标风格、区域及期望效果；
示例指令："请使眼睛更亮，在框 <box>[x1,y1,x2,y2]</box> 内增强发质"。

2.策略推理与参数规划（Strategic Reasoning）

使用 Chain-of-Thought 思维链结构：
- <think> 标签内写出模型的修图思路，如先调色温再调整曝光等；
生成的 reasoning 过程符合摄影美学和人类逻辑。

3.工具编排与操作执行（Tool Orchestration）

将上述思路转化为 Lightroom 的操作指令：
- <answer> 标签内为一组 Lightroom 参数配置（称为 ROC 文件）；
- 支持多种类型的局部蒙版（径向、线性、人物、颜色等）；
最终由 JarvisArt 调用 A2L 协议将参数发送给 Lightroom 实际执行。

算法层面上，JarvisArt实现了这样一个函数：

两阶段训练流程（核心算法机制）

Ⅰ. CoT SFT：链式思维的监督微调

基于人工构造的 CoT 注释训练模型建立初步的：
- 指令理解能力；
- 编辑逻辑；
- Lightroom 操作熟练度。

Ⅱ. GRPO-R：基于奖励的强化优化策略

提出新的 Group Relative Policy Optimization for Retouching 方法，结合三类奖励：
- 格式奖励：结构化输出格式是否规范；
- 参数匹配奖励（ROA）：是否选对工具、设置合适参数；
- 感知质量奖励（PQ）：编辑后图片是否视觉美观、保留内容。

MMArt-55K 数据集

论文研究团队构建了MMArt-55K 数据集（5K标准 + 50K思维链样本）。

数据生成管道如下图所示：

图像对和Lightroom配置生成：从PPR10K、Adobe Lightroom社区和授权的开源集合中获取原始图像Isrc，创建多样化的全球和本地艺术预设库。使用Qwen2.5-VL-72B进行多模态角色扮演和Grounding DINO进行精确区域定位，模拟专家级编辑，生成图像对和Lightroom配置ROC文件。每个样本数据表示为<Isrc,Itgt,Q,C,O>,其中Isrc表示原始图像，Itgt表示目标图像，Q是用户指令，C是用标签包装的CoT推理，O是标签内的修图操作配置ROC文件，这些文件是lightroom可执行的操作文件；

该管道按以下步骤进行：1）策划多样化的源目标示例，涵盖不同的场景和风格，以及相应的Lightroom配置；2）生成反映用户意图的自然语言指令；3）生成逐步的推理痕迹。

用户指令生成：为了模拟多样化的编辑意图，使用Qwen2.5-VL-72B和一个角色扮演提示将每个<Isrc,Itgt,O>三元组转换为场景级和区域级指令Q，覆盖简单的全局编辑和精确的局部调整。
推理过程生成：对于每个样本四元组<Isrc,Itgt,Q,O>，应用QVQ-max的先进视觉推理生成初始CoT注释。为了消除冗余并强制人类般的连贯性，随后使用Qwen2.5-VL-72B通过迭代多模态提示细化这些痕迹，产生简洁、上下文丰富的推理过程C。

上面就是这篇文章的介绍，目前代码尚未开源，但论文为我们提供了一套可行的方案思路，修图Agent是未来趋势，以像素蛋糕为例，目前像素蛋糕的各项修图功能已经基本完善，完全可以基于这些功能，构建数据集，进而构建自有的修图Agent，届时将会给修图行业带来新的用户体验！