AutoFigure-Edit: Generating Editable Scientific Illustration——生成可编辑的科学插图

AutoFIGURE-EDIT ，提出了一套端到端的自动化系统，用于从长篇幅科学文本生成完全可编辑的科学插图 ，并支持通过用户提供的参考图像进行风格可控的视觉适配。

一、研究背景与问题

科学插图对于传达复杂概念至关重要，但传统方式耗时且需要专业设计技能。现有自动化方法存在以下局限：

可编辑性差：生成的图形往往是固定的光栅图像，难以修改；
风格控制困难：依赖模糊的提示工程，难以精确实现用户期望的视觉风格；
结构不透明：布局规划与最终渲染紧密耦合，缺乏显式的结构骨架，难以进行细粒度调整。

作者团队的前作 AutoFIGURE 虽能生成高质量插图，但仍存在上述问题。

二、核心贡献

AutoFIGURE-EDIT 在 AutoFIGURE 基础上进行了系统性增强，主要贡献包括：

1. 可编辑 SVG 生成

系统最终输出为结构化的 SVG 文件，每个视觉元素（模块、连接线、文本等）均为独立可编辑对象，支持组件级精细修改。

2. 参考引导风格控制

用户可上传一张参考风格图像，系统自动提取其色彩、排版、图标风格等视觉特征，并迁移至生成结果，避免依赖提示工程。

3. 显式结构解耦

通过五阶段流程将布局规划、实例识别与视觉渲染解耦，允许用户在矢量骨架层面直接调整布局，无需重新执行完整生成流程。

三、技术方法

系统流程分为五个阶段：

风格条件图像合成：使用风格条件的文本到图像模型，生成长文本对应的光栅草稿。
分割与结构索引：通过实例分割将光栅图分解为视觉组件，并用统一色调和唯一标识符构建结构骨架。
资产提取：提取每个组件的透明背景图像资产，将外观与布局解耦。
SVG 模板生成与优化：基于结构骨架生成 SVG 布局模板，并通过视觉-语言模型进行 0-2 轮迭代优化，确保位置与风格一致性。
资产注入：将提取的外观资产注入模板，生成最终可编辑 SVG。

四、评估与结果

1. 定量评估（FigureBench 数据集）

AutoFIGURE-EDIT 在视觉设计、沟通有效性、内容保真度三个维度上均优于现有方法（包括 GPT-Image、Diagram Agent、AutoFIGURE 等）。
参考条件使内容保真度提升，胜率从 76.0% 上升至 83.0%。

2. 用户研究（217 名参与者，262 个评估样本）

在 5 分制下，科学语义正确性（4.04）、信息完整性（4.11）、风格一致性（4.09）等指标均获高分。
48% 的用户为语义正确性打出满分，50% 为风格一致性打出满分。
126 名用户认为生成图形可直接用于学术论文，无需重大修改，体现了系统的高实用价值。

五、应用价值

科研人员：可将长篇幅方法描述快速转化为符合出版标准的插图，显著节省时间。
风格适配：支持同一科学内容快速适配不同会议或实验室的视觉风格。
交互编辑：系统提供嵌入式视觉编辑器，用户可直接在画布上调整组件位置、文本、颜色等。

六、局限性与未来工作

依赖闭源模型：当前依赖 Gemini 和 NanoBanana 等闭源模型，存在成本与可复现性问题。
错误传播：分割阶段的错误可能向下游传递。
评估范围：用户研究聚焦可用性，未来需在更多专业领域进行专家级验证。

AutoFIGURE-EDIT 是一个将科学插图生成从"一次性渲染"转变为"可编辑、可控制"的系统 ，通过结构解耦、参考引导风格化和 SVG 原生编辑，显著提升了科学插图自动生成的实用性、可控性和可编辑性，为科研人员提供了高效、灵活的可视化工具。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

摘要

高质量的 scientific illustrations（科学插图）对于传达复杂的科学和技术概念至关重要，然而现有的自动化系统在可编辑性、风格可控性和效率方面仍然存在局限。我们提出了 AutoFIGURE-EDIT，一个端到端的系统，它能够从长篇幅的科学文本生成完全可编辑的科学插图，同时通过用户提供的参考图像实现灵活的风格适配。通过结合长上下文理解、参考引导风格化和原生 SVG 编辑，它实现了高效创建和优化高质量科学插图。为了促进该领域的进一步发展，我们发布了视频、完整代码库，并提供了一个网站以便于访问和交互式使用。

1 引言

创建高质量的科学插图通常需要研究人员花费数天时间，并且要求同时具备深厚的专业知识和专业级的设计技能 (Huang et al., 2026b)。这需要对长篇幅科学文本（> 10k tokens）进行严谨的、基于逻辑理解的理解，同时视觉渲染必须仔细平衡结构保真度和图像质量，以生成清晰、准确且美观的图形 (Chang et al., 2025; Zhu et al., 2026b)。

关于从长篇幅科学文本自动生成科学插图的研究仍然有限。以代码为中间方法 (Belouadi et al., 2024a,b, 2025; Ellis et al., 2018) 实现了较强的几何正确性，但常常牺牲了视觉美感和可读性 (Zhu et al., 2026b)。与此同时，端到端的主流 Text-to-Image (T2I, 文本到图像) 模型可以生成视觉上吸引人的插图，但常常无法在长篇幅科学输入上保持结构保真度 (Liu et al., 2025; Huang et al., 2026a)。因此，直接将长篇幅科学文本转化为既准确又视觉吸引人的插图仍然具有挑战性。

在我们之前的工作中，我们提出了 AutoFIGURE (Zhu et al., 2026b)，这是一个基于 Reasoned Rendering（推理渲染）范式的智能体框架，通过迭代优化过程生成准确且视觉吸引人的插图。尽管它能够自动生成高质量插图，AutoFIGURE 仍存在一些局限：(i) 生成的视觉元素是固定的且不可编辑。优化只能通过修改用户提供的文本提示来进行；(ii) 生成所需风格的插图在很大程度上依赖于提示工程，这可能含糊不清，并可能导致不准确或非预期的风格结果；(iii) 其迭代的"草图到渲染"优化过程将布局规划与最终的光栅渲染紧密耦合，没有暴露一个明确的结构骨架。因此，细粒度的编辑（例如布局调整）很困难，且文本渲染通常不稳定。

为了解决这些局限性，我们提出了一个大幅增强的系统，命名为 AutoFIGURE-EDIT，它将长篇幅科学文本和参考风格图像转换为完全可编辑的 SVG 插图。它实现了参考引导的风格控制，减少了对模糊提示工程的依赖，并通过明确的结构骨架将布局规划与最终渲染解耦，允许直接在矢量骨架上进行布局编辑，而无需重新执行完整的"草图到渲染"循环。基于此设计，AutoFIGURE-EDIT 提供了以下特性：

科学插图生成。 直接将长篇幅科学文本转换为准确、符合出版质量的插图。

参考引导风格控制。 通过用户提供的示例实现可控的视觉适配，同时保留语义结构。

表 1： AutoFIGURE-EDIT 与其他相关系统的比较。"Sci. Gen."表示科学插图生成；"GUI Support"表示集成图形用户界面和编辑能力的水平。

可编辑的 SVG 与嵌入式视觉编辑器。 生成结构组织良好、可在组件级别编辑的 SVG，并通过集成的交互式画布支持实时优化。

定量实验和用户研究（第 4 节）证明了 AutoFIGURE-EDIT 在生成高质量、可编辑科学插图方面的有效性和实用价值。

2 相关工作

科学插图的自动化已从简单的摘要发展到复杂的合成。然而，在生成质量和生成后可编辑性之间取得平衡仍然具有挑战性。现有的文本到图形系统 (Zhu et al., 2026a; Huang et al., 2026b; Zhu et al., 2026b) 可以自动从长篇幅文本描述中创建高质量的插图，但它们通常产生静态输出，对迭代优化的支持有限，即使是微小的调整也需要完全重新生成。为了提高可定制性，最近的方法将光栅化渲染转换为矢量表示。然而，它们对预渲染像素输入的依赖可能导致语义信息丢失 (Sun et al., 2025)。与此同时，像 EditBanana (BIT-DataLab, 2026) 这样的编辑工具提供了事后修改能力，依赖于外部提供的图像作为输入。相比之下，AutoFIGURE-EDIT 提供了一个统一的、端到端的流程，不仅从头生成插图，而且将所有组件表示为完全可编辑的对象，从而实现精确控制。

程序化合成。 尽管扩散模型 (Saharia et al., 2022) 在通用视觉合成方面表现出色，但其有限的结构透明度使其不适合科学图形的严格组合约束。为了增强可控性，最近的工作探索了使用程序化表示（例如 TikZ 或 SVG）作为中间形式的 Text-to-Code-to-Image（文本到代码到图像）流程 (Belouadi et al., 2024a,b)。然而，纯粹的程序化生成通常是脆弱的。小的语法错误可能触发渲染失败，并且缺乏直观的视觉编辑界面增加了迭代优化所需的工作量。AutoFIGURE-EDIT 通过结合长上下文理解与鲁棒的结构重建来解决这些问题，在风格灵活性和可编辑性之间取得了更好的平衡。与其他相关系统的比较如表 1 所示。

3 AutoFigure-Edit

我们介绍 AutoFIGURE-EDIT（图 1），一个自动化系统，它能够将长篇幅科学文本转换为结构化的、完全可编辑的科学插图，并支持通过用户提供的参考图像进行灵活的风格适配。

3.1 框架概览

自动化科学插图生成的任务涉及协调三个相互竞争的目标：(i) 对文本的语义保真度；(ii) 与参考图像的风格一致性；(iii) 支持下游编辑的显式结构分解。形式上，给定长篇幅科学文本 TT 和参考风格图像 IrefIref，目标是学习一个映射：

由于缺乏明确的结构监督以及布局、实例和视觉外观的纠缠，直接参数化这个映射是不适定的。因此，我们将变换分解为连续的阶段，这些阶段从中间的光栅草稿中逐步推导出结构，将布局规划、对象身份和视觉渲染分离开来，同时保持语义和风格的连贯性。

图 1： AutoFIGURE-EDIT 概览。此图也是由 AutoFIGURE-EDIT 生成的，并作为其生成质量的定性展示。

3.1.1 阶段 I：风格条件图像合成

我们首先使用风格条件的文本到图像模型（例如，Gemini-3-Pro-Image-Preview），生成一个以输入科学文本和参考风格图像为联合条件的初始光栅草稿 Iraw。此阶段将文本描述转化为显式的视觉实体，同时融入来自参考图像的高级风格线索，从而建立语义-风格对齐。

3.1.2 阶段 II：分割与结构索引

文本：[[115, 743, 486, 919], [511, 421, 881, 485]]

3.1.3 阶段 III：资产提取

虽然第二阶段启用了显式的结构信息，但必须保留外观线索以确保忠实的重建。因此，对于每个分割出的实例 (Iraw,Bk)，我们提取相应的视觉内容并去除背景 (Zheng et al., 2024)，以获得一个透明的 RGBA 资产 Ak。此过程将几何放置与视觉纹理解耦，将外观存储为独立的类似图标的资产，同时将空间组织委托给结构骨架。因此，后续的布局修改可以在不改变风格细节的情况下进行。

3.1.4 阶段 IV：SVG 模板生成与优化

给定索引化的结构表示 Imask，我们接着提示一个视觉-语言模型（例如，Gemini-3.1-Pro-Preview）生成一个 SVG 布局模板 Stmp，其中包含与 <AF>k 标识符对齐的占位符元素。

为了改善与目标图形的对齐，我们通过使用原始光栅草稿、结构掩码、当前 SVG 的渲染预览以及相应的 SVG 代码重新提示视觉-语言模型，进一步执行一个轻量级的优化步骤。模型被指示在两个方面纠正差异：位置一致性（图标放置、文本对齐、箭头、线条）和风格一致性（比例、字体、描边宽度和颜色）。保留标识符映射和占位符组结构，以确保与后续资产注入的兼容性。在实践中，优化过程只需要 0-2 次迭代即可获得满意的模板 Sref。

图 2： AUTOFIGURE-EDIT 的代表性输出。(a)-(b) 是从不同领域的长篇幅科学描述中生成的位图（PNG）图形。(c) 展示了 AUTOFIGURE-EDIT 的 PNG 到 SVG 转换案例，包括原始位图（下方）及其对应的矢量化 SVG 结果（下方）。(d) 是 AUTOFIGURE-EDIT 的网络界面，允许用户选择预定义的风格模板或上传自定义参考图像。

3.1.5 阶段 V：资产注入

3.2 应用

我们通过三个代表性的应用场景来展示 AUTOFIGURE-EDIT 的实用性，展示了其生成能力、风格适应性和可编辑性。AutoFIGURE-EDIT 不仅是一个技术系统，更是一个面向各领域研究人员的生产力工具，降低了创建高质量科学插图的门槛。

高质量科学插图生成。 AutoFIGURE-EDIT 的主要应用场景是直接从长篇幅科学文本生成符合出版标准的插图。给定一个跨越数千个词元的方法部分或系统概述，系统会自动提取关键实体、关系和过程阶段，并将其转化为既准确又视觉吸引人的插图。这种能力大大减少了传统上将密集的技术内容转化为清晰视觉形式所需的时间和专业知识。在图 2 (a)-(c) 中，我们展示了生成结果的代表性示例，证明了其对源文本的语义保真度和高视觉质量。

风格适配。 给定用户提供的参考图像，AutoFIGURE-EDIT 可以适应多种视觉风格，改变调色板、排版、图标美学、间距密度和视觉层次，同时保留语义结构。该系统不依赖于提示级别的风格描述，而是明确地以视觉示例为条件，并以受控方式转移高级风格属性。这使得用户能够为相同的科学内容尝试多种视觉外观，便于与会议或实验室特定的视觉标准对齐，并减少对人工平面设计专业知识的依赖。在图 2 (d) 中，我们展示了 AutoFIGURE-EDIT 的输入界面，用户在其中提供源文本和参考风格图像来引导生成。

通过 SVG 输出进行交互式编辑。 AutoFIGURE-EDIT 的生成结果是一个结构组织良好的 SVG 文件，其中语义元素（例如模块、连接器、注释）被显式表示，从而能够在组件级别进行细粒度操作。这消除了基于光栅的生成的常见限制，即即使是微小的修改也需要重新生成整个图像。更重要的是，AutoFIGURE-EDIT 进一步提供了一个支持实时更新的嵌入式视觉编辑器。用户可以重新定位对象、修改文本和调整风格属性，同时保持整体布局。在图 3 中，我们展示了嵌入式交互式画布的界面，该画布允许用户直接操作生成图形中的各个元素。

图 3： 嵌入式交互式画布使用户能够自由操作生成 SVG 中的各个组件。

总之，AutoFIGURE-EDIT 将科学插图生成转变为一个可编辑且风格可控的过程。对于个人研究人员，AutoFIGURE-EDIT 提供了显著的时间节省、改善的视觉清晰度以及与写作流程的无缝集成。对于更广泛的社区，AutoFIGURE-EDIT 促进了更标准化、更易获取和更可复现的科学交流，使复杂思想的传播更加清晰。额外的定性结果见图 5 和图 6。

4 评估

为了全面评估 AutoFIGURE-EDIT 的可用性，我们进行了 (i) 在 FigureBench (Zhu et al., 2026b) 上的自动化评估，以及 (ii) 一项涉及 217 名参与者的用户研究。

4.1 定量分析

实验设置。 我们采用 FigureBench (Zhu et al., 2026b) 的研究论文子集作为我们的评估数据集，该数据集包含长篇幅的方法部分和与之配对的符合出版质量的插图，为科学图形生成提供了一个现实的测试平台（附录 A）。

我们评估了从 FigureBench 中采样的 200 个方法描述：其中 100 个样本在无参考风格条件的情况下生成，其余 100 个在有参考风格图像的情况下生成。风格条件子集进一步分为五组，每组共享相同的参考图像，从而能够在固定的风格约束下评估风格一致性和鲁棒性。示例参考风格见图 6。我们比较了三类基线方法，包括端到端的文本到图像生成（GPT-Image (Hurst et al., 2024)）、文本到代码生成（HTML-Code 和 SVG-Code）(Rodriguez et al., 2025; Malashenko et al., 2025; Yang et al., 2024) 以及多智能体框架（Diagram Agent (Wei et al., 2025) 和 AutoFIGURE (Zhu et al., 2026b)）。我们使用 NanoBanana-Pro 作为文本到图像模型，使用 Gemini-3-Pro 作为视觉-语言模型进行骨架合成和迭代优化。定量结果总结在表 2 中。

整体性能。 AutoFIGURE-EDIT 在视觉设计、沟通有效性和内容保真度方面始终优于先前的方法，展示了其生成符合出版质量科学插图的能力，并在视觉质量和科学保真度之间实现了良好的平衡。

参考条件的影响。 参考条件揭示了视觉设计和内容保真度之间一个明显的权衡。

当提供参考图像时，内容保真度在所有三个子维度上都有所提高：准确性（8.83）、完整性（8.26）和适当性（8.37），超过了原始的 AutoFIGURE 和非条件变体，表明对于长篇幅的程序性输入有更好的语义基础。相比之下，视觉设计略有下降（例如，美学评分 7.37 vs. 8.32），这可能是因为固定的参考图像限制了风格的表达能力。尽管如此，胜率从 76.0% 增加到 83.0%，表明参考条件生成的图形总体上更受青睐。这也表明，盲目成对比较比标量评分更全面、更稳健的指标，因为它更符合实际选择场景。

4.2 用户研究

实验设置。 为了评估 AutoFIGURE-EDIT 在现实世界中的可用性，我们通过我们的公共网站进行了一项基于部署的用户研究。

表 2： 在 FigureBench 上对插图生成方法的定量比较。分数是视觉设计、沟通有效性和内容保真度维度的平均值。Overall（总体）表示所有子指标的平均值，Win-Rate（胜率）反映盲法成对人工偏好。

图 4：人工用户研究结果。数字表示平均得分。AutoFIGURE-EDIT 在大多数指标上实现了持续的高满意度。

用户可以在网站上自由生成可编辑的科学插图，并使用嵌入式视觉编辑器优化生成的 SVG。反馈通过集成界面收集：一旦生成完成，会自动显示一个评分对话框，用户在其中评估渲染后的图形及其对应的 SVG。所有标量指标均采用 5 点李克特量表（1 = 最低，5 = 最高）进行评分。我们还收集了一个二元的可用性指标，表明该图形是否可以直接用于学术论文而无需重大修改。更多细节见附录 B。

结果分析。 我们从 217 位独立参与者那里收集了 262 个评估样本。汇总结果和评分分布如图 4 所示。对于生成的 PNG 图形，AutoFIGURE-EDIT 在所有评估维度上都表现出强劲的性能，平均得分为 4.04（科学语义正确性）、4.11（信息完整性）、3.95（视觉呈现质量）和 4.09（风格一致性）。值得注意的是，评分高度集中在最高水平：分别有 48% 和 51% 的评估将语义正确性和完整性评为 5 分，风格一致性也有 50% 评为 5 分。低分（1-2 分）在语义维度上很少见（通常低于 12%），表明该系统在多样化的用户输入下能够可靠地保留科学含义和结构完整性。

实践可用性进一步证实了系统的有效性。262 名用户中有 126 名认为生成的图形无需额外修改即可直接用于学术论文。考虑到直接可用性需要概念正确性、满意的布局和风格质量，这一结果凸显了该系统已为现实世界的研究工作流程做好准备，而不仅仅是达到基准测试的充分性水平。

对于 PNG 到 SVG 的重建，平均转换正确性得分达到 3.60，大多数评估集中在中上到高范围（3-5 分），有 36%36% 达到 5 分。极低分仍然有限，表明灾难性的结构失效并不常见。尽管重建过程中偶尔可能出现轻微的几何偏差，但完全可编辑的 SVG 输出确保了这些问题可以通过最少的手动努力进行修正，从而保留了下游可用性。

总体而言，实证结果表明 AutoFIGURE-EDIT 在部署中实现了强大的语义保真度、高度的信息完整性和显著的现实世界可用性，表明它可以有效地集成到学术图形生产工作流程中。

5 结论

在本文中，我们介绍了 AutoFIGURE-EDIT，一个端到端的系统，它能够从长篇幅文本生成完全可编辑的科学插图，并具有参考引导的风格适配和原生 SVG 编辑功能。定量评估和基于部署的用户研究表明，AutoFIGURE-EDIT 始终优于先前的方法，并且产生的输出经常被用户判断为可直接用于学术发表。

局限性

虽然我们的部署和用户研究突显了 AutoFIGURE-EDIT 在科学插图生成中的实用性，但仍存在一些局限性：

对基础模型的依赖。 我们当前的流程依赖于闭源的视觉和视觉-语言模型（例如，Gemini3.1-Pro-Preview 和 NanoBanana-Pro）来进行风格条件光栅合成和 SVG 模板优化。这种依赖可能会带来使用成本、引发数据隐私问题，并限制我们流程的可复现性。虽然当前的开源替代方案在此特定任务所需的复杂空间推理方面存在困难，但未来的工作将探索集成强大的开源权重模型，一旦它们的能力足够成熟，以减轻这些可访问性限制。

错误传播。 由于 AutoFIGURE-EDIT 从中间光栅草稿中推导矢量结构，上游的分割错误（例如，错误合并或分割视觉组件）可能会在流程中级联传播，需要通过嵌入式编辑器进行手动调整。

范围和评估约束。 嵌入式视觉编辑器是为局部的、组件级别的优化而设计的，并非旨在取代全面的图形设计软件。此外，我们当前的用户研究主要旨在作为可用性评估，以评估现实世界工作流程的效率。在更广泛的专业科学领域验证该系统，并进行严格的专家正确性检查，仍然是未来工作的一个方向。

我们希望我们的系统将为自动化图形生成工作流程树立新的标准，弥合复杂科学概念与易获取、高质量的视觉传达之间的差距。