【论文阅读】--ORCA：面向文档视觉问答的协作智能体协同推理

文档视觉问答（DocVQA）对现有的视觉-语言模型（VLM）而言仍具挑战性，尤其是在复杂推理和多步骤流程场景下。现有方法难以将复杂问题拆解为易处理的子任务，且往往无法针对不同文档元素采用专门的处理路径。我们提出了ORCA：面向文档视觉问答的协作智能体协同推理框架，这是一种全新的多智能体框架，通过智能体的战略协同与迭代优化来解决上述局限。ORCA首先由推理智能体将查询拆解为逻辑步骤，随后通过路由机制从专用智能体库中激活任务专属智能体。该框架依托一组专用人工智能智能体，每个智能体专注于不同的模态，实现对各类文档组件的细粒度理解与协同推理。为确保答案的可靠性，ORCA引入了包含压力测试的辩论机制，必要时还会采用正反论点裁决流程，之后再通过一致性校验器保证格式的统一。在三个基准数据集上的大量实验表明，我们的方法相比当前最优方法取得了显著提升，为视觉-语言推理领域的协同智能体系统构建了全新范式。

2.引言

2.1 任务背景

DocVQA：基于单页文档图像 回答问题，内容包含文本、表格、图表、手写、表单。
难点：需要多步推理、跨元素整合、细节捕捉、结构化理解。

2.2 现有方法的局限

技术范式	核心局限	具体表现
单 VLMs	能力与机制双重缺失	• 无法拆解复杂推理 • 缺乏透明度、无法解释 • 对表格/图表/手写细节处理差 • 无法自我验证、评估置信度
CoT / 增强推理模型	单体架构与认知偏差	• 仍依赖单一模型 • 无内容专用路径 • 缺乏辩论/验证机制 • 易产生确认偏误
多智能体系统	流程僵化与效率瓶颈	• 多为固定规则路由 • 缺乏推理引导 • 验证开销大 • 缺乏条件触发机制

2.3 ORCA 的核心思路

推理先行：先拆解问题，生成推理路径。
分工协作：9 类专用智能体，各司其职。
动态路由：按需激活智能体。
条件验证：分歧时才辩论，效率高。
全程透明、可解释、可验证。

3. 相关工作

3.1 文档理解中的 VLMs

早期：LayoutLM、TILT、Donut，侧重文本 + 布局。
近期：Qwen、InternVL、LLaVA 等 VLMs，直接处理文档图像。
局限：长推理弱、跨模态整合不足、细节丢失、表格 / 图表理解差。

3.2 语言模型推理与验证

CoT：显式推理步骤，提升复杂任务。
Self-Consistency：多路径采样。
ReAct：结合工具使用。
Reflexion：迭代反思。
辩论机制：多模型对抗验证，提升可靠性。
局限：单模型、无分工、验证成本高。

3.3 多智能体框架

Visual ChatGPT、HuggingGPT：LLM 控制器 + 工具模块。
文档领域：表格 / OCR / 布局专用智能体。
ORCA 区别：
- 推理引导路由，非手工规则；
- 推理路径掩码，避免确认偏误；
- 条件辩论，仅 8.3% 案例触发；
- 强协同、强验证、强解释。

4. 方法

问题定义：

给定单页文档 D + 问题 q ，输出准确答案 a；文档含文本、表格、图表、手写、表单等。

4.1 ORCA 五阶段框架

步骤1：上下文理解

智能：Thinker Agent（推理智能体，GLM-4.5V）。
输入：文档 D、问题 q。
输出：
1. 结构化推理路径 R（拆解问题为步骤）；
2. 初始答案 a_T。

作用：规划推理、引导后续智能体。

步骤2：协作智能体执行

由 Agent Dock、Router、Orchestrator 三部分组成。

4.2.1 Agent Dock（智能体库）

共 9 类专用智能体（基于 Qwen3VL-8B 微调）：

General（通用）、Free Text（自由文本）、OCR（手写 / 难文本）、Image/Photo（图像）、Layout（布局）、Table/List（表格）、Figure/Diagram（图表）、Form（表单）、Yes/No（是非）。

4.2.2 Router（路由）

模型：Qwen2.5-VL-7B。
任务：多标签分类，选择需激活的智能体。
解码：Turbo DFS（非 sigmoid 阈值），输出激活向量 v。
特点：数据驱动、动态选择、可解释。

4.2.3 Orchestrator（编排）

输入：激活智能体、推理路径、问题、文档。
输出：执行顺序 σ。
关键：推理路径掩码 R *，隐藏初始答案，避免确认偏误。
执行：智能体串行运行 ，前一输出传给后一；最终输出专家答案 a_E。

步骤3：压力测试

触发条件：a_E ≠ a_T（仅 23.4% 案例）。
子智能
Debate Agent（生成质疑）
Specialized Agent（回应质疑）
Evaluation Agent（判断回应质量）
流程：
1. Debate Agent 生成质疑问题；
2. 专业智能体回应并更新答案；
3. Evaluation Agent 判一致性；
4. 两轮不通过 → 进入辩论阶段。
输出：a_D 与进入辩论标志。

步骤4：多轮辩论

触发：压力测试失败（仅 8.3% 案例）。
三方：Thesis（正方）、Antithesis（反方）、Judge（裁判）。
流程：3 轮结构化辩论，每轮含 参考、批评、结论；裁判总结、判断是否被说服。
输出：最终辩论答案 a_C。

步骤 5：答案校准

智能：Sanity Checker。
功能：格式修正、空格 / 标点对齐、与文档一致。
输出：最终答案 a_F。

5. 实验

5.1.数据集

评估基准	核心任务	数据内容与特征	规模	难点/特点	评估指标
Single-Page DocVQA	单页文档图像问答	偏文本、含少量表格、布局多样（票据、表单、书籍、报纸、扫描件、含文本/表格/图片）	约 10k 问答对	基础文档理解与提取	ANLS （平均归一化 Levenshtein 相似度）
InfographicsVQA (InfoVQA)	信息图问答	高度视觉化、含图表/标注（柱状图、饼图、折线、地图、统计、流程图、海报、标注文本）	约 5k 问答对	需要视觉推理、数值比较、跨元素整合	ANLS
OCRBench-v2	文档OCR+理解（8个子任务综合）	全要素覆盖（文本、手写、表格、图表、布局）	-	覆盖从感知到认知的全链路能力	8项任务平均分