多轮评估中深度研究代理的过程级反馈

作者: Rishabh Sabharwal, Hongru Wang, Amos Storkey, Jeff Z. Pan 来源: arXiv (论文ID: 2606.09748) | 领域: 机器学习，ICML 代码与数据: (https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs](https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs) "https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs](https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs)")

摘要

现有深度研究代理（Deep Research Agents, DRAs）的基准测试仅评估单次输出，忽略了关键问题：DRAs能否在反馈指导下改进其报告？为此，我们进行了多轮评估，研究两种反馈设置下的代理行为：

自反射（Self-Reflection）：代理在不接收外部诊断信号的情况下自行修订报告。
过程级反馈（Process-Level Feedback）：代理接收针对其研究策略中缺失的反馈指导。

为实现过程级反馈，我们设计了**研究差距推理（Research Gap Inference, RGI）**方法，通过分析满足和未满足的规约标准模式来推断研究过程中的差距。我们的分析揭示了三个关键发现：

在自反射设置下，代理满足和回归规约标准的行为几乎持平，净改善微乎其微；
单次过程级反馈带来了显著收益，归一化评分平均提升 8--15分，归一化率约为 35--40%；
这些收益在多轮中不会累积，代理在重写全报告时会回归多达 24% 的先前已满足标准。即使有精准引导，我们所评估的DRA架构中可靠的多轮改善仍不可达。

1. 引言

深度研究代理（DRAs）通过创建研究计划、搜索网络和整合来源来解决复杂开放问题（Google DeepMind, 2024; OpenAI, 2025; Perplexity AI, 2025）。然而大多数基准仅评估单次输出：代理接收查询、生成初稿，并由LLM作为裁判依据规约进行评判（Du et al., 2025; Li et al., 2026; Zhong et al., 2026）。但在实践中，用户通常不会将初稿视为最终版本，而是通过反馈迭代修订。因此，多轮评估对于准确评估这些系统的能力至关重要。

自然延伸单次评估至多轮的方式是在生成的报告上提供反馈。最简单的方法是自反射，即代理在无任何外部诊断信号的情况下审阅并改进自身输出。然而，Huang et al. (2023) 和 Tyen et al. (2024) 表明LLMs往往无法可靠识别自身错误，自校正后性能有时反而下降。

我们提出的过程级反馈关注代理研究过程中的深层问题，如使用了不适当的来源、范围界定过窄或完全忽略了相关的子主题。为此，我们设计了**研究差距推理（RGI）**方法，通过分析满足和未满足标准的模式来推断研究过程差距，并提供研究策略指导。

2. 相关工作

深度研究基准

DRACO（Zhong et al., 2026）评估了跨10个领域的复杂研究任务，使用专家设计的任务特定规约进行评判。DeepResearch Bench II（Li et al., 2026）和ResearchRubrics（Sharma et al., 2025）进一步强化了基于规约的评估。大多数基准仅评估单次输出，而非迭代修订。

交互式与多轮深度研究

Chen et al. (2026) 评估了在规约级反馈下的多轮修订。我们的方法与该方法互补：我们研究代理在收到关于研究策略差距的过程级指导时如何调整其研究策略。

3. 实验框架

3.1 任务、数据集与代理

数据集: DRACO基准，包含四个维度：

维度	简称	说明
事实准确性 (Factual Accuracy)	FA	报告包含正确、可验证的事实
分析广度与深度 (Breadth and Depth)	BD	相关维度的覆盖范围和分析彻底性
展示质量 (Presentation Quality)	PQ	结构、格式与组织
引用质量 (Citation Quality)	CQ	主张是否由适当来源支撑

每个标准有二元判定（MET/UNMET）和带符号权重：正向标准指定期望内容，负向标准指定需避免的模式。

代理: 使用 LangChain Open Deep Research (LC-ODR) 框架，该框架将研究任务分解为四个阶段：规划（Planner）、监督（Supervisor）、研究（Researcher）和报告生成（Reporter）。

3.2 过程级反馈生成（RGI）

RGI方法通过分析FA、BD和CQ规约轴上的满足/未满足模式来推断研究过程差距，并生成关于研究主题、证据类型和分析重点的反馈。生成步骤包括：

信号选择：包含FA和BD的通过和失败标准（作为对比信号），以及CQ诊断信号（排除PQ）。
反馈生成：将诊断结果组织为2-3个研究主题，指明需要深入调查的领域及应优先的证据类型。

4. 实验结果

4.1 实验设置

评估了三个模型配置：GPT-4.1-mini、GPT-4.1和DeepSeek-V4-Flash，均使用LC-ODR框架。每个模型首先生成初始报告，然后进行两次修订。

4.2 指标

指标	说明
归一化评分（Normalized Score）	规约标准的加权聚合得分
通过率（Pass Rate）	未加权满足标准的比例
归一化率（Incorporation Rate）	修订前未满足、修订后满足标准的频率
回归率（Regression Rate）	修订前满足、修订后未满足标准的频率

4.3 主要结果

总体轨迹

模型	设置	归一化评分	通过率	归一化率	回归率
GPT-4.1-mini	Turn 1	37.76	45.89	--	--
	SR Turn 2	40.18 (+2.42)	48.64 (+2.75)	15.40	12.90
	RGI Turn 2	53.11 (+15.35)	59.91 (+14.02)	34.78	14.52
	RGI Turn 3	54.45 (+1.34)	60.92 (+1.01)	27.46	18.59
GPT-4.1	Turn 1	44.77	51.55	--	--
	SR Turn 2	44.86 (+0.09)	51.94 (+0.39)	15.58	14.74
	RGI Turn 2	56.19 (+11.42)	62.22 (+10.67)	36.88	16.87
	RGI Turn 3	51.22 (-4.97)	58.86 (-3.36)	27.17	23.57
DeepSeek-V4-Flash	Turn 1	57.20	63.94	--	--
	SR Turn 2	56.66 (-0.54)	63.84 (-0.10)	26.18	15.99
	RGI Turn 2	65.35 (+8.15)	71.10 (+7.16)	39.61	13.41
	RGI Turn 3	69.36 (+4.01)	74.59 (+3.49)	31.52	8.96

按轴分析

模型	轴	Turn 1	SR	RGI-T2	RGI-T3
GPT-4.1-mini	FA	37.23	39.96	50.74	52.28
	BD	40.01	42.42	69.97	65.07
	PQ	46.37	45.08	50.78	53.85
	CQ	40.94	44.31	51.21	58.88

4.4 分析

过程级反馈主要提升覆盖率和事实基础

RGI Turn 2在BD轴上的增益最大：GPT-4.1-mini提升**+29.96分**，GPT-4.1提升**+22.85分**，DeepSeek-V4-Flash提升**+16.28分**。FA也显著改善，表明模型在给定充分过程级反馈时可以自行定位缺失事实。

第三轮增益具有条件性而非单调叠加

Turn 3的收益主要集中在Turn 2得分较低的任務中，而Turn 2得分较高的任务中，Turn 3往往表现为回归。这反映了全重写架构的固有局限：已满足标准暴露在回归风险中。

重写行为差异解释了回归模式

模型	引用保留率	5-gram保留率	回归率
GPT-4.1-mini	37.22%	6.59%	18.59%
GPT-4.1	27.01%	1.79%	23.57%
DeepSeek-V4-Flash	53.96%	26.68%	8.96%

DeepSeek-V4-Flash保留了更多先前内容，因此回归率显著更低，但计算开销更高（约消耗3倍输入令牌，4倍网络搜索调用）。

5. 案例研究

案例1：过程级反馈驱动恢复（Task 021）

该任务要求自2022年以来的深度检测研究综合，涵盖技术进展、伦理关注及监管框架。Turn 1报告归一化评分为50.0，Turn 2提升至79.0 (+29.0)。RGI反馈精准定位了三个过程级差距：检测方法处于调查级别而非具体系统、监管覆盖为政策摘要而非一级立法、基准到部署讨论缺乏量化依据。Turn 2报告直接解决了这三个差距。

案例2：检索失败限制恢复（Task 004）

该任务要求分析CME集团的现金生成效率，需要季度数据。Turn 1报告得分为14.0，Turn 2降至10.1 (-3.9)。当目标证据超出代理的检索范围时，反馈无法实现恢复，且全重写放大了回归风险。

6. 结论与展望

我们的研究揭示：

DRAs无法可靠自诊断研究差距；
过程级反馈能使代理在单轮内大幅改善报告质量；
这些改善在多轮中不会可靠累积，因全重写架构的回归特性；
保留更多先前内容的模型回归更少，但计算成本更高。

依赖实现可靠多轮改善需要具有显式内容保留机制的架构。

实验设置详情

模型配置

研究代理: GPT-4.1-mini-2025-04-14、GPT-4.1-2025-04-14、DeepSeek-V4-Flash
反馈生成器: gpt-4.1-2025-04-14 (temperature=0.7)
规约裁判: GPT-5.2 (reasoning_effort="none", temperature=0)
搜索: Tavily (max_results=5)

数据集采样

从DRACO的100个任务中随机采样50个，覆盖10个领域：

领域	样本数	领域	样本数
金融	10	购物/产品比较	8
学术	6	技术	5
通用知识	5	UX设计	4
法律	3	医学	3
针在草中	3	个性化助理	3

反馈生成提示模板

System Prompt: You are an expert in research report quality analysis and feedback generation.

STEP 1 --- RESEARCH GAP ANALYSIS:

Cluster related passes and failures by topic or entity
Use passes as contrast to interpret failures
Identify main research-process gaps
Check whether CQ signals explain downstream FA or BD shortcomings

STEP 2 --- FEEDBACK MESSAGE:

Structure around 2 or 3 research themes
Specify where to deepen investigation
Not to reproduce evaluator explanations verbatim
NOT list individual criteria or address failures point by point

关键资源链接

论文: Multi-Turn Evaluation of Deep Research Agents Under Process-Level Feedback
代码仓库: Multi Turn Evaluation Of DRAs
DRACO基准: $2602.11685$ DRACO: a Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity
LC-ODR: Open Deep Research