混合训练反而更差？VLM Agent在训练前协调跨数据集标注，文档布局检测F-score从0.860提升至0.883

导读

多数据集混合训练是提升模型泛化能力的常见策略，但如果不同数据集对同一语义类别采用了不同的空间标注规范，直接混合会怎样？Unstructured Technologies的研究团队给出了一个反直觉的答案：直接混合训练不仅没有提升，反而让预训练模型的表格识别指标（table TEDS）从0.800降到0.750，单元格内容准确率从0.767降到0.715。

为解决这一问题，他们提出了Agentic Harmonization方法，在训练之前利用VLM Agent逐页协调不同数据集间的标注差异，将标注统一到同一规范下。协调后的模型不仅恢复了退化的性能，还在17项评估指标中的14项取得最优，检测F-score从0.860提升至0.883，table TEDS从0.800提升至0.814。

论文信息

标题：Improving Layout Representation Learning Across Inconsistently Annotated Datasets via Agentic Harmonization
作者：Renyu Li, Vladimir Kirilenko, Yao You, Crag Wolfe
机构：Unstructured Technologies

一、跨数据集标注不一致：被忽视的训练陷阱

文档布局检测旨在识别页面中的段落、标题、表格、列表等结构元素。在实际应用中，研究者通常希望通过混合多个数据集来扩大训练数据量，从而提升模型的泛化能力。然而，不同数据集之间存在两类根本性的标注不一致。

分类不对齐 。论文使用的两个数据集------Unstructured （私有，47,744张训练图像，810,644条标注，16个类别）和DocLayNet 25k（公开，25,000张图像，328,756条标注，10个类别）------在类别定义上存在显著差异。16个Unstructured类别和10个DocLayNet类别之间，只有8个可以直接对应（如paragraph对应Text，subheading对应Section-header）。Unstructured独有checkbox、code_snippet、form等8个类别，DocLayNet独有Caption和List-item两个类别。

空间不一致 。即使在共享的类别之间，标注框的空间范围也差异悬殊。例如，table区域在Unstructured中比DocLayNet大5.2倍 ，page_footer框大6.3倍 ，subheading框大4.7倍。这意味着同一个段落，一个数据集可能标注为包含周围空白的粗粒度块，另一个数据集则标注为与OCR边界对齐的细粒度框。

这种不一致的后果在实验中体现得非常明显。论文以IBM Docling Heron （基于RT-DETR v2，ResNet-50vd backbone，6层decoder）为基础检测器，在SCORE-Bench评估框架下进行测试。直接混合两个数据集进行训练（Naive mixed fine-tuning），表格相关指标全面退化：table TEDS从0.800降到0.750（-0.050），cell_level_content_acc从0.767降到0.715（-0.052），page_teds从0.778降到0.733（-0.045）。混合训练不是简单的"数据越多越好"。

图片来源于原论文

二、Agentic Harmonization：VLM Agent驱动的标注协调

针对上述问题，论文提出了Agentic Harmonization方法，核心思路是：在训练之前，用VLM Agent逐页审视并转换源数据集的标注，使其与目标标注标准对齐。

形式化描述。给定K个源数据集D_k = {(I_i, A_i)}，其中I_i为页面图像，A_i为标注集合。Agent F将每页标注转换为协调后的版本：Â_i = F(I_i, A_i; R)，其中R是从目标检测器原生标注标准中提取的结构化规则集。Agent将M_i个源标注划分为G_i个不相交组S_r，每组通过统一算子M_R转换为一个协调标注â_r。

Agent的决策依赖两种推理信号：

视觉推理：Agent观察页面图像，理解实际的视觉布局结构，而非仅依靠标签名称做出判断
语言推理：Agent理解标签语义和不同标注规范之间的差异，做出合理的映射决策

对于每个源标注，Agent可以执行三种操作之一：保留原有标注、与相邻标注合并、或对边界/类别进行修正。

两个关键设计约束保证了协调过程的可靠性：

视觉接地推理（Visually-Grounded Reasoning） ：Agent的所有决策必须基于实际页面图像中的视觉结构，避免仅凭标签名称做出错误映射。例如，一个被标为"Text"的区域，Agent需要看到图像后才能判断它在目标标准下应该是paragraph还是list_item。
标注守恒（Annotation Conservation） ：每个输入标注在输出中必须恰好出现一次------要么被保留，要么被合并到某个组中，要么被修正。不允许凭空创建新标注，也不允许删除任何输入标注。这一约束确保了协调过程的可追溯性。

统一后的分类法包含17个类别，保留了Unstructured的细粒度form和checkbox类别，同时纳入了DocLayNet的figure_caption和list_item。

三、实验结果：协调训练全面超越预训练和混合训练

论文在SCORE-Bench上对三种训练策略进行了系统对比：预训练模型（Heron）、直接混合训练（Naive）、协调后训练（Harmonized）。评估覆盖17项指标，从检测精度、表格结构识别到端到端文档转换质量。

核心结果汇总（Table 5）：

指标	Heron（预训练）	Naive（混合训练）	Harmonized（协调后）
detection_f	0.860	0.858	0.883
detection_precision	0.868	0.868	0.885
detection_recall	0.858	0.858	0.887
table_teds	0.800	0.750	0.814
table_teds_corrected	0.777	0.730	0.792
cell_level_content_acc	0.767	0.715	0.771
cell_level_index_acc	0.764	0.725	0.778
page_teds_corrected	0.778	0.733	0.790
adjusted_NED	0.870	0.871	0.872
bbox_mean_iou (越低越好)	0.043	0.019	0.016
bbox_max_iou (越低越好)	0.079	0.045	0.035

几个关键发现值得关注：

协调模型在17项指标中14项取得最优。仅element_alignment（0.579 vs. 预训练0.585）、percent_tokens_found（0.946 vs. 预训练0.947）和percent_tokens_added（0.049 vs. 混合训练0.046）三项略低，且差距极小。

混合训练对表格指标的破坏是系统性的。table_teds下降0.050，cell_level_content_acc下降0.052，page_teds下降0.045，shifted_cell_content_acc下降0.055。这说明标注空间不一致对结构化元素（尤其是表格）的影响最为严重。

协调训练不仅恢复了退化，还超越了预训练基线。table_teds从0.800提升到0.814（+0.014），detection_f从0.860提升到0.883（+0.023），detection_recall从0.858提升到0.887（+0.029）。这证明额外数据在标注对齐后确实带来了增益。

空间预测质量显著提升。bbox_mean_iou从0.043降至0.016（-0.027），bbox_max_iou从0.079降至0.035（-0.044），说明协调训练后模型预测的边界框重叠更少、空间定位更精确。

四、实验分析：表征空间的可视化验证

论文通过UMAP可视化对三种训练策略下的post-decoder嵌入空间进行了分析，从表征层面揭示了性能差异的内在原因。

整体聚类质量对比（Figure 3） ：

预训练模型：各类别有一定程度的聚类，但类间存在纠缠现象
混合训练模型：聚类出现碎片化，类间边界模糊，不同类别的嵌入混合加剧
协调训练模型：聚类更加紧凑，类间边界更清晰，表征质量明显优于前两者

易混淆类对分析（Figure 4） 。论文特别关注了几组语义相近但类别不同的元素对：

paragraph vs list_item：这两个类别在视觉上非常接近（都是文本块），混合训练后两者在嵌入空间中严重重叠，而协调训练显著改善了分离度
title vs subheading：层级不同但外观相似，协调训练后模型能更好地区分两者
checkbox vs checkbox_checked：细粒度状态差异，协调训练也帮助模型学到了更有区分度的表征

这些表征分析结果与定量指标的改善完全一致：混合训练破坏了模型原有的表征结构，而标注协调在扩大数据量的同时保持了表征空间的有序性。从表征质量的角度来看，Agentic Harmonization的作用并非简单的数据清洗，而是在语义层面消除了跨数据集标注不一致对特征学习的干扰。

图片来源于原论文

五、总结与思考

本文揭示了跨数据集标注的空间不一致会导致混合训练适得其反，并提出用VLM Agent在训练前协调标注差异。协调后的模型在17项指标中14项取得最优，检测F-score提升0.023，table TEDS提升0.014。

在此基础上，有两点值得关注：一是论文仅验证了两个数据集的协调，扩展到更多数据集时Agent逐页处理的成本和规则复杂度是否可控，尚未讨论；二是标注守恒约束不允许创建新标注，意味着源数据集的漏标问题无法通过协调修复。不过，"训练前用Agent做标注对齐"这一思路不限于文档布局，目标检测、语义分割等面临类似标注规范差异的任务也可借鉴。