混合训练反而更差?VLM Agent在训练前协调跨数据集标注,文档布局检测F-score从0.860提升至0.883

导读

多数据集混合训练是提升模型泛化能力的常见策略,但如果不同数据集对同一语义类别采用了不同的空间标注规范,直接混合会怎样?Unstructured Technologies的研究团队给出了一个反直觉的答案:直接混合训练不仅没有提升,反而让预训练模型的表格识别指标(table TEDS)从0.800降到0.750,单元格内容准确率从0.767降到0.715。

为解决这一问题,他们提出了Agentic Harmonization方法,在训练之前利用VLM Agent逐页协调不同数据集间的标注差异,将标注统一到同一规范下。协调后的模型不仅恢复了退化的性能,还在17项评估指标中的14项取得最优,检测F-score从0.860提升至0.883,table TEDS从0.800提升至0.814。


论文信息

  • 标题:Improving Layout Representation Learning Across Inconsistently Annotated Datasets via Agentic Harmonization
  • 作者:Renyu Li, Vladimir Kirilenko, Yao You, Crag Wolfe
  • 机构:Unstructured Technologies

一、跨数据集标注不一致:被忽视的训练陷阱

文档布局检测旨在识别页面中的段落、标题、表格、列表等结构元素。在实际应用中,研究者通常希望通过混合多个数据集来扩大训练数据量,从而提升模型的泛化能力。然而,不同数据集之间存在两类根本性的标注不一致。

分类不对齐 。论文使用的两个数据集------Unstructured (私有,47,744张训练图像,810,644条标注,16个类别)和DocLayNet 25k(公开,25,000张图像,328,756条标注,10个类别)------在类别定义上存在显著差异。16个Unstructured类别和10个DocLayNet类别之间,只有8个可以直接对应(如paragraph对应Text,subheading对应Section-header)。Unstructured独有checkbox、code_snippet、form等8个类别,DocLayNet独有Caption和List-item两个类别。

空间不一致 。即使在共享的类别之间,标注框的空间范围也差异悬殊。例如,table区域在Unstructured中比DocLayNet大5.2倍 ,page_footer框大6.3倍 ,subheading框大4.7倍。这意味着同一个段落,一个数据集可能标注为包含周围空白的粗粒度块,另一个数据集则标注为与OCR边界对齐的细粒度框。

这种不一致的后果在实验中体现得非常明显。论文以IBM Docling Heron (基于RT-DETR v2,ResNet-50vd backbone,6层decoder)为基础检测器,在SCORE-Bench评估框架下进行测试。直接混合两个数据集进行训练(Naive mixed fine-tuning),表格相关指标全面退化:table TEDS从0.800降到0.750(-0.050),cell_level_content_acc从0.767降到0.715(-0.052),page_teds从0.778降到0.733(-0.045)。混合训练不是简单的"数据越多越好"。

图片来源于原论文


二、Agentic Harmonization:VLM Agent驱动的标注协调

针对上述问题,论文提出了Agentic Harmonization方法,核心思路是:在训练之前,用VLM Agent逐页审视并转换源数据集的标注,使其与目标标注标准对齐。

形式化描述。给定K个源数据集D_k = {(I_i, A_i)},其中I_i为页面图像,A_i为标注集合。Agent F将每页标注转换为协调后的版本:Â_i = F(I_i, A_i; R),其中R是从目标检测器原生标注标准中提取的结构化规则集。Agent将M_i个源标注划分为G_i个不相交组S_r,每组通过统一算子M_R转换为一个协调标注â_r。

Agent的决策依赖两种推理信号:

  • 视觉推理:Agent观察页面图像,理解实际的视觉布局结构,而非仅依靠标签名称做出判断
  • 语言推理:Agent理解标签语义和不同标注规范之间的差异,做出合理的映射决策

对于每个源标注,Agent可以执行三种操作之一:保留 原有标注、与相邻标注合并 、或对边界/类别进行修正

两个关键设计约束保证了协调过程的可靠性:

  1. 视觉接地推理(Visually-Grounded Reasoning) :Agent的所有决策必须基于实际页面图像中的视觉结构,避免仅凭标签名称做出错误映射。例如,一个被标为"Text"的区域,Agent需要看到图像后才能判断它在目标标准下应该是paragraph还是list_item。
  2. 标注守恒(Annotation Conservation) :每个输入标注在输出中必须恰好出现一次------要么被保留,要么被合并到某个组中,要么被修正。不允许凭空创建新标注,也不允许删除任何输入标注。这一约束确保了协调过程的可追溯性。

统一后的分类法包含17个类别,保留了Unstructured的细粒度form和checkbox类别,同时纳入了DocLayNet的figure_caption和list_item。


三、实验结果:协调训练全面超越预训练和混合训练

论文在SCORE-Bench上对三种训练策略进行了系统对比:预训练模型(Heron)、直接混合训练(Naive)、协调后训练(Harmonized)。评估覆盖17项指标,从检测精度、表格结构识别到端到端文档转换质量。

核心结果汇总(Table 5):

指标 Heron(预训练) Naive(混合训练) Harmonized(协调后)
detection_f 0.860 0.858 0.883
detection_precision 0.868 0.868 0.885
detection_recall 0.858 0.858 0.887
table_teds 0.800 0.750 0.814
table_teds_corrected 0.777 0.730 0.792
cell_level_content_acc 0.767 0.715 0.771
cell_level_index_acc 0.764 0.725 0.778
page_teds_corrected 0.778 0.733 0.790
adjusted_NED 0.870 0.871 0.872
bbox_mean_iou (越低越好) 0.043 0.019 0.016
bbox_max_iou (越低越好) 0.079 0.045 0.035

几个关键发现值得关注:

协调模型在17项指标中14项取得最优。仅element_alignment(0.579 vs. 预训练0.585)、percent_tokens_found(0.946 vs. 预训练0.947)和percent_tokens_added(0.049 vs. 混合训练0.046)三项略低,且差距极小。

混合训练对表格指标的破坏是系统性的。table_teds下降0.050,cell_level_content_acc下降0.052,page_teds下降0.045,shifted_cell_content_acc下降0.055。这说明标注空间不一致对结构化元素(尤其是表格)的影响最为严重。

协调训练不仅恢复了退化,还超越了预训练基线。table_teds从0.800提升到0.814(+0.014),detection_f从0.860提升到0.883(+0.023),detection_recall从0.858提升到0.887(+0.029)。这证明额外数据在标注对齐后确实带来了增益。

空间预测质量显著提升。bbox_mean_iou从0.043降至0.016(-0.027),bbox_max_iou从0.079降至0.035(-0.044),说明协调训练后模型预测的边界框重叠更少、空间定位更精确。


四、实验分析:表征空间的可视化验证

论文通过UMAP可视化对三种训练策略下的post-decoder嵌入空间进行了分析,从表征层面揭示了性能差异的内在原因。

整体聚类质量对比(Figure 3)

  • 预训练模型:各类别有一定程度的聚类,但类间存在纠缠现象
  • 混合训练模型:聚类出现碎片化,类间边界模糊,不同类别的嵌入混合加剧
  • 协调训练模型:聚类更加紧凑,类间边界更清晰,表征质量明显优于前两者

易混淆类对分析(Figure 4) 。论文特别关注了几组语义相近但类别不同的元素对:

  • paragraph vs list_item:这两个类别在视觉上非常接近(都是文本块),混合训练后两者在嵌入空间中严重重叠,而协调训练显著改善了分离度
  • title vs subheading:层级不同但外观相似,协调训练后模型能更好地区分两者
  • checkbox vs checkbox_checked:细粒度状态差异,协调训练也帮助模型学到了更有区分度的表征

这些表征分析结果与定量指标的改善完全一致:混合训练破坏了模型原有的表征结构,而标注协调在扩大数据量的同时保持了表征空间的有序性。从表征质量的角度来看,Agentic Harmonization的作用并非简单的数据清洗,而是在语义层面消除了跨数据集标注不一致对特征学习的干扰。

图片来源于原论文


五、总结与思考

本文揭示了跨数据集标注的空间不一致会导致混合训练适得其反,并提出用VLM Agent在训练前协调标注差异。协调后的模型在17项指标中14项取得最优,检测F-score提升0.023,table TEDS提升0.014。

在此基础上,有两点值得关注:一是论文仅验证了两个数据集的协调,扩展到更多数据集时Agent逐页处理的成本和规则复杂度是否可控,尚未讨论;二是标注守恒约束不允许创建新标注,意味着源数据集的漏标问题无法通过协调修复。不过,"训练前用Agent做标注对齐"这一思路不限于文档布局,目标检测、语义分割等面临类似标注规范差异的任务也可借鉴。

相关推荐
鸿途优学-UU教育2 小时前
教材质量——法考培训的根基与底气
算法
_深海凉_2 小时前
LeetCode热题100-最大数(179)
算法·leetcode·职场和发展
OpenTiny社区2 小时前
多端开发头疼?TinyVue 3.30 一招搞定,AI还帮你写代码!
前端·vue.js·github
剑挑星河月3 小时前
763.划分字母区间
数据结构·算法·leetcode
programhelp_3 小时前
Snowflake OA 2026 面经|3道高频真题拆解 + 速通攻略
经验分享·算法·面试·职场和发展
文心快码BaiduComate3 小时前
里程碑突破 | 文心快码中标国家开发银行代码研发助手项目
前端·后端·架构
Duang3 小时前
AI 真能自己写出整个 Windows 系统吗?我做了一场无监督实验
算法·设计模式·架构
少许极端3 小时前
算法奇妙屋(四十五)-CCPC备战之旅-1
java·开发语言·算法
无小道3 小时前
算法——找规律
算法·规律