混合训练反而更差?VLM Agent在训练前协调跨数据集标注,文档布局检测F-score从0.860提升至0.883

导读

多数据集混合训练是提升模型泛化能力的常见策略,但如果不同数据集对同一语义类别采用了不同的空间标注规范,直接混合会怎样?Unstructured Technologies的研究团队给出了一个反直觉的答案:直接混合训练不仅没有提升,反而让预训练模型的表格识别指标(table TEDS)从0.800降到0.750,单元格内容准确率从0.767降到0.715。

为解决这一问题,他们提出了Agentic Harmonization方法,在训练之前利用VLM Agent逐页协调不同数据集间的标注差异,将标注统一到同一规范下。协调后的模型不仅恢复了退化的性能,还在17项评估指标中的14项取得最优,检测F-score从0.860提升至0.883,table TEDS从0.800提升至0.814。


论文信息

  • 标题:Improving Layout Representation Learning Across Inconsistently Annotated Datasets via Agentic Harmonization
  • 作者:Renyu Li, Vladimir Kirilenko, Yao You, Crag Wolfe
  • 机构:Unstructured Technologies

一、跨数据集标注不一致:被忽视的训练陷阱

文档布局检测旨在识别页面中的段落、标题、表格、列表等结构元素。在实际应用中,研究者通常希望通过混合多个数据集来扩大训练数据量,从而提升模型的泛化能力。然而,不同数据集之间存在两类根本性的标注不一致。

分类不对齐 。论文使用的两个数据集------Unstructured (私有,47,744张训练图像,810,644条标注,16个类别)和DocLayNet 25k(公开,25,000张图像,328,756条标注,10个类别)------在类别定义上存在显著差异。16个Unstructured类别和10个DocLayNet类别之间,只有8个可以直接对应(如paragraph对应Text,subheading对应Section-header)。Unstructured独有checkbox、code_snippet、form等8个类别,DocLayNet独有Caption和List-item两个类别。

空间不一致 。即使在共享的类别之间,标注框的空间范围也差异悬殊。例如,table区域在Unstructured中比DocLayNet大5.2倍 ,page_footer框大6.3倍 ,subheading框大4.7倍。这意味着同一个段落,一个数据集可能标注为包含周围空白的粗粒度块,另一个数据集则标注为与OCR边界对齐的细粒度框。

这种不一致的后果在实验中体现得非常明显。论文以IBM Docling Heron (基于RT-DETR v2,ResNet-50vd backbone,6层decoder)为基础检测器,在SCORE-Bench评估框架下进行测试。直接混合两个数据集进行训练(Naive mixed fine-tuning),表格相关指标全面退化:table TEDS从0.800降到0.750(-0.050),cell_level_content_acc从0.767降到0.715(-0.052),page_teds从0.778降到0.733(-0.045)。混合训练不是简单的"数据越多越好"。

图片来源于原论文


二、Agentic Harmonization:VLM Agent驱动的标注协调

针对上述问题,论文提出了Agentic Harmonization方法,核心思路是:在训练之前,用VLM Agent逐页审视并转换源数据集的标注,使其与目标标注标准对齐。

形式化描述。给定K个源数据集D_k = {(I_i, A_i)},其中I_i为页面图像,A_i为标注集合。Agent F将每页标注转换为协调后的版本:Â_i = F(I_i, A_i; R),其中R是从目标检测器原生标注标准中提取的结构化规则集。Agent将M_i个源标注划分为G_i个不相交组S_r,每组通过统一算子M_R转换为一个协调标注â_r。

Agent的决策依赖两种推理信号:

  • 视觉推理:Agent观察页面图像,理解实际的视觉布局结构,而非仅依靠标签名称做出判断
  • 语言推理:Agent理解标签语义和不同标注规范之间的差异,做出合理的映射决策

对于每个源标注,Agent可以执行三种操作之一:保留 原有标注、与相邻标注合并 、或对边界/类别进行修正

两个关键设计约束保证了协调过程的可靠性:

  1. 视觉接地推理(Visually-Grounded Reasoning) :Agent的所有决策必须基于实际页面图像中的视觉结构,避免仅凭标签名称做出错误映射。例如,一个被标为"Text"的区域,Agent需要看到图像后才能判断它在目标标准下应该是paragraph还是list_item。
  2. 标注守恒(Annotation Conservation) :每个输入标注在输出中必须恰好出现一次------要么被保留,要么被合并到某个组中,要么被修正。不允许凭空创建新标注,也不允许删除任何输入标注。这一约束确保了协调过程的可追溯性。

统一后的分类法包含17个类别,保留了Unstructured的细粒度form和checkbox类别,同时纳入了DocLayNet的figure_caption和list_item。


三、实验结果:协调训练全面超越预训练和混合训练

论文在SCORE-Bench上对三种训练策略进行了系统对比:预训练模型(Heron)、直接混合训练(Naive)、协调后训练(Harmonized)。评估覆盖17项指标,从检测精度、表格结构识别到端到端文档转换质量。

核心结果汇总(Table 5):

指标 Heron(预训练) Naive(混合训练) Harmonized(协调后)
detection_f 0.860 0.858 0.883
detection_precision 0.868 0.868 0.885
detection_recall 0.858 0.858 0.887
table_teds 0.800 0.750 0.814
table_teds_corrected 0.777 0.730 0.792
cell_level_content_acc 0.767 0.715 0.771
cell_level_index_acc 0.764 0.725 0.778
page_teds_corrected 0.778 0.733 0.790
adjusted_NED 0.870 0.871 0.872
bbox_mean_iou (越低越好) 0.043 0.019 0.016
bbox_max_iou (越低越好) 0.079 0.045 0.035

几个关键发现值得关注:

协调模型在17项指标中14项取得最优。仅element_alignment(0.579 vs. 预训练0.585)、percent_tokens_found(0.946 vs. 预训练0.947)和percent_tokens_added(0.049 vs. 混合训练0.046)三项略低,且差距极小。

混合训练对表格指标的破坏是系统性的。table_teds下降0.050,cell_level_content_acc下降0.052,page_teds下降0.045,shifted_cell_content_acc下降0.055。这说明标注空间不一致对结构化元素(尤其是表格)的影响最为严重。

协调训练不仅恢复了退化,还超越了预训练基线。table_teds从0.800提升到0.814(+0.014),detection_f从0.860提升到0.883(+0.023),detection_recall从0.858提升到0.887(+0.029)。这证明额外数据在标注对齐后确实带来了增益。

空间预测质量显著提升。bbox_mean_iou从0.043降至0.016(-0.027),bbox_max_iou从0.079降至0.035(-0.044),说明协调训练后模型预测的边界框重叠更少、空间定位更精确。


四、实验分析:表征空间的可视化验证

论文通过UMAP可视化对三种训练策略下的post-decoder嵌入空间进行了分析,从表征层面揭示了性能差异的内在原因。

整体聚类质量对比(Figure 3)

  • 预训练模型:各类别有一定程度的聚类,但类间存在纠缠现象
  • 混合训练模型:聚类出现碎片化,类间边界模糊,不同类别的嵌入混合加剧
  • 协调训练模型:聚类更加紧凑,类间边界更清晰,表征质量明显优于前两者

易混淆类对分析(Figure 4) 。论文特别关注了几组语义相近但类别不同的元素对:

  • paragraph vs list_item:这两个类别在视觉上非常接近(都是文本块),混合训练后两者在嵌入空间中严重重叠,而协调训练显著改善了分离度
  • title vs subheading:层级不同但外观相似,协调训练后模型能更好地区分两者
  • checkbox vs checkbox_checked:细粒度状态差异,协调训练也帮助模型学到了更有区分度的表征

这些表征分析结果与定量指标的改善完全一致:混合训练破坏了模型原有的表征结构,而标注协调在扩大数据量的同时保持了表征空间的有序性。从表征质量的角度来看,Agentic Harmonization的作用并非简单的数据清洗,而是在语义层面消除了跨数据集标注不一致对特征学习的干扰。

图片来源于原论文


五、总结与思考

本文揭示了跨数据集标注的空间不一致会导致混合训练适得其反,并提出用VLM Agent在训练前协调标注差异。协调后的模型在17项指标中14项取得最优,检测F-score提升0.023,table TEDS提升0.014。

在此基础上,有两点值得关注:一是论文仅验证了两个数据集的协调,扩展到更多数据集时Agent逐页处理的成本和规则复杂度是否可控,尚未讨论;二是标注守恒约束不允许创建新标注,意味着源数据集的漏标问题无法通过协调修复。不过,"训练前用Agent做标注对齐"这一思路不限于文档布局,目标检测、语义分割等面临类似标注规范差异的任务也可借鉴。

相关推荐
NorburyL2 小时前
DPO笔记
深度学习·算法
老纪的技术唠嗑局2 小时前
深度解析 LLM Wiki / Obsidian-Wiki / GBrain:Agent 时代知识的“自组织”与“自进化”
大数据·数据库·人工智能·算法
逛逛GitHub4 小时前
你的 Mac 就是一个 AI Agent,4B 模型本地操控电脑。
github
YXXY3135 小时前
模拟算法的介绍
算法
happymaker06265 小时前
简单LRU的实现(基于LinkedHashMap)
算法·leetcode·lru
会编程的土豆5 小时前
【数据结构与算法】空间复杂度从入门到面试:不仅会算,还要会解释
数据结构·c++·算法·面试·职场和发展
普通网友5 小时前
《算法面试必刷:15 个高频 LeetCode 题(附代码)》
算法·leetcode·面试
_深海凉_5 小时前
LeetCode热题100-搜索二维矩阵
算法·leetcode·矩阵
张槊哲6 小时前
C++ 进阶指南:如何丝滑地理解与实践多线程与多进程
开发语言·c++·算法
铁皮哥6 小时前
【后端/Agent 开发】给你的项目配置一套 .claude/ 工作流:别再裸用 Claude Code 了!
java·windows·python·spring·github·maven·生活