ChartCap：利用大型数据集和新的评估指标抑制图表标题幻觉

该研究旨在确保整合视觉和语言的模型能够生成 "准确且信息丰富的图表说明（标题）"。

现有的图表标题数据集面临两大挑战。

首先，从论文和报告中提取的标题包含无法从图表图像中读取的无关信息。

其次，标题不能充分体现重要的见解，如坐标轴、图例和其他结构、最大值和趋势。

这些问题在模型中造成了 "幻觉"（halucinations），导致了错误的表述。

因此，作者构建了一个新的数据集--ChartCap，该数据集包含 56 万多张真实世界的图表，这些图表具有高质量的标题，对结构元素和重要见解没有过多或过少的表述，也没有无关信息。

我们还提出了一种新的衡量标准--视觉一致性得分，它可以根据生成的标题复制图表，并通过与原始图像进行比较来对其进行评估。

这样就能客观地衡量模型忠实、准确地描述实际图表的能力。

作者设计了一个四阶段自动生成管道来构建 ChartCap 数据集。

首先，只从数百万张图片中提取数据驱动的图表，不包括图表以外的图表（如概念图和示意图）。

然后，使用 GPT-4o 和其他工具识别图表类型和标题。

然后，根据为每种图表类型定义的模式，提取图例、坐标轴、极值和趋势等结构元素和见解。

在这一过程中，GPT-4o 和 Claude 3.5 Sonnet 分工合作，前者负责粗略的趋势识别，后者负责需要数字精确度的处理。

提取结果被编译成半结构化格式，最后转换成自然语言说明。

为了进一步保证质量，还引入了基于周期一致性的验证，即 "根据标题生成 Python 代码，并将重建的图表与原始图像进行比较"，而不是由人工直接检查所有内容。

这不仅简化了人工视觉检查，还能以低成本构建兼具准确性和全面性的大型数据集。

实验将在 ChartCap 上训练的模型与现有的开源模型和商业模型进行了比较。

除了传统的 BLEU 和 ROUGE 外，还使用了建议的视觉一致性得分（VCS）和 OCRScore 作为评估指标。

结果显示，与传统模型相比，使用 ChartCap 微调的模型生成的字幕更准确、更翔实、更不虚假。

其中，Phi3.5-Vision-4B 和 InternVL2.5-8B 等开源模型在使用 ChartCap 进行微调后，甚至超过了商业 Claude 3.5 Sonnet。

它们还在 VisText 和 Chart-to-Text 等其他人工验证数据集上实现了零误差的高准确率，证明了它们的泛化能力。

此外，对人类评分的比较表明，在许多情况下，使用 ChartCap 训练的模型的输出结果比现有的人类撰写的标题更受欢迎。

这表明，ChartCap 比传统数据集更有效，可以为理解和解释真实世界的图表做出重大贡献。