STRUC-BENCH: Are Large Language Models Good at Generating Complex Structured Tabular Data?
STRUC-BENCH:大型语言模型擅长生成复杂的结构化表格数据吗?23年arXiv.org
1概括
这篇论文旨在评估大型语言模型(LLMs)在生成结构化表格数据方面的能力,并提出了一些创新方法来提高模型性能。
问题背景:
- 尽管大型语言模型(如GPT-4)在自然语言处理任务中表现出色,但在生成复杂的结构化数据(如表格、HTML或LaTeX格式)时仍存在挑战。
- 研究强调当前缺乏系统性的基准和指标来评估模型在这些任务中的性能。
核心贡献:
- 提出了一种新的基准测试(Benchmark),名为STRUC-BENCH,覆盖多种数据格式,包括文本表格、HTML和LaTeX。
- 设计了一种新方法,FORMATCOT(结构感知的提示优化),用于生成特定格式的提示数据,以改进模型的微调过程。
- 引入了两个新评价指标:
- P-Score:通过模型自身对生成内容和格式的相似性进行评分。
- H-Score :使用启发式规则计算生成表格与目标表格的相似性。
工作流程概述:我们首先创建原始文本表、HTML表和LATEX表的数据集。随后,LLaMA-7B使用FORMATCOT构建的训练数据进行训练。最后,我们的基准测试验证了当前LLM生成此类表的有效性。
2 问题分析和Benchmark
2.1问题分析
为了评估LLM将文本描述转换为结构化表格的能力,我们使用了RotoWire数据集,该数据集原本是一个从表格到文本的数据集,我们将其反过来作为一个从文本到表格的任务。在通过对20个样本的审查确保描述包含足够的表格生成信息后,我们发现GPT-3.5和GPT-4的性能有很大的局限性,尤其是在处理复杂结构时。
在以表格等精确格式生成数据的测试中,GPT-3.5和GPT-4尽管功能先进,却经常出错,MTurk系统性人工注释研究就证明了这一点。图2量化了错误类型,分为"元素错误"、"元素格式错误"、"结构错误"和"结构命名错误"。
图2 人工注释的错误分析
GPT-3.5仅有3%的输出完全准确,而GPT-4仅有9%略好于GPT-3.5。这些结果表明,GPT架构在设计上存在局限性,尽管它能有效地模仿语言模式,但在需要较长序列的持续结构连贯性的任务中显得力不从心。
2.2 Benchmark Construction( 基准建设 )
研究者们构建了一个名为STRUC-BENCH的基准测试,涵盖了文本表格、HTML和LaTeX格式。他们从RotoWire数据集和The Stack中选择了大于3x3的表格,以确保数据集的多样性和复杂性。STRUC-BENCH包括了对四个流行LLMs(GPT-NeoX-20B、GPT-3.5、GPT-4和Vicuna)的评估。
表1 STRUC-BENCH数据统计。行数和列数已取平均值。
3方法
3.1 数据生成
如图3,提出了FORMATCOT,使用GPT-3.5生成格式指令,这是一种自指导方法,用于生成{数据、指令}对,以达到微调的目的。具体来说,我们对FORMATCOT的提示涉及指导模型准确描述和解释输出表格中呈现的格式元素。
图3:左上角的框表示原始输入,明显缺少对格式的描述。为了明确指示模型理解格式,我们使用位于右侧的FORMATCOT,它生成<FORMAT INSTRUCTION>。左下角的框说明了通过FORMATCOT后LLaMA微调的输入是什么样子。<TEXT>为预期的表输出(原始输入)提供描述性文本,<TABLE>用作参考表(输出),<FORMAT INSTRUCTION>是通过FORMATCOT生成的格式指南(添加到输入中)。
3.2评估指标
提出了P-Score(基于模型的评估)和H-Score(基于启发式的评估)两种新指标,以更准确地衡量LLMs的性能。
P-Score
我们采用两种方法对每个指标进行评分。首先,我们执行基于模型的评估,用两个表查询GPT-3.5,让它分别对内容和格式的相似性进行评分。我们会提示模型在输出分数前执行Chain-of-Thought (CoT) 思维链推理,用预测表和真值表两种顺序查询模型,然后平均分数。以P-Score(提示分数)的形式报告这些结果。
H-Score
此外,我们还采用了手工制作的评分函数来对表格的相似性进行评分。由于表格可以以不同的格式呈现,我们采用了几种启发式方法对表格进行归一化处理并计算其相似性。我们使用Levenshtein距离的平均值和Ratclif-f/Obershelp相似性度量来计算字符串或数据结构之间的相似性。这些启发式归一化指标以 H-Score的形式报告。
4实验
4.1实验设置
评估指标 :使用了包括SacreBLEU、ROUGE-L、BERTScore、BARTScore、BLEURT在内的多种传统文本相似度评估指标,以及文章提出的两个新指标:P-Score和H-Score。
评估模型:包括GPT-NeoX-20B、GPT-3.5、GPT-4、Vicuna-13B、LLaMA-7B,以及经过微调的LLaMA-7B模型。
数据集:每个项目由三部分组成:指令、输入和输出。生成结果时,将每个项目的指令和输入合并为模型的最终输入。
推理过程:在推理过程中,用户提供自然语言提示,描述任务的格式和内容,以及预期的响应。
4.2人工评估
评估内容和格式质量:通过人工评估,关注内容和格式质量,使用10分制评分。
评估结果 :P-Score和H-Score与人类判断有显著相关性,表明这些指标在评估结构化输出方面的有效性和可靠性。内容P-Score显示出最佳的实例级相关性。
4.3实验结果
表2根据几个指标对不同的LLM进行了比较分析。对于"来自原始文本的表格"(Tables from Raw Text),Ours-7B 在每个指标上都优于其他模型。如果不进行微调,Ours-7B的性能会明显下降,尤其是在SacreBLEU、ROUGE-L和BERTScore方面。不过,这些差异很小,7B模型在其他指标上都名列前茅。
这些结果表明,我们的方法表现出了卓越的性能,凸显了微调较小模型超越较大模型的功效。此外,我们还深入分析了基于我们的Mturk注释,将观察到的缺陷归因于几种错误类型。我们还在图5中展示了能力图。
表2:测试集上的自动评估结果,包括五种以前的度量标准和四种建议的度量标准。 w.o.f inetune表示我们还比较了未进行微调的模型的性能,作为一项消融研究。Ours-7B "是经过微调的LLaMA。
5局限性
虽然我们进行了全面的分析,但本文对结构化文本生成中LLM的探索还存在一些局限性:
探究表格表示的最佳格式 在这项研究中,我们没有调查哪种表格格式最有效 。相同信息的不同呈现方式可能是合理的,而表格规范化策略,如确定将给定事实表格化的最佳方式或如何将多个表格相互连接等,仍有待探索。未来的研究可以对表格规范化进行研究,以确定表格数据结构和表示的最佳策略。
扩大数据集范围 可以探索的数据类型和来源是无穷无尽的。纳入更广泛的数据集可以让模型接触到更广泛的结构格式,最终提高其整体性能。
增强数字推理能力 我们的研究发现,数字推理能力不足是 LLM 面临的挑战之一。研究加强这些模型的数字推理能力的技术可以显著提高它们的性能。
开发先进方法虽然我们提出的结构感知的指令微调方法(structure-aware instruction tuning method)显示出了很好的效果,但我们还可以开发更先进的技术。例如,未来的工作可以探索将更明确的结构信息纳入模型的方法,或者开发能让模型更有效地学习结构模式的方法。
探索多模态LLMs 随着LLM的不断发展,我们有机会探索多模态模型,这些模型可以以结构化的方式处理和生成文本以及其他形式的数据,如声音或图像。
目前研一,有相似方向的朋友我们可以交流学习呀