如何提升 LLMs 处理表格的准确率?一项针对 11 种格式的基准测试

编者按: 在构建基于大语言模型的 RAG 系统时,您是否曾思考过:究竟哪种表格数据格式能让 LLM 最准确高效地理解和提取信息?

我们今天为大家带来的文章,作者通过一项对照实验指出:表格格式对 LLM 的理解能力有显著影响,其中 Markdown-KV 格式在准确率上表现最佳,但也伴随着更高的 token 消耗。

文章详细介绍了作者针对 GPT-4.1-nano 模型进行的对照实验,测试了包括 CSV、JSON、Markdown Table、YAML 等在内的 11 种常见表格格式,使用 1000 条员工记录和对应问题,系统性地评估了各种格式在准确率和 token 消耗两个维度的表现。研究发现,虽然 Markdown-KV 格式准确率最高(60.7%),但也消耗了更多 token,而常见的 CSV 和 JSONL 格式表现不佳。

作者 | Improving Agents

编译 | 岳扬

在讨论基于 AI 的系统的可靠性时,有一个简单却常被忽视的问题:究竟用什么格式向大语言模型传递表格数据最合适?

应该用 Markdown table 还是 CSV?

选 JSON 抑或是 YAML?

或者有没有其他格式比上述这些都更优?

01 为什么这个问题很重要

当前许多 RAG pipeline 都需要处理含表格的文档,并将这些表格信息输入大语言模型。

1.1 系统准确性

若未能以易于大语言模型解析的格式呈现表格信息,可能会降低整个系统的准确性。

1.2 Token 成本

某些格式表示相同数据所需的 token 数量可能是其他格式的数倍。如果你按处理的 token 数量付费,那么格式的选择将直接影响你的 LLM 推理成本。

02 我们的实验方法

我们设计了一个对照实验,测试数据格式如何影响 LLM 回答该数据相关问题的准确性。

测试过程包含向大语言模型输入 1000 条记录,要求其根据数据回答问题,随后逐条评估是否回答正确。

我们针对 1,000 个问题,分别使用了 11 种不同的数据格式重复了这一过程。

  • 数据集:包含 8 个属性(ID、姓名、年龄、城市、部门、薪资、工作经验、项目数量)的 1000 条虚拟员工记录
  • 问题设置:1000 个针对具体数据点的随机查询
  • 测试模型:GPT-4.1-nano
  • 格式验证:11 种不同的数据呈现格式

2.1 示例问答对

复制代码
问:"Grace X413 有多少年工作经验?(只需返回数字,例如'12')"
答:"15"

问:"Alice W204的薪资是多少?(只需返回数字,例如'85200')"
答:"131370"

2.2 实验方法说明

我们选择向大语言模型传递相对大数量的记录来测试其极限。在实际应用中,处理大型结构化数据集时,通常需要对其进行分块处理和通过查询提取最相关的记录或信息,仅将精简后的上下文内容传递给大语言模型。

使用包含表头的表格格式(如 CSV、HTML table 和 Markdown table)时,建议定期重复表头(例如每 100 条记录重复一次)以增强理解。 为简化实验流程,本次实验未采用该做法。

03 大语言模型对不同表格格式的理解程度如何?

04 Highlights

  1. 表格格式似乎很重要:我们在不同格式之间观察到了明显的理解差异。
  2. CSV 和 JSONL 表现不佳:如果你目前默认使用其中一种格式,更换格式可能带来立竿见影的改进效果。
  3. Markdown-KV 表现最佳,准确率达到 60.7%,比 CSV 高出约 16 个百分点。(Markdown-KV 是我们对一种非标准化格式的称呼,该格式在 Markdown 中使用"key: value"键值对。)
  4. 提升准确率需要以 token 的消耗为代价:表现最佳的 Markdown-KV 格式所使用的 token 数量是 token 效率最高的格式(CSV)的 2.7 倍。

4.1 准确率与 token 成本的权衡

下图可视化了准确率与 token 使用量之间的关系(采用对数刻度),有助于说明这两个关键指标之间的平衡关系:

如图所示,总体趋势是 token 使用得越多,准确率越高,但并非线性相关。 有些格式表现超常(如 Markdown-KV),而另一些格式则在两个维度上都表现低效(如 Pipe-Delimited)。

05 所评估的数据格式

1)JSON

2)CSV

3)XML

4)YAML

5)HTML

6)Markdown Table

7)Markdown KV

8)INI

9)Pipe-Delimited

10)JSONL

11)Natural Language

06 实用建议

根据我们的实验结果:

  • 如果你大量使用表格数据,请考虑测试将数据转换为其他格式是否能提升准确率。
  • 准确率比较重要的场景下,Markdown-KV 可作为首选格式。
  • 需平衡可读性与成本,Markdown 的表格格式值得考虑。
  • 慎将 CSV 或 JSONL 作为默认格式 ------ 这些常见格式可能会影响系统的准确性。

07 该实验的局限性与后续研究方向

  • 模型与模型提供商: 我们仅测试了 OpenAI 的 GPT-4.1 nano。其他模型(尤其是来自其他提供商的模型)可能在不同数据格式下表现更佳(例如该模型训练时使用最多的格式)。
  • 数据内容: 我们仅测试了一种数据模式。使用其他数据模式时,结果可能不同。
  • 数据结构: 我们仅测试了简单的表格数据。若测试嵌套数据(如 JSON 配置文件)或包含合并单元格的表格,结果可能更有趣。
  • 表格尺寸与表头重复: 为测试模型性能极限,我们使用了相对较大的数据表,且未重复表头。我们预计,更小的表格以及重复表头行会带来更高的准确率,尤其对于 CSV、HTML 和 Markdown table 等依赖表头行的格式。
  • 问题类型: 我们的每个测试问题都对应于检索某条记录中某个字段的值。测试其他类型的问题也将很有意义。

END

本期互动内容 🍻

❓你最常使用哪种表格格式?看到 Markdown-KV 格式准确率领先 16% 的结果后,会考虑改变现有实践吗?为什么?

原文链接:

www.improvingagents.com/blog/best-i...

相关推荐
twc8294 小时前
大模型生成 QA Pairs 提升 RAG 应用测试效率的实践
服务器·数据库·人工智能·windows·rag·大模型测试
宇擎智脑科技4 小时前
A2A Python SDK 源码架构解读:一个请求是如何被处理的
人工智能·python·架构·a2a
IT_陈寒4 小时前
Redis缓存击穿:3个鲜为人知的防御策略,90%开发者都忽略了!
前端·人工智能·后端
电商API&Tina4 小时前
【电商API接口】开发者一站式电商API接入说明
大数据·数据库·人工智能·云计算·json
湘美书院--湘美谈教育4 小时前
湘美谈教育湘美书院网文研究:人工智能与微型小说选集
人工智能·深度学习·神经网络·机器学习·ai写作
uzong4 小时前
Harness Engineering 是什么?一场新的 AI 范式已经开始
人工智能·后端·架构
墨有6665 小时前
FieldFormer:基于物理场论的极简AI大模型底层架构,附带源码
人工智能·架构·电磁场算法映射
Mountain and sea5 小时前
从零搭建工业机器人激光切割+焊接产线:KUKA七轴协同+节卡AGV+视觉检测实战复盘
人工智能·机器人·视觉检测
山顶夕景5 小时前
【VLM】HopChain视觉语言推理多跳数据合成框架
大模型·llm·cot·vlm·视觉模型
倾颜5 小时前
我把本地 AI Chat 项目重构了一遍:用 LangChain.js + Ollama + Streamdown 搭了一个最小可扩展架构
langchain·llm·next.js