一、引言:为什么表格格式对 LLM 如此重要?
在大语言模型广泛应用于 RAG、数据分析、自动化报告生成的今天,我们往往忽视了数据呈现格式 对模型理解能力的影响。无论是 CSV、JSON、Markdown 还是 YAML,不同的结构化数据表示方式,不仅影响模型的理解准确率 ,还直接关系到推理成本。
本文基于一项系统性实验,测试了 11 种常见表格格式在 GPT-4.1-nano 模型上的表现,旨在为开发者、数据工程师和 AI 应用者提供数据格式选择的科学依据。
二、实验设计与方法论
2.1 数据集与模型
- 数据集 :1000 条合成的员工记录,每条包含 8 个属性:
- ID、姓名、年龄、城市、部门、薪资、工作经验、项目数量
- 问题集:1000 个随机生成的查询问题,要求模型返回特定字段的值。
- 模型:GPT-4.1-nano
- 评估指标:准确率、95% 置信区间、Token 消耗量
2.2 测试格式概览
实验涵盖了以下 11 种数据表示格式:
- JSON
- CSV
- XML
- YAML
- HTML 表格
- Markdown 表格
- Markdown-KV(键值对)
- INI
- 竖线分隔格式
- JSONL
- 自然语言描述
三、实验结果总览
| 格式名称 | 准确率 | Token 数量 |
|---|---|---|
| Markdown-KV | 60.7% | 52,104 |
| XML | 56.0% | 76,114 |
| INI | 55.7% | 48,100 |
| YAML | 54.7% | 55,395 |
| HTML | 53.6% | 75,204 |
| JSON | 52.3% | 66,396 |
| Markdown-Table | 51.9% | 25,140 |
| Natural-Language | 49.6% | 43,411 |
| JSONL | 45.0% | 54,407 |
| CSV | 44.3% | 19,524 |
| Pipe-Delimited | 41.1% | 43,098 |
3.1 关键发现
- Markdown-KV 表现最佳,准确率达 60.7%,比最低的 Pipe-Delimited 高出近 20%。
- CSV 和 JSONL 表现较差,尽管它们在日常开发中使用频繁。
- Token 效率与准确率之间存在权衡:Markdown-KV 的 Token 消耗是 CSV 的 2.7 倍。
四、格式对比与可视化分析
4.1 准确率 vs. Token 消耗散点图
CSV: 低Token, 低准确率
Markdown-Table: 平衡型
Markdown-KV: 高准确率, 高Token
XML/HTML: 高Token, 中准确率
4.2 格式结构对比(示例代码)
以下是三种典型格式的转换代码示例(Python):
python
import pandas as pd
# 原始数据(DataFrame)
data = [
{"id": 1, "name": "Diana A0", "age": 46, "city": "London", "department": "Engineering", "salary": 141015},
{"id": 2, "name": "Grace B1", "age": 59, "city": "Berlin", "department": "Engineering", "salary": 100066}
]
df = pd.DataFrame(data)
# 转换为 Markdown-KV 格式
def to_markdown_kv(df):
output = "# Employee Database\n\n"
for idx, row in df.iterrows():
output += f"## Record {idx + 1}\n\n```\n"
for col, val in row.items():
output += f"{col}: {val}\n"
output += "```\n\n"
return output
print(to_markdown_kv(df))
五、实用建议:如何选择表格格式?
| 场景 | 推荐格式 | 说明 |
|---|---|---|
| 高准确率需求 | Markdown-KV | 适合问答、检索任务 |
| 成本敏感型任务 | Markdown-Table | 平衡准确率与 Token 成本 |
| 结构化数据交换 | JSON / YAML | 通用性强,易于解析 |
| 避免使用 | CSV / JSONL | 在实测中理解能力较差 |
六、扩展讨论:模型训练与格式偏好
不同模型在训练过程中接触的数据格式不同,可能导致对某些格式的"偏好"。例如:
- CodeLlama 可能更熟悉 JSON 或 YAML;
- GPT系列 在 Markdown 和 HTML 上训练较多;
- 领域特定模型(如金融、医疗)可能对特定格式更敏感。
七、英文词汇表
| 单词(短语) | 音标 | 词性 | 词根/词缀 | 释义 | 搭配 | 例句 |
|---|---|---|---|---|---|---|
| LLM | /ɛl ɛl ˈɛm/ | n. | (abbr.) | 大语言模型 | LLM evaluation | LLMs are widely used in NLP tasks. |
| Accuracy | /ˈækjərəsi/ | n. | accur- | 准确率 | high accuracy | The model achieved 95% accuracy. |
| Token | /ˈtoʊkən/ | n. | - | 令牌/词元 | token count | Each word is split into tokens. |
| Format | /ˈfɔːrmæt/ | n. | form- | 格式 | data format | JSON is a common data format. |
| Benchmark | /ˈbentʃmɑːrk/ | n. | bench- | 基准测试 | performance benchmark | We ran a benchmark on 11 formats. |
| Synthetic | /sɪnˈθetɪk/ | adj. | syn- + thet | 合成的 | synthetic data | We used synthetic employee records. |
| Pipeline | /ˈpaɪplaɪn/ | n. | pipe + line | 流水线/流程 | RAG pipeline | The data pipeline includes ETL and modeling. |
| Delimiter | /dɪˈlɪmɪtər/ | n. | de- + limit | 分隔符 | pipe delimiter | CSV uses commas as delimiters. |
| Confidence Interval | /ˈkɑːnfɪdəns ˈɪntərvl/ | n. | con- + fid | 置信区间 | 95% confidence interval | The result is within the confidence interval. |
八、总结
实验表明,数据格式对 LLM 的理解能力有显著影响 。选择适合的格式不仅能提升系统准确率,还能在成本与性能之间找到平衡。Markdown-KV 作为一种非标准但高效的格式,值得在高精度任务中尝试。
未来我们将继续研究嵌套结构、多模态表格、以及不同模型族对格式的敏感性。