大语言模型能够理解的11种文件格式

一、引言：为什么表格格式对 LLM 如此重要？

在大语言模型广泛应用于 RAG、数据分析、自动化报告生成的今天，我们往往忽视了数据呈现格式 对模型理解能力的影响。无论是 CSV、JSON、Markdown 还是 YAML，不同的结构化数据表示方式，不仅影响模型的理解准确率 ，还直接关系到推理成本。

本文基于一项系统性实验，测试了 11 种常见表格格式在 GPT-4.1-nano 模型上的表现，旨在为开发者、数据工程师和 AI 应用者提供数据格式选择的科学依据。

二、实验设计与方法论

2.1 数据集与模型

数据集 ：1000 条合成的员工记录，每条包含 8 个属性：
- ID、姓名、年龄、城市、部门、薪资、工作经验、项目数量
问题集：1000 个随机生成的查询问题，要求模型返回特定字段的值。
模型：GPT-4.1-nano
评估指标：准确率、95% 置信区间、Token 消耗量

2.2 测试格式概览

实验涵盖了以下 11 种数据表示格式：

JSON
CSV
XML
YAML
HTML 表格
Markdown 表格
Markdown-KV（键值对）
INI
竖线分隔格式
JSONL
自然语言描述

三、实验结果总览

格式名称	准确率	Token 数量
Markdown-KV	60.7%	52,104
XML	56.0%	76,114
INI	55.7%	48,100
YAML	54.7%	55,395
HTML	53.6%	75,204
JSON	52.3%	66,396
Markdown-Table	51.9%	25,140
Natural-Language	49.6%	43,411
JSONL	45.0%	54,407
CSV	44.3%	19,524
Pipe-Delimited	41.1%	43,098

3.1 关键发现

Markdown-KV 表现最佳，准确率达 60.7%，比最低的 Pipe-Delimited 高出近 20%。
CSV 和 JSONL 表现较差，尽管它们在日常开发中使用频繁。
Token 效率与准确率之间存在权衡：Markdown-KV 的 Token 消耗是 CSV 的 2.7 倍。

四、格式对比与可视化分析

4.1 准确率 vs. Token 消耗散点图

CSV: 低Token, 低准确率
Markdown-Table: 平衡型
Markdown-KV: 高准确率, 高Token
XML/HTML: 高Token, 中准确率

4.2 格式结构对比（示例代码）

以下是三种典型格式的转换代码示例（Python）：

python 复制代码

import pandas as pd

# 原始数据（DataFrame）
data = [
    {"id": 1, "name": "Diana A0", "age": 46, "city": "London", "department": "Engineering", "salary": 141015},
    {"id": 2, "name": "Grace B1", "age": 59, "city": "Berlin", "department": "Engineering", "salary": 100066}
]
df = pd.DataFrame(data)

# 转换为 Markdown-KV 格式
def to_markdown_kv(df):
    output = "# Employee Database\n\n"
    for idx, row in df.iterrows():
        output += f"## Record {idx + 1}\n\n```\n"
        for col, val in row.items():
            output += f"{col}: {val}\n"
        output += "```\n\n"
    return output

print(to_markdown_kv(df))

五、实用建议：如何选择表格格式？

场景	推荐格式	说明
高准确率需求	Markdown-KV	适合问答、检索任务
成本敏感型任务	Markdown-Table	平衡准确率与 Token 成本
结构化数据交换	JSON / YAML	通用性强，易于解析
避免使用	CSV / JSONL	在实测中理解能力较差

六、扩展讨论：模型训练与格式偏好

不同模型在训练过程中接触的数据格式不同，可能导致对某些格式的"偏好"。例如：

CodeLlama 可能更熟悉 JSON 或 YAML；
GPT系列 在 Markdown 和 HTML 上训练较多；
领域特定模型（如金融、医疗）可能对特定格式更敏感。

七、英文词汇表

单词（短语）	音标	词性	词根/词缀	释义	搭配	例句
LLM	/ɛl ɛl ˈɛm/	n.	(abbr.)	大语言模型	LLM evaluation	LLMs are widely used in NLP tasks.
Accuracy	/ˈækjərəsi/	n.	accur-	准确率	high accuracy	The model achieved 95% accuracy.
Token	/ˈtoʊkən/	n.	-	令牌/词元	token count	Each word is split into tokens.
Format	/ˈfɔːrmæt/	n.	form-	格式	data format	JSON is a common data format.
Benchmark	/ˈbentʃmɑːrk/	n.	bench-	基准测试	performance benchmark	We ran a benchmark on 11 formats.
Synthetic	/sɪnˈθetɪk/	adj.	syn- + thet	合成的	synthetic data	We used synthetic employee records.
Pipeline	/ˈpaɪplaɪn/	n.	pipe + line	流水线/流程	RAG pipeline	The data pipeline includes ETL and modeling.
Delimiter	/dɪˈlɪmɪtər/	n.	de- + limit	分隔符	pipe delimiter	CSV uses commas as delimiters.
Confidence Interval	/ˈkɑːnfɪdəns ˈɪntərvl/	n.	con- + fid	置信区间	95% confidence interval	The result is within the confidence interval.

八、总结

实验表明，数据格式对 LLM 的理解能力有显著影响 。选择适合的格式不仅能提升系统准确率，还能在成本与性能之间找到平衡。Markdown-KV 作为一种非标准但高效的格式，值得在高精度任务中尝试。

未来我们将继续研究嵌套结构、多模态表格、以及不同模型族对格式的敏感性。