大语言模型能够理解的11种文件格式

一、引言:为什么表格格式对 LLM 如此重要?

在大语言模型广泛应用于 RAG、数据分析、自动化报告生成的今天,我们往往忽视了数据呈现格式 对模型理解能力的影响。无论是 CSV、JSON、Markdown 还是 YAML,不同的结构化数据表示方式,不仅影响模型的理解准确率 ,还直接关系到推理成本

本文基于一项系统性实验,测试了 11 种常见表格格式在 GPT-4.1-nano 模型上的表现,旨在为开发者、数据工程师和 AI 应用者提供数据格式选择的科学依据。


二、实验设计与方法论

2.1 数据集与模型

  • 数据集 :1000 条合成的员工记录,每条包含 8 个属性:
    • ID、姓名、年龄、城市、部门、薪资、工作经验、项目数量
  • 问题集:1000 个随机生成的查询问题,要求模型返回特定字段的值。
  • 模型:GPT-4.1-nano
  • 评估指标:准确率、95% 置信区间、Token 消耗量

2.2 测试格式概览

实验涵盖了以下 11 种数据表示格式:

  1. JSON
  2. CSV
  3. XML
  4. YAML
  5. HTML 表格
  6. Markdown 表格
  7. Markdown-KV(键值对)
  8. INI
  9. 竖线分隔格式
  10. JSONL
  11. 自然语言描述

三、实验结果总览

格式名称 准确率 Token 数量
Markdown-KV 60.7% 52,104
XML 56.0% 76,114
INI 55.7% 48,100
YAML 54.7% 55,395
HTML 53.6% 75,204
JSON 52.3% 66,396
Markdown-Table 51.9% 25,140
Natural-Language 49.6% 43,411
JSONL 45.0% 54,407
CSV 44.3% 19,524
Pipe-Delimited 41.1% 43,098

3.1 关键发现

  • Markdown-KV 表现最佳,准确率达 60.7%,比最低的 Pipe-Delimited 高出近 20%。
  • CSV 和 JSONL 表现较差,尽管它们在日常开发中使用频繁。
  • Token 效率与准确率之间存在权衡:Markdown-KV 的 Token 消耗是 CSV 的 2.7 倍。

四、格式对比与可视化分析

4.1 准确率 vs. Token 消耗散点图

CSV: 低Token, 低准确率
Markdown-Table: 平衡型
Markdown-KV: 高准确率, 高Token
XML/HTML: 高Token, 中准确率

4.2 格式结构对比(示例代码)

以下是三种典型格式的转换代码示例(Python):

python 复制代码
import pandas as pd

# 原始数据(DataFrame)
data = [
    {"id": 1, "name": "Diana A0", "age": 46, "city": "London", "department": "Engineering", "salary": 141015},
    {"id": 2, "name": "Grace B1", "age": 59, "city": "Berlin", "department": "Engineering", "salary": 100066}
]
df = pd.DataFrame(data)

# 转换为 Markdown-KV 格式
def to_markdown_kv(df):
    output = "# Employee Database\n\n"
    for idx, row in df.iterrows():
        output += f"## Record {idx + 1}\n\n```\n"
        for col, val in row.items():
            output += f"{col}: {val}\n"
        output += "```\n\n"
    return output

print(to_markdown_kv(df))

五、实用建议:如何选择表格格式?

场景 推荐格式 说明
高准确率需求 Markdown-KV 适合问答、检索任务
成本敏感型任务 Markdown-Table 平衡准确率与 Token 成本
结构化数据交换 JSON / YAML 通用性强,易于解析
避免使用 CSV / JSONL 在实测中理解能力较差

六、扩展讨论:模型训练与格式偏好

不同模型在训练过程中接触的数据格式不同,可能导致对某些格式的"偏好"。例如:

  • CodeLlama 可能更熟悉 JSON 或 YAML;
  • GPT系列 在 Markdown 和 HTML 上训练较多;
  • 领域特定模型(如金融、医疗)可能对特定格式更敏感。

七、英文词汇表

单词(短语) 音标 词性 词根/词缀 释义 搭配 例句
LLM /ɛl ɛl ˈɛm/ n. (abbr.) 大语言模型 LLM evaluation LLMs are widely used in NLP tasks.
Accuracy /ˈækjərəsi/ n. accur- 准确率 high accuracy The model achieved 95% accuracy.
Token /ˈtoʊkən/ n. - 令牌/词元 token count Each word is split into tokens.
Format /ˈfɔːrmæt/ n. form- 格式 data format JSON is a common data format.
Benchmark /ˈbentʃmɑːrk/ n. bench- 基准测试 performance benchmark We ran a benchmark on 11 formats.
Synthetic /sɪnˈθetɪk/ adj. syn- + thet 合成的 synthetic data We used synthetic employee records.
Pipeline /ˈpaɪplaɪn/ n. pipe + line 流水线/流程 RAG pipeline The data pipeline includes ETL and modeling.
Delimiter /dɪˈlɪmɪtər/ n. de- + limit 分隔符 pipe delimiter CSV uses commas as delimiters.
Confidence Interval /ˈkɑːnfɪdəns ˈɪntərvl/ n. con- + fid 置信区间 95% confidence interval The result is within the confidence interval.

八、总结

实验表明,数据格式对 LLM 的理解能力有显著影响 。选择适合的格式不仅能提升系统准确率,还能在成本与性能之间找到平衡。Markdown-KV 作为一种非标准但高效的格式,值得在高精度任务中尝试。

未来我们将继续研究嵌套结构、多模态表格、以及不同模型族对格式的敏感性。

相关推荐
aristotle5 分钟前
Openclow安装保姆级教程
人工智能·程序员
叶落阁主11 分钟前
揭秘 Happy:如何实现 AI 编程助手输出的实时同步
人工智能·claude·vibecoding
王鑫星15 分钟前
Anthropic 把自己发明的协议捐了:MCP 入驻 Linux 基金会,OpenAI 竟然也签了名
人工智能
陈少波AI应用笔记16 分钟前
OpenClaw安全实测:4种攻击方式与防护指南
人工智能
小锋java123416 分钟前
【技术专题】嵌入模型与Chroma向量数据库 - Chroma 集合查询操作
人工智能
ZFSS18 分钟前
OpenAI Images Edits API 申请及使用
前端·人工智能
智泊AI29 分钟前
一口气讲清:AI Agent 八大核心概念,建议收藏!
llm
Jackson_Li30 分钟前
Claude Code团队成员Thariq的Agent开发心得:Seeing like an agent
人工智能
卡尔AI工坊30 分钟前
2026年3月,我实操后最推荐的3个AI开源项目
人工智能·开源·ai编程
骑着小黑马37 分钟前
Electron + Vue3 + AI 做了一个新闻生成器:从 0 到 1 的完整实战记录
前端·人工智能