大语言模型能够理解的11种文件格式

一、引言:为什么表格格式对 LLM 如此重要?

在大语言模型广泛应用于 RAG、数据分析、自动化报告生成的今天,我们往往忽视了数据呈现格式 对模型理解能力的影响。无论是 CSV、JSON、Markdown 还是 YAML,不同的结构化数据表示方式,不仅影响模型的理解准确率 ,还直接关系到推理成本

本文基于一项系统性实验,测试了 11 种常见表格格式在 GPT-4.1-nano 模型上的表现,旨在为开发者、数据工程师和 AI 应用者提供数据格式选择的科学依据。


二、实验设计与方法论

2.1 数据集与模型

  • 数据集 :1000 条合成的员工记录,每条包含 8 个属性:
    • ID、姓名、年龄、城市、部门、薪资、工作经验、项目数量
  • 问题集:1000 个随机生成的查询问题,要求模型返回特定字段的值。
  • 模型:GPT-4.1-nano
  • 评估指标:准确率、95% 置信区间、Token 消耗量

2.2 测试格式概览

实验涵盖了以下 11 种数据表示格式:

  1. JSON
  2. CSV
  3. XML
  4. YAML
  5. HTML 表格
  6. Markdown 表格
  7. Markdown-KV(键值对)
  8. INI
  9. 竖线分隔格式
  10. JSONL
  11. 自然语言描述

三、实验结果总览

格式名称 准确率 Token 数量
Markdown-KV 60.7% 52,104
XML 56.0% 76,114
INI 55.7% 48,100
YAML 54.7% 55,395
HTML 53.6% 75,204
JSON 52.3% 66,396
Markdown-Table 51.9% 25,140
Natural-Language 49.6% 43,411
JSONL 45.0% 54,407
CSV 44.3% 19,524
Pipe-Delimited 41.1% 43,098

3.1 关键发现

  • Markdown-KV 表现最佳,准确率达 60.7%,比最低的 Pipe-Delimited 高出近 20%。
  • CSV 和 JSONL 表现较差,尽管它们在日常开发中使用频繁。
  • Token 效率与准确率之间存在权衡:Markdown-KV 的 Token 消耗是 CSV 的 2.7 倍。

四、格式对比与可视化分析

4.1 准确率 vs. Token 消耗散点图

CSV: 低Token, 低准确率
Markdown-Table: 平衡型
Markdown-KV: 高准确率, 高Token
XML/HTML: 高Token, 中准确率

4.2 格式结构对比(示例代码)

以下是三种典型格式的转换代码示例(Python):

python 复制代码
import pandas as pd

# 原始数据(DataFrame)
data = [
    {"id": 1, "name": "Diana A0", "age": 46, "city": "London", "department": "Engineering", "salary": 141015},
    {"id": 2, "name": "Grace B1", "age": 59, "city": "Berlin", "department": "Engineering", "salary": 100066}
]
df = pd.DataFrame(data)

# 转换为 Markdown-KV 格式
def to_markdown_kv(df):
    output = "# Employee Database\n\n"
    for idx, row in df.iterrows():
        output += f"## Record {idx + 1}\n\n```\n"
        for col, val in row.items():
            output += f"{col}: {val}\n"
        output += "```\n\n"
    return output

print(to_markdown_kv(df))

五、实用建议:如何选择表格格式?

场景 推荐格式 说明
高准确率需求 Markdown-KV 适合问答、检索任务
成本敏感型任务 Markdown-Table 平衡准确率与 Token 成本
结构化数据交换 JSON / YAML 通用性强,易于解析
避免使用 CSV / JSONL 在实测中理解能力较差

六、扩展讨论:模型训练与格式偏好

不同模型在训练过程中接触的数据格式不同,可能导致对某些格式的"偏好"。例如:

  • CodeLlama 可能更熟悉 JSON 或 YAML;
  • GPT系列 在 Markdown 和 HTML 上训练较多;
  • 领域特定模型(如金融、医疗)可能对特定格式更敏感。

七、英文词汇表

单词(短语) 音标 词性 词根/词缀 释义 搭配 例句
LLM /ɛl ɛl ˈɛm/ n. (abbr.) 大语言模型 LLM evaluation LLMs are widely used in NLP tasks.
Accuracy /ˈækjərəsi/ n. accur- 准确率 high accuracy The model achieved 95% accuracy.
Token /ˈtoʊkən/ n. - 令牌/词元 token count Each word is split into tokens.
Format /ˈfɔːrmæt/ n. form- 格式 data format JSON is a common data format.
Benchmark /ˈbentʃmɑːrk/ n. bench- 基准测试 performance benchmark We ran a benchmark on 11 formats.
Synthetic /sɪnˈθetɪk/ adj. syn- + thet 合成的 synthetic data We used synthetic employee records.
Pipeline /ˈpaɪplaɪn/ n. pipe + line 流水线/流程 RAG pipeline The data pipeline includes ETL and modeling.
Delimiter /dɪˈlɪmɪtər/ n. de- + limit 分隔符 pipe delimiter CSV uses commas as delimiters.
Confidence Interval /ˈkɑːnfɪdəns ˈɪntərvl/ n. con- + fid 置信区间 95% confidence interval The result is within the confidence interval.

八、总结

实验表明,数据格式对 LLM 的理解能力有显著影响 。选择适合的格式不仅能提升系统准确率,还能在成本与性能之间找到平衡。Markdown-KV 作为一种非标准但高效的格式,值得在高精度任务中尝试。

未来我们将继续研究嵌套结构、多模态表格、以及不同模型族对格式的敏感性。

相关推荐
工程师老罗6 小时前
Pytorch中的优化器及其用法
人工智能·pytorch·python
2501_948120157 小时前
大语言模型与爬虫技术融合的智能数据采集系统
人工智能·爬虫·语言模型
老蒋每日coding7 小时前
AI Agentic 交互:从图形界面到现实世界环境
人工智能
github.com/starRTC7 小时前
Claude Code中英文系列教程24:使用钩子hooks扩展 Claude Code 的行为
人工智能·ai编程
名字不好奇7 小时前
词嵌入与向量化
人工智能
子午7 小时前
【2026计算机毕设~AI项目】鸟类识别系统~Python+深度学习+人工智能+图像识别+算法模型
图像处理·人工智能·python·深度学习
发哥来了7 小时前
《AI视频生成工具选型评测:多维度解析主流产品优劣势》
人工智能
DisonTangor7 小时前
美团龙猫开源LongCat-Flash-Lite
人工智能·语言模型·自然语言处理·开源·aigc
杨浦老苏7 小时前
Docker方式安装你的私人AI电脑助手Moltbot
人工智能·docker·ai·群晖
昨夜见军贴06167 小时前
功能决定效率:IACheck的AI审核在生产型检测报告中的实践观察
人工智能