大语言模型能够理解的11种文件格式

一、引言:为什么表格格式对 LLM 如此重要?

在大语言模型广泛应用于 RAG、数据分析、自动化报告生成的今天,我们往往忽视了数据呈现格式 对模型理解能力的影响。无论是 CSV、JSON、Markdown 还是 YAML,不同的结构化数据表示方式,不仅影响模型的理解准确率 ,还直接关系到推理成本

本文基于一项系统性实验,测试了 11 种常见表格格式在 GPT-4.1-nano 模型上的表现,旨在为开发者、数据工程师和 AI 应用者提供数据格式选择的科学依据。


二、实验设计与方法论

2.1 数据集与模型

  • 数据集 :1000 条合成的员工记录,每条包含 8 个属性:
    • ID、姓名、年龄、城市、部门、薪资、工作经验、项目数量
  • 问题集:1000 个随机生成的查询问题,要求模型返回特定字段的值。
  • 模型:GPT-4.1-nano
  • 评估指标:准确率、95% 置信区间、Token 消耗量

2.2 测试格式概览

实验涵盖了以下 11 种数据表示格式:

  1. JSON
  2. CSV
  3. XML
  4. YAML
  5. HTML 表格
  6. Markdown 表格
  7. Markdown-KV(键值对)
  8. INI
  9. 竖线分隔格式
  10. JSONL
  11. 自然语言描述

三、实验结果总览

格式名称 准确率 Token 数量
Markdown-KV 60.7% 52,104
XML 56.0% 76,114
INI 55.7% 48,100
YAML 54.7% 55,395
HTML 53.6% 75,204
JSON 52.3% 66,396
Markdown-Table 51.9% 25,140
Natural-Language 49.6% 43,411
JSONL 45.0% 54,407
CSV 44.3% 19,524
Pipe-Delimited 41.1% 43,098

3.1 关键发现

  • Markdown-KV 表现最佳,准确率达 60.7%,比最低的 Pipe-Delimited 高出近 20%。
  • CSV 和 JSONL 表现较差,尽管它们在日常开发中使用频繁。
  • Token 效率与准确率之间存在权衡:Markdown-KV 的 Token 消耗是 CSV 的 2.7 倍。

四、格式对比与可视化分析

4.1 准确率 vs. Token 消耗散点图

CSV: 低Token, 低准确率
Markdown-Table: 平衡型
Markdown-KV: 高准确率, 高Token
XML/HTML: 高Token, 中准确率

4.2 格式结构对比(示例代码)

以下是三种典型格式的转换代码示例(Python):

python 复制代码
import pandas as pd

# 原始数据(DataFrame)
data = [
    {"id": 1, "name": "Diana A0", "age": 46, "city": "London", "department": "Engineering", "salary": 141015},
    {"id": 2, "name": "Grace B1", "age": 59, "city": "Berlin", "department": "Engineering", "salary": 100066}
]
df = pd.DataFrame(data)

# 转换为 Markdown-KV 格式
def to_markdown_kv(df):
    output = "# Employee Database\n\n"
    for idx, row in df.iterrows():
        output += f"## Record {idx + 1}\n\n```\n"
        for col, val in row.items():
            output += f"{col}: {val}\n"
        output += "```\n\n"
    return output

print(to_markdown_kv(df))

五、实用建议:如何选择表格格式?

场景 推荐格式 说明
高准确率需求 Markdown-KV 适合问答、检索任务
成本敏感型任务 Markdown-Table 平衡准确率与 Token 成本
结构化数据交换 JSON / YAML 通用性强,易于解析
避免使用 CSV / JSONL 在实测中理解能力较差

六、扩展讨论:模型训练与格式偏好

不同模型在训练过程中接触的数据格式不同,可能导致对某些格式的"偏好"。例如:

  • CodeLlama 可能更熟悉 JSON 或 YAML;
  • GPT系列 在 Markdown 和 HTML 上训练较多;
  • 领域特定模型(如金融、医疗)可能对特定格式更敏感。

七、英文词汇表

单词(短语) 音标 词性 词根/词缀 释义 搭配 例句
LLM /ɛl ɛl ˈɛm/ n. (abbr.) 大语言模型 LLM evaluation LLMs are widely used in NLP tasks.
Accuracy /ˈækjərəsi/ n. accur- 准确率 high accuracy The model achieved 95% accuracy.
Token /ˈtoʊkən/ n. - 令牌/词元 token count Each word is split into tokens.
Format /ˈfɔːrmæt/ n. form- 格式 data format JSON is a common data format.
Benchmark /ˈbentʃmɑːrk/ n. bench- 基准测试 performance benchmark We ran a benchmark on 11 formats.
Synthetic /sɪnˈθetɪk/ adj. syn- + thet 合成的 synthetic data We used synthetic employee records.
Pipeline /ˈpaɪplaɪn/ n. pipe + line 流水线/流程 RAG pipeline The data pipeline includes ETL and modeling.
Delimiter /dɪˈlɪmɪtər/ n. de- + limit 分隔符 pipe delimiter CSV uses commas as delimiters.
Confidence Interval /ˈkɑːnfɪdəns ˈɪntərvl/ n. con- + fid 置信区间 95% confidence interval The result is within the confidence interval.

八、总结

实验表明,数据格式对 LLM 的理解能力有显著影响 。选择适合的格式不仅能提升系统准确率,还能在成本与性能之间找到平衡。Markdown-KV 作为一种非标准但高效的格式,值得在高精度任务中尝试。

未来我们将继续研究嵌套结构、多模态表格、以及不同模型族对格式的敏感性。

相关推荐
老刘干货11 分钟前
Prompt工程全解·第四篇:精雕细琢——迭代优化与防御性提示词设计
人工智能·技术人
輕華11 分钟前
OpenCV答题卡识别:从图像预处理到自动评分
人工智能·opencv·计算机视觉
JQLvopkk19 分钟前
机器视觉为何不用普通相机
人工智能·数码相机
AI航向标20 分钟前
OpenClaw 完整本地部署安装(接入飞书)
人工智能·飞书·openclaw
接着奏乐接着舞。22 分钟前
机器学习经验总结整理
人工智能·机器学习
Sim148022 分钟前
iPhone将内置本地大模型,手机端AI实现0 token成本时代来临?
人工智能·ios·智能手机·iphone
AI航向标22 分钟前
Openclaw一键本地部署接入豆包
人工智能·openclaw
就是这么拽呢27 分钟前
论文查重低但AIGC率高,如何补救?
论文阅读·人工智能·ai·aigc
supericeice28 分钟前
创邻科技 AI智算一体机:支持 DeepSeek 671B 与 Qwen3 单机部署,覆盖纯CPU到多GPU多机扩展
大数据·人工智能·科技
لا معنى له1 小时前
Var-JEPA:联合嵌入预测架构的变分形式 —— 连接预测式与生成式自监督学习 ----论文翻译
人工智能·笔记·学习·语言模型