大语言模型能够理解的11种文件格式

一、引言:为什么表格格式对 LLM 如此重要?

在大语言模型广泛应用于 RAG、数据分析、自动化报告生成的今天,我们往往忽视了数据呈现格式 对模型理解能力的影响。无论是 CSV、JSON、Markdown 还是 YAML,不同的结构化数据表示方式,不仅影响模型的理解准确率 ,还直接关系到推理成本

本文基于一项系统性实验,测试了 11 种常见表格格式在 GPT-4.1-nano 模型上的表现,旨在为开发者、数据工程师和 AI 应用者提供数据格式选择的科学依据。


二、实验设计与方法论

2.1 数据集与模型

  • 数据集 :1000 条合成的员工记录,每条包含 8 个属性:
    • ID、姓名、年龄、城市、部门、薪资、工作经验、项目数量
  • 问题集:1000 个随机生成的查询问题,要求模型返回特定字段的值。
  • 模型:GPT-4.1-nano
  • 评估指标:准确率、95% 置信区间、Token 消耗量

2.2 测试格式概览

实验涵盖了以下 11 种数据表示格式:

  1. JSON
  2. CSV
  3. XML
  4. YAML
  5. HTML 表格
  6. Markdown 表格
  7. Markdown-KV(键值对)
  8. INI
  9. 竖线分隔格式
  10. JSONL
  11. 自然语言描述

三、实验结果总览

格式名称 准确率 Token 数量
Markdown-KV 60.7% 52,104
XML 56.0% 76,114
INI 55.7% 48,100
YAML 54.7% 55,395
HTML 53.6% 75,204
JSON 52.3% 66,396
Markdown-Table 51.9% 25,140
Natural-Language 49.6% 43,411
JSONL 45.0% 54,407
CSV 44.3% 19,524
Pipe-Delimited 41.1% 43,098

3.1 关键发现

  • Markdown-KV 表现最佳,准确率达 60.7%,比最低的 Pipe-Delimited 高出近 20%。
  • CSV 和 JSONL 表现较差,尽管它们在日常开发中使用频繁。
  • Token 效率与准确率之间存在权衡:Markdown-KV 的 Token 消耗是 CSV 的 2.7 倍。

四、格式对比与可视化分析

4.1 准确率 vs. Token 消耗散点图

CSV: 低Token, 低准确率
Markdown-Table: 平衡型
Markdown-KV: 高准确率, 高Token
XML/HTML: 高Token, 中准确率

4.2 格式结构对比(示例代码)

以下是三种典型格式的转换代码示例(Python):

python 复制代码
import pandas as pd

# 原始数据(DataFrame)
data = [
    {"id": 1, "name": "Diana A0", "age": 46, "city": "London", "department": "Engineering", "salary": 141015},
    {"id": 2, "name": "Grace B1", "age": 59, "city": "Berlin", "department": "Engineering", "salary": 100066}
]
df = pd.DataFrame(data)

# 转换为 Markdown-KV 格式
def to_markdown_kv(df):
    output = "# Employee Database\n\n"
    for idx, row in df.iterrows():
        output += f"## Record {idx + 1}\n\n```\n"
        for col, val in row.items():
            output += f"{col}: {val}\n"
        output += "```\n\n"
    return output

print(to_markdown_kv(df))

五、实用建议:如何选择表格格式?

场景 推荐格式 说明
高准确率需求 Markdown-KV 适合问答、检索任务
成本敏感型任务 Markdown-Table 平衡准确率与 Token 成本
结构化数据交换 JSON / YAML 通用性强,易于解析
避免使用 CSV / JSONL 在实测中理解能力较差

六、扩展讨论:模型训练与格式偏好

不同模型在训练过程中接触的数据格式不同,可能导致对某些格式的"偏好"。例如:

  • CodeLlama 可能更熟悉 JSON 或 YAML;
  • GPT系列 在 Markdown 和 HTML 上训练较多;
  • 领域特定模型(如金融、医疗)可能对特定格式更敏感。

七、英文词汇表

单词(短语) 音标 词性 词根/词缀 释义 搭配 例句
LLM /ɛl ɛl ˈɛm/ n. (abbr.) 大语言模型 LLM evaluation LLMs are widely used in NLP tasks.
Accuracy /ˈækjərəsi/ n. accur- 准确率 high accuracy The model achieved 95% accuracy.
Token /ˈtoʊkən/ n. - 令牌/词元 token count Each word is split into tokens.
Format /ˈfɔːrmæt/ n. form- 格式 data format JSON is a common data format.
Benchmark /ˈbentʃmɑːrk/ n. bench- 基准测试 performance benchmark We ran a benchmark on 11 formats.
Synthetic /sɪnˈθetɪk/ adj. syn- + thet 合成的 synthetic data We used synthetic employee records.
Pipeline /ˈpaɪplaɪn/ n. pipe + line 流水线/流程 RAG pipeline The data pipeline includes ETL and modeling.
Delimiter /dɪˈlɪmɪtər/ n. de- + limit 分隔符 pipe delimiter CSV uses commas as delimiters.
Confidence Interval /ˈkɑːnfɪdəns ˈɪntərvl/ n. con- + fid 置信区间 95% confidence interval The result is within the confidence interval.

八、总结

实验表明,数据格式对 LLM 的理解能力有显著影响 。选择适合的格式不仅能提升系统准确率,还能在成本与性能之间找到平衡。Markdown-KV 作为一种非标准但高效的格式,值得在高精度任务中尝试。

未来我们将继续研究嵌套结构、多模态表格、以及不同模型族对格式的敏感性。

相关推荐
_codemonster2 分钟前
计算机视觉入门到实战系列(六)边缘检测sobel算子
人工智能·计算机视觉
杀生丸学AI2 分钟前
【平面重建】3D高斯平面:混合2D/3D光场重建(NeurIPS2025)
人工智能·平面·3d·大模型·aigc·高斯泼溅·空间智能
九河_3 分钟前
四元数 --> 双四元数
人工智能·四元数·双四元数
Gofarlic_oms14 分钟前
从手动统计到自动化:企业AutoCAD许可管理进化史
大数据·运维·网络·人工智能·微服务·自动化
叫我:松哥5 分钟前
基于 Flask 框架开发的在线学习平台,集成人工智能技术,提供分类练习、随机练习、智能推荐等多种学习模式
人工智能·后端·python·学习·信息可视化·flask·推荐算法
LJ97951119 分钟前
一键宣发时代:Infoseek如何重构企业传播链路
人工智能
东心十13 分钟前
AI学习环境安装
人工智能·学习
晟诺数字人14 分钟前
数字人短视频引流获客攻略
大数据·人工智能
热爱专研AI的学妹14 分钟前
2026世界杯观赛工具自制指南:实时比分推送机器人搭建思路
开发语言·人工智能·python·业界资讯
大力财经18 分钟前
耐士劳发布首款融合星基RTK、AI视觉与激光雷达割草机器人
人工智能·机器人