大语言模型能够理解的11种文件格式

一、引言:为什么表格格式对 LLM 如此重要?

在大语言模型广泛应用于 RAG、数据分析、自动化报告生成的今天,我们往往忽视了数据呈现格式 对模型理解能力的影响。无论是 CSV、JSON、Markdown 还是 YAML,不同的结构化数据表示方式,不仅影响模型的理解准确率 ,还直接关系到推理成本

本文基于一项系统性实验,测试了 11 种常见表格格式在 GPT-4.1-nano 模型上的表现,旨在为开发者、数据工程师和 AI 应用者提供数据格式选择的科学依据。


二、实验设计与方法论

2.1 数据集与模型

  • 数据集 :1000 条合成的员工记录,每条包含 8 个属性:
    • ID、姓名、年龄、城市、部门、薪资、工作经验、项目数量
  • 问题集:1000 个随机生成的查询问题,要求模型返回特定字段的值。
  • 模型:GPT-4.1-nano
  • 评估指标:准确率、95% 置信区间、Token 消耗量

2.2 测试格式概览

实验涵盖了以下 11 种数据表示格式:

  1. JSON
  2. CSV
  3. XML
  4. YAML
  5. HTML 表格
  6. Markdown 表格
  7. Markdown-KV(键值对)
  8. INI
  9. 竖线分隔格式
  10. JSONL
  11. 自然语言描述

三、实验结果总览

格式名称 准确率 Token 数量
Markdown-KV 60.7% 52,104
XML 56.0% 76,114
INI 55.7% 48,100
YAML 54.7% 55,395
HTML 53.6% 75,204
JSON 52.3% 66,396
Markdown-Table 51.9% 25,140
Natural-Language 49.6% 43,411
JSONL 45.0% 54,407
CSV 44.3% 19,524
Pipe-Delimited 41.1% 43,098

3.1 关键发现

  • Markdown-KV 表现最佳,准确率达 60.7%,比最低的 Pipe-Delimited 高出近 20%。
  • CSV 和 JSONL 表现较差,尽管它们在日常开发中使用频繁。
  • Token 效率与准确率之间存在权衡:Markdown-KV 的 Token 消耗是 CSV 的 2.7 倍。

四、格式对比与可视化分析

4.1 准确率 vs. Token 消耗散点图

CSV: 低Token, 低准确率
Markdown-Table: 平衡型
Markdown-KV: 高准确率, 高Token
XML/HTML: 高Token, 中准确率

4.2 格式结构对比(示例代码)

以下是三种典型格式的转换代码示例(Python):

python 复制代码
import pandas as pd

# 原始数据(DataFrame)
data = [
    {"id": 1, "name": "Diana A0", "age": 46, "city": "London", "department": "Engineering", "salary": 141015},
    {"id": 2, "name": "Grace B1", "age": 59, "city": "Berlin", "department": "Engineering", "salary": 100066}
]
df = pd.DataFrame(data)

# 转换为 Markdown-KV 格式
def to_markdown_kv(df):
    output = "# Employee Database\n\n"
    for idx, row in df.iterrows():
        output += f"## Record {idx + 1}\n\n```\n"
        for col, val in row.items():
            output += f"{col}: {val}\n"
        output += "```\n\n"
    return output

print(to_markdown_kv(df))

五、实用建议:如何选择表格格式?

场景 推荐格式 说明
高准确率需求 Markdown-KV 适合问答、检索任务
成本敏感型任务 Markdown-Table 平衡准确率与 Token 成本
结构化数据交换 JSON / YAML 通用性强,易于解析
避免使用 CSV / JSONL 在实测中理解能力较差

六、扩展讨论:模型训练与格式偏好

不同模型在训练过程中接触的数据格式不同,可能导致对某些格式的"偏好"。例如:

  • CodeLlama 可能更熟悉 JSON 或 YAML;
  • GPT系列 在 Markdown 和 HTML 上训练较多;
  • 领域特定模型(如金融、医疗)可能对特定格式更敏感。

七、英文词汇表

单词(短语) 音标 词性 词根/词缀 释义 搭配 例句
LLM /ɛl ɛl ˈɛm/ n. (abbr.) 大语言模型 LLM evaluation LLMs are widely used in NLP tasks.
Accuracy /ˈækjərəsi/ n. accur- 准确率 high accuracy The model achieved 95% accuracy.
Token /ˈtoʊkən/ n. - 令牌/词元 token count Each word is split into tokens.
Format /ˈfɔːrmæt/ n. form- 格式 data format JSON is a common data format.
Benchmark /ˈbentʃmɑːrk/ n. bench- 基准测试 performance benchmark We ran a benchmark on 11 formats.
Synthetic /sɪnˈθetɪk/ adj. syn- + thet 合成的 synthetic data We used synthetic employee records.
Pipeline /ˈpaɪplaɪn/ n. pipe + line 流水线/流程 RAG pipeline The data pipeline includes ETL and modeling.
Delimiter /dɪˈlɪmɪtər/ n. de- + limit 分隔符 pipe delimiter CSV uses commas as delimiters.
Confidence Interval /ˈkɑːnfɪdəns ˈɪntərvl/ n. con- + fid 置信区间 95% confidence interval The result is within the confidence interval.

八、总结

实验表明,数据格式对 LLM 的理解能力有显著影响 。选择适合的格式不仅能提升系统准确率,还能在成本与性能之间找到平衡。Markdown-KV 作为一种非标准但高效的格式,值得在高精度任务中尝试。

未来我们将继续研究嵌套结构、多模态表格、以及不同模型族对格式的敏感性。

相关推荐
lili-felicity19 小时前
CANN异步推理实战:从Stream管理到流水线优化
大数据·人工智能
做人不要太理性19 小时前
CANN Runtime 运行时组件深度解析:任务下沉执行、异构内存规划与全栈维测诊断机制
人工智能·神经网络·魔珐星云
不爱学英文的码字机器19 小时前
破壁者:CANN ops-nn 仓库与昇腾 AI 算子优化的工程哲学
人工智能
晚霞的不甘19 小时前
CANN 编译器深度解析:TBE 自定义算子开发实战
人工智能·架构·开源·音视频
愚公搬代码19 小时前
【愚公系列】《AI短视频创作一本通》016-AI短视频的生成(AI短视频运镜方法)
人工智能·音视频
哈__19 小时前
CANN内存管理与资源优化
人工智能·pytorch
极新19 小时前
智启新篇,智创未来,“2026智造新IP:AI驱动品牌增长新周期”峰会暨北京电子商务协会第五届第三次会员代表大会成功举办
人工智能·网络协议·tcp/ip
island131419 小时前
CANN GE(图引擎)深度解析:计算图优化管线、内存静态规划与异构任务的 Stream 调度机制
开发语言·人工智能·深度学习·神经网络
艾莉丝努力练剑19 小时前
深度学习视觉任务:如何基于ops-cv定制图像预处理流程
人工智能·深度学习
禁默19 小时前
大模型推理的“氮气加速系统”:全景解读 Ascend Transformer Boost (ATB)
人工智能·深度学习·transformer·cann