TOON:专为 LLM 设计的轻量级数据格式

这几天好像这个叫 TOON 的东西比较火,我们这篇文章来看看他到底是什么,又有什么作用。TOON 全称 Token-Oriented Object Notation,它主要解决的问题就是当你把JSON 输入给LLM 的时候,token 消耗太高了。

一个长 JSON 数组扔进模型token 计数直接起飞。因为引号、大括号、重复的键名,到处都是这些没什么实际意义的字符,而TOON 就是从这个痛点出发,它不是要干掉 JSON,而是说:既然主要是语言模型,那些装饰性的字符完全可以省掉。

Token数对比

常规 JSON 长这样:

复制代码
 [  
   { "id": 1, "name": "Deep", "role": "admin" },  
   { "id": 2, "name": "Hub", "role": "user" }  
 ]

TOON 版本:

复制代码
 users[2]{id,name,role}:  
   1,Deep,admin  
   2,Hub,user

第一眼看上去像半成品草稿。但逻辑其实很清晰------字段名只写一次,声明有多少行,然后直接按表格形式写数据,我们直接可以说这个算是CSV的一个进化版。

有一个不严谨的测试JSON 格式的 token 数基本是 TOON 的两倍。差距就这么大。

TOON

JSON 的问题是结构不变的情况下还在重复。而TOON的想法是既然结构本来就很明显了,没必要每条记录都写一遍。

另外就是该有得支功能还是都有,比如说嵌套,使用类似 YAML 的缩进结构来处理嵌套对象:

复制代码
 user:
   id: 123
   email: ada111@666.com
   metadata:
     active: true
     score: 4.5

简单得嵌套跟YAML 基本一样,如果把嵌套和列表放在一起就是这样:

比如说这个json

复制代码
 {
  items: [
    {
      users: [
        { id: 1, name: 'Deep' },
        { id: 2, name: 'Hub' }
      ],
      status: 'active'
    }
  ]
 }

转换完以后是这样的

复制代码
 items[1]:
   - users[2]{id,name}:
     1,Deep
     2,Hub
     status: active

这完全就是YAML 和CSV的缝合怪,不过倒是把JSON冗余的标点去掉了。

不过根据官网的评测token的确是减少了很多

局限性

对于YAML来说深层嵌套的数据结构一直是个问题,而TOON也一样,如果层次太多会比较乱。而且同一个列表里如果对象结构不一致,也不太好处理。但是如果只是为了优化 LLM prompt,TOON还真的确实挺实用。

总结

适合用 TOON 的情况:

  • 往模型里塞大量重复结构的数据
  • token 成本是主要考虑因素
  • 数据结构相对规整

继续用 JSON 的情况:

  • 写 API 接口
  • 需要长期存储
  • 数据结构复杂或者不规则

所以TOON并不是什么颠覆性的东西。更像是有人把 JSON 里那些多余的部分清理掉,然后说:跟模型交互的时候,可以试试这个。

github地址:

https://avoid.overfit.cn/post/95264c51c6544c139b198c31fe4127ab

相关推荐
马***4119 小时前
适配成人英语学习痛点,打造落地性强的学习辅助方式
人工智能·学习
夜焱辰9 小时前
浏览器端 Agent 的文件版本管理:不用 Git,基于 OPFS + SQLite 自己造了一个
前端·人工智能
Ricky05539 小时前
CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)
人工智能·机器人·世界模型
jeffer_liu9 小时前
Spring AI 生产级实战:工具调用
java·人工智能·后端·spring·ai编程
阿乔外贸日记9 小时前
2026尼日利亚五项清关政策更新,拉高能源装备进口综合成本
大数据·人工智能·搜索引擎·智能手机·云计算·能源
民乐团扒谱机10 小时前
【AI笔记】短时纯音时长对音高感知偏移效应研究综述
人工智能·笔记
侃谈科技圈10 小时前
破除数据中台落地困境:2026数据治理平台差异化能力与选型决策指南
大数据·人工智能
大象说10 小时前
Python多进程共享队列无报错僵死 120G Nginx访问日志清洗踩坑全记录
人工智能·自然语言处理
Cosolar10 小时前
AutoGen 精通教程:从零到企业级多 Agent 系统架构师
人工智能·后端·面试
甲维斯10 小时前
Claude Code 省钱小妙招!200K和自动压缩
人工智能