合成数据的正确打开方式:格式比模型重要,小模型比大模型好用

一句话总结

来自 Hugging Face 团队的系统实验:用 1.7B 小模型生成 486B token,效果碾压已有方案,成本降低 30 倍



大模型预训练正在经历一场数据革命。从早期精心策划的 Wikipedia、BookCorpus,到大规模网络爬取的 C4、FineWeb,再到如今的合成数据时代 ------ 可爬取的互联网文本正在逼近天花板,而模型对高质量训练数据的需求却有增无减。"用 AI 改写网页文本"成了当下的热门解法:Nemotron-CC 改写了 2 万亿 token,Phi-4 和 Qwen3 等新一代模型都在预训练中大量使用了合成数据

但一个关键问题始终悬而未决:合成数据的设计空间如此庞大,到底该怎么选?用什么提示词改写?用多大的模型?源数据的质量重不重要?

Hugging Face 团队最近的一项工作给出了迄今最系统的回答。他们生成了超过 1 万亿 token 的合成数据,沿着三个维度做了严格的控制实验,得出了几条颇为颠覆直觉的结论。

实验设计

研究者将合成数据的设计空间拆成了三个正交维度,分别做控制变量实验:

  • 改写策略:用什么样的 prompt 把原始网页文本转化成合成数据
  • 生成器模型:用多大的模型来做改写
  • 数据源:原始数据的质量是否重要,是否需要混合数据集

发现一:结构化教学格式碾压传统改写

研究者提出了四种"结构化教学格式":math(数学应用题)、faq(常见问答)、table(结构化表格)、tutorial(分步教程),并和已有的八种改写策略做了对比(构造语料训练 Qwen2 模型,在 12 个基准上评估性能)


结果泾渭分明。已有方案中只有 Diverse QA Pairs 能明显超过 DCLM 基线(14.58 v.s. 13.77),其余改写方式(摘要、蒸馏、知识提取等)大多没什么帮助

而四种结构化格式全部大幅领先:

格式 宏平均分 相比 DCLM
math 15.31 +1.54
table 14.83 +1.06
faq 14.45 +0.68
tutorial 14.30 +0.53

math 和 table 甚至超过了此前最优的 Diverse QA Pairs。这说明把散乱的网页文本重新组织成结构化信号,比单纯的润色改写更有价值

发现二:1B 模型就够了,大模型反而更贵但不更好

接下来是一个有点让人意外的结论

研究者用 Gemma 3 家族(从 270M 到 27B)测试了模型规模对合成数据质量的影响。结果是:1B 模型(15.31)的效果优于 27B 模型(14.76)。性能在 1B 处就已经饱和,继续增大模型不仅没有收益,反而有所下降

唯一的例外是 REWIRE 的 Guided Rewrite------这个 prompt 包含复杂的多步推理和角色扮演指令,确实需要稍大一些的模型(4B 优于 1B)。但对于结构化教学格式来说,1B 完全够用。

发现三:多样性胜过一致性

在模型家族对比中,SmolLM2 1.7B 以 16.55 的宏平均分大幅领先其他五个家族(优势从 1 到 2 分不等)。这个相对小众的模型为什么能脱颖而出?

研究者深挖了背后的原因,发现了一个名为"模板坍塌"(Template Collapse)的现象:

对比 SmolLM2 和 Qwen 3 在 math prompt 下的输出------Qwen 3 的指令遵循率是 100%,每个输出格式完美。但 115 个输出以完全相同的文本开头,长度也集中在很窄的区间。SmolLM2 虽然只有 68% 的格式完整率,但最常见的开头模式只出现了 3 次,长度从 4 到 4000 token 不等。

结果恰恰是"不那么听话"的 SmolLM2 训练效果更好。

原因在于 Qwen 3"太一致了"------大量重复的模式稀释了训练信号,模型本质上在反复学习近乎相同的文本。而 SmolLM2 的输出多样性保留了丰富的结构变化,给模型提供了更多有价值的学习信号

发现四:精心挑选混合数据

合成数据能完全替代原始网页数据吗?答案是不能。

纯合成数据训练不如混合训练。将合成数据与原始 web 数据按 50/50 混合后,所有格式的性能都有提升,其中 tutorial 提升了将近 2 分。原因是合成数据无法提供自然文本中丰富的语言多样性,像常识推理(HellaSwag、PIQA)这类能力会明显下降

更有价值的发现是:用于混合的 web 数据(mix-in)的质量,比被改写的源数据(source)的质量更关键。 当 mix-in 固定为高质量时,即使用低质量数据作为改写源,性能差距也从 4.67 分压缩到了 1.78 分

这意味着改写管线可以成功"回收"低质量网页文本------只要搭配高质量的 mix-in 数据一起训练,垃圾数据也能被洗成有效的训练 token,相当于大幅扩展了可用数据的储备池

FinePhrase:486B Token 的实践验证

基于以上所有发现,研究者构建了 FinePhrase 数据集:

  • 生成器:SmolLM2 1.7B
  • 格式:math + faq + table + tutorial 四种结构化教学格式
  • 规模:13.5 亿样本,486B completion token
  • 效率:100 张 H100 + suffix-32 投机解码,每 GPU 约 9200 tok/s
  • 成本:约 14,700 GPU 小时,比 REWIRE(Llama 70B)便宜 30 倍,比 Cosmopedia(Mixtral 8x7B)便宜 13 倍
方案 生成器 生成量 GPU 小时 tok/GPU-hr
Cosmopedia Mixtral 8x7B 25B >10K <2.5M
REWIRE Llama 3.3 70B 400B ~352K ~1.1M
FinePhrase SmolLM2 1.7B 486B ~14.7K ~33.1M

FinePhrase-Table 达到了 17.18 的最高宏平均分,比 DCLM 基线高 3.41 分,比 Nemotron-HQ-Synth 高 3.63 分。不过也存在权衡:结构化格式在事实知识和阅读理解上大幅领先,但在 HellaSwag 等常识推理任务上略逊,这也再次印证了原始 web 数据作为 mix-in 的不可替代性

相关推荐
Starry-sky(jing)20 小时前
Hermes Agent 接入 Qwen3.7-Max 报 401?OpenCode Go 模型路由源码级排查与修复
开发语言·人工智能·chrome·golang
阿虎儿20 小时前
看了很多文章依旧不会写 Skill ? 保姆级攻略请查收!
人工智能
好好风格20 小时前
把一台 Root 安卓机交给 AI 智能体,会发生什么?
android·人工智能·开源
暴躁小师兄数据学院20 小时前
【AI大模型应用开发工程师特训笔记】第04讲(第五章):条件判断与流程控制
大数据·人工智能·python·学习
Java 码思客20 小时前
【Spring AI实战】第2章 大模型基础调用:同步/异步/流式输出
java·人工智能·spring·ai
北京软秦科技有限公司20 小时前
档案复核联动文档核验,IACheck AI报告审核让资料管理体系真正闭环
人工智能
洛阳泰山20 小时前
MaxKB4j 近三月开发进展速览:从 RAG 引擎到全能 AI 工作流平台
人工智能·后端
战族狼魂20 小时前
Claude 大模型在真实业务场景中的落地应用指南
人工智能·chatgpt·大模型
学困昇20 小时前
Linux 信号机制详解:从 Ctrl+C 到 SIGCHLD,一文理解进程信号
linux·c语言·开发语言·人工智能·面试
艾莉丝努力练剑20 小时前
【Linux:文件】库的制作与原理进阶
linux·运维·服务器·网络·数据库·c++·人工智能