合成数据的正确打开方式:格式比模型重要,小模型比大模型好用

一句话总结

来自 Hugging Face 团队的系统实验:用 1.7B 小模型生成 486B token,效果碾压已有方案,成本降低 30 倍



大模型预训练正在经历一场数据革命。从早期精心策划的 Wikipedia、BookCorpus,到大规模网络爬取的 C4、FineWeb,再到如今的合成数据时代 ------ 可爬取的互联网文本正在逼近天花板,而模型对高质量训练数据的需求却有增无减。"用 AI 改写网页文本"成了当下的热门解法:Nemotron-CC 改写了 2 万亿 token,Phi-4 和 Qwen3 等新一代模型都在预训练中大量使用了合成数据

但一个关键问题始终悬而未决:合成数据的设计空间如此庞大,到底该怎么选?用什么提示词改写?用多大的模型?源数据的质量重不重要?

Hugging Face 团队最近的一项工作给出了迄今最系统的回答。他们生成了超过 1 万亿 token 的合成数据,沿着三个维度做了严格的控制实验,得出了几条颇为颠覆直觉的结论。

实验设计

研究者将合成数据的设计空间拆成了三个正交维度,分别做控制变量实验:

  • 改写策略:用什么样的 prompt 把原始网页文本转化成合成数据
  • 生成器模型:用多大的模型来做改写
  • 数据源:原始数据的质量是否重要,是否需要混合数据集

发现一:结构化教学格式碾压传统改写

研究者提出了四种"结构化教学格式":math(数学应用题)、faq(常见问答)、table(结构化表格)、tutorial(分步教程),并和已有的八种改写策略做了对比(构造语料训练 Qwen2 模型,在 12 个基准上评估性能)


结果泾渭分明。已有方案中只有 Diverse QA Pairs 能明显超过 DCLM 基线(14.58 v.s. 13.77),其余改写方式(摘要、蒸馏、知识提取等)大多没什么帮助

而四种结构化格式全部大幅领先:

格式 宏平均分 相比 DCLM
math 15.31 +1.54
table 14.83 +1.06
faq 14.45 +0.68
tutorial 14.30 +0.53

math 和 table 甚至超过了此前最优的 Diverse QA Pairs。这说明把散乱的网页文本重新组织成结构化信号,比单纯的润色改写更有价值

发现二:1B 模型就够了,大模型反而更贵但不更好

接下来是一个有点让人意外的结论

研究者用 Gemma 3 家族(从 270M 到 27B)测试了模型规模对合成数据质量的影响。结果是:1B 模型(15.31)的效果优于 27B 模型(14.76)。性能在 1B 处就已经饱和,继续增大模型不仅没有收益,反而有所下降

唯一的例外是 REWIRE 的 Guided Rewrite------这个 prompt 包含复杂的多步推理和角色扮演指令,确实需要稍大一些的模型(4B 优于 1B)。但对于结构化教学格式来说,1B 完全够用。

发现三:多样性胜过一致性

在模型家族对比中,SmolLM2 1.7B 以 16.55 的宏平均分大幅领先其他五个家族(优势从 1 到 2 分不等)。这个相对小众的模型为什么能脱颖而出?

研究者深挖了背后的原因,发现了一个名为"模板坍塌"(Template Collapse)的现象:

对比 SmolLM2 和 Qwen 3 在 math prompt 下的输出------Qwen 3 的指令遵循率是 100%,每个输出格式完美。但 115 个输出以完全相同的文本开头,长度也集中在很窄的区间。SmolLM2 虽然只有 68% 的格式完整率,但最常见的开头模式只出现了 3 次,长度从 4 到 4000 token 不等。

结果恰恰是"不那么听话"的 SmolLM2 训练效果更好。

原因在于 Qwen 3"太一致了"------大量重复的模式稀释了训练信号,模型本质上在反复学习近乎相同的文本。而 SmolLM2 的输出多样性保留了丰富的结构变化,给模型提供了更多有价值的学习信号

发现四:精心挑选混合数据

合成数据能完全替代原始网页数据吗?答案是不能。

纯合成数据训练不如混合训练。将合成数据与原始 web 数据按 50/50 混合后,所有格式的性能都有提升,其中 tutorial 提升了将近 2 分。原因是合成数据无法提供自然文本中丰富的语言多样性,像常识推理(HellaSwag、PIQA)这类能力会明显下降

更有价值的发现是:用于混合的 web 数据(mix-in)的质量,比被改写的源数据(source)的质量更关键。 当 mix-in 固定为高质量时,即使用低质量数据作为改写源,性能差距也从 4.67 分压缩到了 1.78 分

这意味着改写管线可以成功"回收"低质量网页文本------只要搭配高质量的 mix-in 数据一起训练,垃圾数据也能被洗成有效的训练 token,相当于大幅扩展了可用数据的储备池

FinePhrase:486B Token 的实践验证

基于以上所有发现,研究者构建了 FinePhrase 数据集:

  • 生成器:SmolLM2 1.7B
  • 格式:math + faq + table + tutorial 四种结构化教学格式
  • 规模:13.5 亿样本,486B completion token
  • 效率:100 张 H100 + suffix-32 投机解码,每 GPU 约 9200 tok/s
  • 成本:约 14,700 GPU 小时,比 REWIRE(Llama 70B)便宜 30 倍,比 Cosmopedia(Mixtral 8x7B)便宜 13 倍
方案 生成器 生成量 GPU 小时 tok/GPU-hr
Cosmopedia Mixtral 8x7B 25B >10K <2.5M
REWIRE Llama 3.3 70B 400B ~352K ~1.1M
FinePhrase SmolLM2 1.7B 486B ~14.7K ~33.1M

FinePhrase-Table 达到了 17.18 的最高宏平均分,比 DCLM 基线高 3.41 分,比 Nemotron-HQ-Synth 高 3.63 分。不过也存在权衡:结构化格式在事实知识和阅读理解上大幅领先,但在 HellaSwag 等常识推理任务上略逊,这也再次印证了原始 web 数据作为 mix-in 的不可替代性

相关推荐
网络研究员2 小时前
Claude身份认证后还是被封?三条稳定防封策略
大数据·人工智能
冬奇Lab2 小时前
一天一个开源项目(第76篇):Cangjie Skill —— 将书本知识炼金为 AI 智能体可执行的技能
人工智能·开源·资讯
金融Tech趋势派2 小时前
OpenClaw火了,AI Agent下一步走向哪里?
人工智能·github·企业微信·openclaw·企微管家claw
乱世军军2 小时前
API Error: Claude‘s response exceeded the 128000 output token maximu
人工智能
2501_933329552 小时前
技术深度拆解:Infoseek舆情处置系统的全链路架构与核心实现
开发语言·人工智能·自然语言处理·架构
XmasWu12252 小时前
【Hermes Agent集成】与CI/CD工作流结合
人工智能·ci/cd
冬奇Lab2 小时前
Claude Code 实战经验分享(下篇):记忆、规则、权限与快捷操作
人工智能·ai编程
2601_949925182 小时前
基于 OpenClaw 打造货代行业 AI 智能体架构实战
大数据·人工智能·架构·ai智能体
Daydream.V2 小时前
LSTM网络介绍
人工智能·rnn·lstm