Redis 作者反驳「中国模型之所以强,是因为通过 API 蒸馏了美国模型」

最近,antirez(Salvatore Sanfilippo,Redis 作者)发布了一些内容,核心就是反驳一个言论: "中国模型之所以强,主要是因为通过 API 蒸馏了美国模型。"

他认为这种说法在机器学习原理上站不住脚,甚至是 "marketing from US labs" 或对 ML 的误解。

antirez 的意思是:有些人把中国开源/闭源模型的进步,简单归因于"偷偷用 GPT/Claude API 生成数据来蒸馏",这在严格的机器学习意义上是不成立的。

实际上也是大家对于定于的不一致,这个后面就可以理解。

在他看来,API 蒸馏在严格意义上不可能(白盒/软蒸馏),因为:

  • 真正的蒸馏需要大量访问 teacher 的完整 logits(概率分布)、Chain-of-Thought 推理轨迹、内部表示等
  • 商业 API 只返回最终文本,完全拿不到这些内部信息
  • 他把 API 蒸馏比作「只看到复杂曲面上的几个点,就想复刻整个曲面」,这在在数学上接近科幻

所以白盒蒸馏闭源项目基本是不可能的,记住,是白盒(软的),因为白盒蒸需要让 student 不仅输出一样,还要内部"思考过程"和知识表示尽量接近 teacher。

其次是,黑盒 (硬蒸)能做,但作用有限

  • 用 API 生成数据做 SFT(Alpaca/Vicuna 那类),确实可以改善「回复风格」、填补狭窄知识 gap、或者让模型更会 follow 特定格式
  • 但是无法创造 frontier-level 的通用能力,真正强大的底层能力来自海量 pretraining(万亿 token 级别的数据 + 巨大 compute)
  • 他明确说,即使你有 teacher 生成的 trace,没有 CoT 等内部信息,也只是 "tuning the style or filling very small knowledge gaps at best"

除非你只是用来刷基准,刷榜单,这就可以蒸得榜单数据好看,但是实战还是拉跨。

再者,即使有完整模型访问,蒸馏 frontier 模型也极难

  • 很多 frontier 中国模型已经开源,但包括欧洲实验室在内的很多团队,依然很难训练出对齐它们水平的模型
  • 这说明蒸馏/复刻不是"有数据就能轻松复制"

所以他觉得,中国模型比美国模型落后的原因,真正的差距更多来自 compute deficit (算力获取限制),而不是单纯的技术抄袭或蒸馏,他不否认中国模型目前的实际能力差距,但坚决反对把这种实力主要归因于"蒸馏美国模型"

不过,实际上现在黑盒蒸馏可以规模化,也能有效迁移部分任务能力、输出风格、格式遵循和一定程度的推理模式,所以被用的其实还是挺多的,但确实没办法真的复制 teacher 的能力

当然,也有说反对的说 "用原始 LLM responses 做 distillation 是完全可以的,只需要 API 访问权限",并举例 Alpaca 和 Vicuna 就是这么训练出来的

这种方式不需要 teacher 暴露任何内部 logits 或 hidden states,只需要 teacher 生成的最终文本 responses ,但是效果肯定好不到哪里去。

说回蒸馏,其实 antirez 想表达的意思里,有部分是想说 "蒸馏"这个词目前有点被严重滥用和误解了,大家口头说的"蒸馏",但是经常把两种完全不同的技术混在一起说

  • Hard Distillation(硬蒸馏 /黑盒) :只用 teacher 生成的离散 token 序列(responses)训练 student,用标准交叉熵损失, 类似前面说的 Alpaca 和 Vicuna 采用的方式
  • Soft Distillation(软蒸馏/白盒) :需要 teacher 的完整概率分布(logits),通过 KL 散度让 student 模仿 teacher 的软标签,这需要白盒访问或 API 暴露 logits,目前主流商业 API 基本不提供

实际上苹果这次发布 Apple Foundation Models 就是一个 distillation-based refinement ,但是更接近硬蒸馏(不完全) ,因为苹果说的是,在 post-training / refinement 阶段,使用了 Gemini frontier models 的 outputs 进行精炼,也就是用 Gemini frontier model 生成的 outputs(responses)来精炼/对齐自己的模型 。

另外 2026 年的论文《Memorization Dynamics in Knowledge Distillation for Language Models 》(arxiv.org/pdf/2601.15394)也明确区分了这两个的不同,也提到了目前 hard distillation 在黑盒 API 场景下是可行的常用方法,只是会比 soft distillation 继承更多 teacher 特有的记忆样本

所以如果要说硬蒸馏行不行?肯定是可以的,只是他的可控程度,成本和效果肯定差很多。

姚顺宇大佬在访谈里也提到过 "硬蒸/ 聪明的蒸"在实践策略层面的差异,在工程视角上:

  • 简单粗暴:直接让 Claude/GPT 大量生成 token,然后一股脑塞进自己模型里强制训练,大佬的评价是 "商业上也不是很道德,治理上来说也比较愚蠢" ,说明公司"没有想明白也没有方向",因为没有数据筛选、没有策略、没有把 teacher 当成工具,只是当成"数据打印机"

  • 聪明的蒸:把强模型当成辅助工具和评价者,有策略、有目的性地融入自己的训练系统,比如

    • 数据筛选高质量 synthetic data、用 teacher 做 reward model / verifier、multi-agent 协作生成数据、真实数据 ,配合 synthetic 数据混合、迭代式 self-improvement 等

简单来说就是:

  • 粗暴硬蒸 = 低水平重复(just dump data)
  • 聪明的蒸 = 高水平工程(build a smart data flywheel + training system)

当时 antirez 认为不行大部分基于白盒/软蒸馏,他觉得中国模型的真实进步主要来自自己的算力投入、数据工程和研究工作,而不是通过 API 就能轻松"蒸馏"出 frontier 能力,如果把后者当成主要解释,既违反机器学习基本原理,也低估了真正构建强模型的难度。

所以讨论出现分歧的原因也在这里,虽然都叫"蒸馏",但是白盒/软蒸馏被技术圈认为才是真正的蒸馏,而黑盒/硬蒸馏这种只用 teacher 生成的文本 outputs 做 SFT 的做法叫做 Response Distillation 。

所以蒸馏也分专业领域和大众领域,所以这也是存在分歧的原因,大概区别就是:

  • Soft Distillation(软蒸馏 / 白盒)

    • 让 student 去模仿 teacher 的完整概率分布(logits),不只是学最终答案
    • Teacher 输出不是硬标签(one-hot),而是经过 temperature scaling 的软概率分布
    • 学生能学到"暗知识"(dark knowledge):为什么 teacher 认为 A 的概率是 0.7、B 是 0.2、C 是 0.1,而不是简单告诉它是 A

当然,严格的说,soft distillation 的"软"主要是概率分布,不是自然语言思考过程,老师不是真的告诉学生"因为......",而是告诉学生:"在所有候选 token/class 里,我对 A、B、C 的概率分别是多少。"

  • Hard Distillation(硬蒸馏 / 黑盒)

    • 只用 teacher 生成的离散 token 序列(最终输出文本),用标准交叉熵训练 student
    • 相当于把 teacher 当成"老师傅"生成 pseudo-label,然后 student 像正常 SFT 一样学这些数据

说人话就是:

  • Soft Distillation(软蒸馏 / 白盒)老师不仅写答案,还说出思考过程和信心:"我算出来17的概率85%,因为......",学生学到深层思考和暗知识,更聪明
  • Hard Distillation(硬蒸馏 / 黑盒) 老师只在黑板上写最终答案:"10+7=17",学生反复抄答案,学会最终结果和格式,但不知道老师是怎么算的。

也就是一个抄思考过程,一个抄答案.

不过日常里大家其实也不会理解那么多,也不会区分那么多,所以反正我说蒸馏的时候,也不怎么区分这个,所以很多时候也会被怼被阴阳,不过不重要,重要的是你怎么看?

只是我也是同意的,纯硬蒸是做不出来 DeepSeek 的,这一点 antirez 毫无争议是对的

相关推荐
Darling噜啦啦1 小时前
Canvas 游戏开发与数据可视化实战:从飞机大战到 ECharts 报表
前端·echarts·canvas
林间码客1 小时前
04 ROC曲线与AUC:从零开始手动计算
大数据·人工智能·算法
codexu1 小时前
NoteGen 里一条记录如何变成 Markdown
人工智能
OpenTiny社区1 小时前
这次更新太良心!GenUI SDK v1.2.0 轻量化 + 稳流式 + 超强 Playground
前端·vue.js·ai编程
梨子同志1 小时前
WebGL test
前端
程序员黑豆1 小时前
AI全栈开发系列开篇:从Java全栈到AI应用实战
前端·ai编程·全栈
yangyj1 小时前
从 PDR 到落地:用 Codex 完成一次 Rspack 升级
前端
程序员鱼皮1 小时前
提示词工程已死,Loop Engineering 称王!保姆级教程 + 项目实战
前端·后端·ai编程
澄旭1 小时前
拆解一个成熟 Skill,看懂 Skill 到底该怎么写
人工智能