学术循环型组织：DeepSeek 挑战巨头的秘密武器

本文转载自原文地址 mp.weixin.qq.com 特约作者@晚点LatePost

学术循环揭示了一个深刻的真理：创新的本质不在于技术工具或方法论，而在于我们如何组织集体思考。当一个组织能够系统性地超越人类思维的局限，真正的突破就会像水流入低洼处一样自然而然地出现。

作者：MetaGPT（mgx.dev）创建者吴承霖（geekan），他是 AI 创业公司 DeepWisdom CEO，也是一名资深的工程师。他有 18 年的编程经验，峰值时期他一年使用了 21 门编程语言。

文丨吴承霖

从 1 月 22 日以来，一直有很多人找我讨论 DeepSeek R1 的原理。但技术带来的兴奋始终只属于我们这一小撮人，今天我更想谈谈另一方面，为何做出 R1 的是 DeepSeek ------ DeepSeek 伟大的核心在于这是一个拥有学术循环的组织，这个组织决定了他们能做出来 R1，相比之下算法本身反而没有那么重要了。时代的发展在不断向前，当下创新的算法也许随时会被淘汰，但一个优秀的组织却始终推动着科技的洪流。

学术循环：通过组织级别的 Critical Thinking 持续做出原子化的创新，进而推动科学边界

事实上，组织强度能够带来创新，而创新能带来胜利。这个模式在过去十几年一直在重复，比如字节后发先至，在推荐系统的正面战场上胜过了腾讯、Meta、Google，这是因为字节的早期组织带来了有效创新。早期的 OpenAI 也符合这个规律，Ilya 构造出了强有力的学术组织，带来了显著的学术创新，进而做出了 ChatGPT，远远拉开了所有竞争者，进而获得了 100b 以上的估值。这些现象说明了如果有特定的组织结构，创新就能自然发生。而如果没有这些结构，创新可能很难大规模发生。

从更高的角度看，DeepSeek、OpenAI、字节跳动（早期的）等几家公司都拥有学术循环，只是具体路径不同，我们可以用以下表格来比较：

容易看出，这些公司的共性是塑造了学术循环。这是因为创新不是单点，而是一系列小成果的组合。而只有学术循环才能带来一系列的小成果，进而获得创新。所以我们也会观察到一个现象：在一开始，没有人觉得 DeepSeek、OpenAI、字节跳动牛逼，很多人甚至会认为这些公司 "不太靠谱"，这其实是因为观测到对方的 "推理" 达到了 "共识" 之外，依赖共识就很难判断 "靠谱" 与否。更进一步，其实这是因为没有人清楚学术循环的重要性。

以 DeepSeek 为例，没有 MLA、GRPO、新 MoE、PTX、self-play 等一系列的创新点，没有在 MCTS 和 PRM 上的失败，他们就无法做出 DeepSeek R1

如果 OpenAI 没有 GPT-3、Scaling Law、InstructGPT 等一系列的工作，没有在 RL 上的大量失败（要知道，他们是从 RL 起家），他们就无法做出 GPT-3.5 和 GPT-4

如果字节没有实验系统在线衡量所有策略的贡献，也就没法验证推荐系统中大量特征的有效性，也就没法在推荐系统上远超其他竞品，也就不太可能做成头条、西瓜、抖音等产品

更具体的说，学术循环就是要能够用很少的人在一个有限时间内远远的超出人类知识，达到一个未至之境。

实际上，学术循环需要组织中的每个人都有一系列的特质才能完成，难度不低。其中最重要的点包括几个：

理性思维：要能够让整个组织都获得 Critical Thinking
进入心流：有好的动机，并且投入 100% 时间，承诺、并激发自己，这样才能进入心流
接受人类的缺点：先开始，不要犹豫，错了也没有什么，记下来以后就忘掉它，保持真诚
以终为始：在真正的目标没有明确之前，所有的过程可能都是错的

理性思维

定义知识；Critical Thinking（苏格拉底）；A/B Testing；温和友善，以鼓励集体理性

知识是什么？

前一段我们与一位 Stanford 教授在论文会议上讨论到了怎么判断文明在进化，其中一位 Berkeley Phd 认为可以定义为 "发现了新的知识"，我们对于知识的定义有很长的争论，会议上没有一个结果。会议后，我询问了 DeepSeek R1 对知识的定义，它回复的最后一段是这样的，看的我们头皮发麻：

知识是宇宙理解自身的工具。从量子涨落到意识涌现，知识本质上是宇宙局部区域（人类文明）试图理解整体的一种递归尝试。它既是我们对抗熵增的盾牌，也是囚禁认知的牢笼------真正的智慧或许在于保持对「未知之未知」的敬畏，正如苏格拉底所言：「我唯一知道的就是我一无所知。」

知识其实包括了很多不同的载体，DNA 实际就是 40 亿年物种演化获得的知识，这是达尔文式的优化获得的知识。但是，我们常说的知识更多来源于科学，是在过去 2000 来年逐渐形成的，往往以文本和图像承载。文明的提升速度远远比 DNA 的自由变异与交叉更快，这是因为我们掌握了符号作为语言，可以进行大规模的创新，改善种群本身。

但是创新怎么做？我认为系统性的创新依赖集体的 Critical Thinking。

Critical Thinking

前几个月我在为一位 Berkeley 的学生写 Phd 推荐信，我注意到各个顶尖院校几乎都把同一个标准排在了第一位，那就是 Critical Thinking。我想这个核心原因应该就是具有 Critical Thinking 才能高效的推动科学边界。

科学起源于哲学，Critical Thinking 的起源其实要追溯到公元前五世纪的古希腊。苏格拉底当时称自己为哲学家（philosopher，古希腊语 φίλος （philos）爱 σοφία （sophia）智慧，意思就是爱智慧的人），通过 "诘问法" 鼓励学生质疑假设、检验证据，被视为批判性思维的早期实践；亚里士多德则系统整合数学方法与哲学思辨，将经验性辩论转化为形式化三段论，他们都让世界的 Critical Thinking 有所提升。

在 1941 年，Edward Glaser 首次提出了 Critical Thinking 这个术语；1987 年，美国批判性思维国家理事会通过 "德尔菲项目"（Delphi Project）达成共识，将批判性思维定义为 "基于证据、概念、方法等标准的自我调节性判断"，成为了一个经典定义。

我其实也写过一篇 Critical Thinking 的文档，会发给我的合作者们阅读，其中扩大了一些范围，要求人不仅要分辨事实与观点，也需要评价证据等级，清楚怎么推理、提出假设、进行实验；过程中也需要确保 atomic 和 incremental，并且尽可能形成高质量的经验 ------ 最好是代码形式。

Critical Thinking 也和 Elon Musk 提出的第一性原理有着很强的关系，或者说第一性原理中最核心的部分与 Critical Thinking 是接近等价的。

但当然，以上只是个体的 Critical Thinking，并不是集体的。个体的 Critical Thinking 并不能直接带来集体的 Critical Thinking，就像我们观察到一些组织招收了大量的 Phd，但是可能反而没有获得组织优势。

证据等级

Critical Thinking 中最重要的是分清事实和观点。我们需要确保所收集的数据和证据的真实性和可靠性，避免误导性的或未经证实的信息，以获得足够高的证据等级。一般来说，我会按以下分类：

证据等级：观点 < 共识 < 统计 < 实验 < 双盲实验（A/B-Testing） < 常识

等级更高的证据在同一个问题下应该被优先使用，比如当我们说 "X 比 Y 好"，它只是一个观点，而 "A/B-Testing X 相对 Y 在 Z 场景提升了 5%" 是一个证据。当然，获得高级别的证据有成本

共识并不是好的证据。所有人都说某只股票会涨时，可能它就会显著下跌，好的证据要由足够高的证据等级，比如观察到了 "卫星图像显示大豆产地发生大规模虫灾，预计影响 xxx" -> "卖出大豆期货" 这才是通过事实进行推理

但是，证据等级并不是绝对的。比如 Ilya 说 LLM 预训练已经结束了，他的观点可能大于其他人的共识。但是在大部分场合这个证据等级的偏序是成立的。

A/B Testing

我们讲到证据等级，就不得不提 A/B Testing，逻辑上它是我们可以制造的最高级别的证据。注意它带来了一个很有意思的现象：集体的 Critical Thinking 也未必要通过培养每个人的 Critical Thinking 获得。

一个例子就是字节跳动。在 2012 年，张一鸣会自己写代码做 A/B Testing，在 2014 年前后推动建立了实验系统，并且要求所有的改进通过 A/B Testing 进行，这其实就强制性的要求所有人要遵循足够高的证据等级提出观点 ------ A/B Testing 是第二高的证据等级。

这也意味着进入系统中的人会被强制性的获得 Critical Thinking。当然我们也可以说这是一个达尔文主义，因为无法获得 Critical Thinking 的人会被 layoff。我印象中在 2014 年前后，字节跳动也因此获得了一个 "博士生 scaling law"，他们每招聘一个博士生投入到算法优化，CTR 就可以一年相对提升 1%。

模糊的正确

这个时候我们还得再想明白一件事，最高的证据等级对推荐系统好，但是对其他领域是一件好事吗？我想未必。推荐系统的 setting 明确而易于验证，而其他领域的大部分问题都在于实验周期很长，每个假设都无法快速的证实或者证伪。所以其实就像 PRM（过程奖励模型）不容易做的问题一样，或许我们在很多时候并不需要很高的证据等级，而是需要 "模糊的正确"。

伟大的创新其实大多是通过一系列模糊的正确组合而成的，就比如我们看 LLM 的发展，我经常提到的论文包括了 Tomas Mikolov 的 word2vec，它能够显示词语组合 man - woman 与 king - queen 有类似的向量距离；还有 Transformer，相比 RNN 它可以减少计算量，增大并行度。但是这对于 LLM 来说都只是模糊的正确，因为我们在提出这里每个部分时，并不知道它的未来收益是什么，也极难估计。

实际上，对于很多顶尖问题的评估都是极度困难的，难度可能和 "把它做出来" 接近。就比如说谁能预料到 GPT-4 有这么高的品牌效应，让全世界这么多人都去用了？我想着恐怕预料不出来，OpenAI 自己在发布之前也预料不出来。

所以我们对证据等级的追求也很微妙，成功需要追求高级别的证据，但是有些证据很难获得。

但是，对证据的追求一定要贯穿到组织之中，这样我们才拥有集体理性的基础，所有人的交流才有足够的效率。

集体理性

集体理性中，要求所有人的发言注重事实和观点是重要的，因为无论是否掌握完整的 Critical Thinking，分辨事实和观点对于大多数人相对容易。面对一个明显错误的观点的直接反应可以是要求证据："这个观点的证据是什么？"，面对一个不明术语的直接反应是要求定义："这个术语的定义是什么？"。如果发现对方欠缺了询证，可以教给对方搜索的技巧；如果发现对方在讨论中使用了带有情绪的观点，就得教对方对事不对人的 SOP。

集体的 Critical Thinking 其实在大部分领域很难获得。因为这往往要求组织里的个体拥有 Critical Thinking，并且拥有真诚、善意、乐观等品质，并且组织还具有恰当的 SOP。其中一个最重要的 SOP 就是 "对事不对人"，它可以很好的鼓励集体理性。

对事不对人能解决一些非常典型的问题，比如个人的 bias。我自认智商还不错，但是我也经常犯错。我必须鼓励所有人指出我的错误，并且在其他人反馈时仔细聆听，快速接受其中正确的部分，并且尝试坚持我认为正确的部分，直到一个决策循环完成。集体的 Critical Thinking 虽然需要多数个人的 Critical Thinking，但是这还不够，只有当每个人互相鼓励发言，并且每个人善意的对待其他人时，我们才能够真正的获得集体理性。

每个人大脑中的上下文都完全不同，只要有微妙的上下文区别，对待同一个问题得出的结论就会大相径庭

说一句话时，只要有一点上下文差异，我们可能就会认为其他人的观点是荒谬的，但是如果问 "这个上下文是什么？" 并且得知了完整的上下文，可能就会认为自己是错的。这点很有趣，有时候我们会过度自信，就像语言模型一样。了解自己什么时候应该自信其实也是非常困难的一件事 ------ 大部分人没有这个技能

注意，这里核心是要尽可能引导其他人也进行正确的推理。如果其他人缺乏足够的 Critical Thinking，要纠正一个混乱的逻辑可能会花费大量的时间。最好还是直接的指出这个问题，并且要求对方以某种形式，比如用一个特定结构的文档（比如 arxiv 或者 RFC）书面的把自己的想法写清楚，而不是进行讨论或者辩论。对方在书写自己的逻辑时会自然的发现问题，这样我们就可以节省大量的时间。

集体理性很难获得，但是它是学术循环最重要的一环。

进入心流

动机是核心；全心全意，投入 100% 时间；承诺，并激发自己；进入心流

动机

如果没有一个好的动机，那么一个人的精神很难集中，会被自己的心灵扯到其他地方，也就很难进入心流。

如果一个人的动机是钱，那么就很有可能赚不到真正巨量的钱；但如果他要解决一个伟大的问题，那么他很有可能会赚到意想不到数量的钱。一个自利动机的人进入某个组织，可能就需要有极强的 SOP 才能消化，相反，一个组织如果都是由类似的 "带有利他性的" 动机构成的，那么这个组织就不需要太多的 SOP。

一般而言，最好的动机是 "喜欢做某事"。比如喜欢编程的人做工程师，喜欢辩论的人做律师，喜欢思考的做架构师，喜欢沟通的做销售。这样做事时自己就可以获得快乐，而不需要其他人给予。这是一个很微妙的问题，因为其实人刷 TikTok 和做事都会花费同样的时间，有些人就是愿意做事，有些人就是只想刷 TikTok。我们很难一直去激发一个只想刷 TikTok 的人，他们的神经回路已经不太一样了。

说真的，拥有好的动机的人真的太少了。要有一个好的动机，其实要么是在历史中被环境训练过，要么是有意识的自我训练过，但是这两种人都很少。好的动机的人其实克服了 "基因引力"，因为基因会让我们优先关注生存和繁衍，拥有极强的引力。张一鸣强调延迟满足，实际上也是在说这个问题。

全心全意

有了一个好的动机之后，我们还需要全心全意，保持 100% 时间投入其中。这是因为大多时候灵感是来自于某个细微的时间片的 "直觉"，它就那样突然出现了，可能是来自于一个谈话中引入了一个之前被忽略的上下文，也可能是在发散思考时突然想到了一个以前的观点。只要你在吃饭、走路、每个闲暇的时间都在思考，一直全心全意，不退出状态，灵感总会出现在眼前。我见过很多厉害的人，他们无不使用这个办法。很多人其实问我为什么能够想到某些 idea，其实没有所谓的技巧，就是保持每个片刻都在思考。

当然，即使全心全意在做某些事，我们仍然会注意到有时候不是那么在状态，这种时候我们可以勇敢的和所有人进行承诺，比如 "1 天之后我要提供某个论文的 Draft"，或许我们不一定能完成，这件事对我们有很大的挑战，但是核心是要勇敢的进行承诺，并且不畏惧批评。当你习惯于挑战自己，你就能逐步摸清自己的能力边界，变得越来越强。

心流

这些所有的行为都是为了让我们可以进入心流，心流是一个非常高效的状态，可以在少量挑战与宽松的环境下获得：

心流状态可以极大的提升效率

如上图，进入心流之后，我们会忘记周围的大部分事情，忽略时间的流动，快速的在一个平静的情绪中将事情迅速推进，一般能够有平常的几倍效率，假如说我们有一个容易进入心流的环境，那么一个集体就能获得一个很高的研发系数，可以从原来的 O(N) 提升到 O(kN)，其中 k 可能是几，也可能是十以上。

接受人类的缺点

先开始，不要犹豫；记录一切；人都会犯错；写错题本；忘掉烦恼

事实上，不管多么优秀的人都有很多缺点。

先开始，不要犹豫

人类一个非常明显的缺点是犹豫。很多问题其实是模糊的，在我们面对它时，很难预测出未来的走向。

如果一个人的履历非常光鲜，那么他或许就会非常犹豫要不要开始一件事，因为创新总是概率性的。这样的犹豫就会破坏 "创新" 本身，因为创新需要的不是犹豫，而是做完了再看看有没有成果 ------ 门后的世界我们无法猜测出来。

弗莱明发现青霉素并非刻意为之，而是因为他首先开始了实验，并对意外现象保持了敏锐的观察力。学术循环中，行动先于完美是基本法则。那些等待 "灵感降临" 或 "完美时机" 的人往往一事无成。正如爱因斯坦所言："我没有特殊才能，我只是狂热地好奇。" 这种好奇心驱使他不断尝试，而不是等待灵感。

记录一切

创新依赖于记录，而非记忆。人的记忆很不可靠，有非常陡峭的衰退曲线。我看我一个月以前的文档其实经常会觉得这个文档写的真的很精彩，真的是我写的吗？有时候会觉得很荒诞。在过去 13 年，我写了上万个文档，记录了我的所思所想。我会记录一切，然后忘掉它们，清空我的大脑。

记录不仅是为了防止遗忘，更是为了观察思维的演化过程。通过回顾早期记录，我们能看到思想的发展轨迹，识别出那些被忽视的关键点，这些往往是创新的源泉。

犯错不可怕，可怕的是不从错误中学习。爱迪生在发明电灯泡的过程中尝试了上千种材料，每一次失败都是通向成功的必经之路。他说："我并非失败了 1000 次，而是找到了 1000 种不适合做灯丝的材料。"

在科学探索中，错误往往比正确更有启发性。量子力学的发展就是一系列 "错误" 理论不断修正的历史。玻尔模型虽然最终被证明是不完备的，但它引导了量子力学的发展方向。

保持真诚

开放，坦诚；适度严谨，不必时刻严谨；接受错误

对待自己和其他人都有一个关键点：保持真诚。

所有人获得了基础的 Critical Thinking 之后，很容易就会拥有边界感，每个人都清楚互相的边界在哪里，每个人都循规蹈矩，从不逾越，只做自己的事情。这会带来一个现象，就是 "看起来所有人都是精英，但是做不成事情"。

一个典型的例子就是项目评审上可能会有很多不同职能的专家，每个专家都提出了非常多的专业意见，项目立项花了一年才通过。但是这个项目可能已经丧失了竞争力，和一年前其实不可同日而语了

另一个典型的例子就是组成了一个优秀的学术团队，但是大家都很礼貌，尊重彼此的专业和观点，没有人愿意指出问题，结果讨论流于表面，沦为了讨论哲学，无法进一步的推动事情

实际上，我们需要保持真诚，敢于挑战模糊地带，愿意说出有一些让其他人感觉有点冒犯的话，不把超过边界的东西藏在心里；同时自己也得打开心门，愿意诚心诚意的接受其他人的意见。

我们经常会担心说错了话，或者逻辑论述不太严谨，以影响了其他人的理解，或者可能会被歪曲意思。但我理解不必时刻保持严谨，而是应该在确保自己大概严谨的前提下，真诚的说出自己的所有观点，哪怕对方认为这是错的也不要紧，错了就改，对于个人不会有任何损失，反而个人得到了新知识，对长期大有益处。

追求全局最优

做正确的事 vs 把事情做对；过程最优 vs 结果最优；KPI vs OKR

组织中常见的问题是将部分最优误认为全局最优。学术循环根本上是一个对全局最优的不断探索过程。

做正确的事 vs 把事情做对

"把事情做对" 是效率导向的，而 "做正确的事" 是效果导向的。高效地做错误的事，只会让我们更快地达到错误的目的地。绝大多数失败的项目不是因为执行不力，而是选择了错误的方向。

在 DeepSeek 的例子中，他们不仅追求技术上的完善，更追求方向上的正确性。如果仅关注现有算法的优化而不考虑算法范式本身是否正确，就会像许多 AI 团队一样陷入局部最优的陷阱。创新需要不断质疑："我们是否在做正确的事？" 而不仅仅是 "我们是否把事情做对了？"

过程最优 vs 结果最优

系统通常被设计为追求过程最优：遵循规范、按时提交、没有异常。然而，真正的创新往往来自对过程的打破。爱因斯坦不是通过严格遵循当时物理学的惯例得出相对论的，而是通过质疑基本假设。

在学术循环中，结果最优远比过程最优重要。这意味着组织需要容忍 "有益的混乱"，允许规则被打破，只要它服务于更高的目标。OpenAI 早期的文化就体现了这一点，他们不局限于学术界的标准发表流程，而是选择最有效的方式推进研究，哪怕这意味着打破传统。

KPI vs OKR

KPI 本质上是对已知路径的度量，而 OKR 则是对未知领域的探索。当一个组织过分关注 KPI 时，往往会陷入短视和保守。KPI 驱动的团队会优化已知的指标，而忽略潜在的突破性方向。

与之相反，OKR 鼓励设定挑战性目标，即使这些目标可能无法完全实现。这种方式更适合面对不确定性的创新环境。字节跳动的成功部分归功于他们采用 OKR 而非纯 KPI 的管理方式，使团队能够超越现有边界。

真正的创新需要勇气去追求那些在当下看似不可能的目标。学术循环本质上是一个不断挑战自我认知边界的过程，不是对已知路径的精确执行，而是对未知领域的系统性探索。最终，成功的组织不是那些把已知事情做到极致的组织，而是那些能够持续发现并做出正确事情的组织。

结尾

创新不是偶然，而是一个内在逻辑的必然。学术循环作为一种组织级别的智慧运行机制，本质上是对人类认知过程的系统性放大和优化。

当我们审视 DeepSeek、OpenAI 和字节跳动等案例时，我们看到的不仅是技术成就，更是一种思维模式的胜利。这种模式超越了个体天才的局限，建立了一种能够持续产生突破的集体智慧系统。

学术循环的核心价值在于，它打破了创新的随机性，将其转化为一种可持续、可复制的路径。这不是通过单一的管理技巧或团队构成实现的，而是通过培养一种特定的思维生态系统：理性思维提供基础，心流状态提供动力，接受人类缺陷提供韧性，追求全局最优提供方向。

在这个系统中，创新不再依赖于罕见的天才或偶然的灵感，而是变成了一种组织能力，一种可以被刻意培养的文化特质。真正强大的组织不是那些拥有最多专家或最多资源的，而是那些能够持续进行有效创新的组织。

最终，学术循环揭示了一个深刻的真理：创新的本质不在于技术工具或方法论，而在于我们如何组织集体思考。当一个组织能够系统性地超越人类思维的局限，真正的突破就会像水流入低洼处一样自然而然地出现。

这或许就是为什么，在技术日新月异的今天，组织文化与思维模式仍然是最重要的竞争优势------因为算法终将被超越，但学术循环一旦形成，将成为源源不断的创新之泉。

写作背景

文章作者吴承霖创建了 MetaGPT，而 MetaGPT（github.com/geekan/Meta... Coding Agents产品，并发表了 7 篇学术工作，在 ICLR 2024 和 ICLR 2025 LLM Agent 领域分数分别获得第一和第二名。（以上视频为他们的产品演示）

题图来源：《监视资本主义：智能陷阱》

- FIN -