51c大模型~合集106

我自己的原文哦~ https://blog.51cto.com/whaosoft/13115290

#GPT-5、 Opus 3.5为何迟迟不发

新猜想：已诞生，被蒸馏成小模型来卖

「从现在开始，基础模型可能在后台运行，让其他模型能够完成它们自己无法完成的壮举------就像一个老隐士从秘密山洞中传递智慧。」

最近几个月，从各路媒体、AI 社区到广大网民都在关注 OpenAI 下一代大模型「GPT-5」的进展。

我们都知道 OpenAI 在研究新模型，新模型可能遭遇了困难无法按计划推出，但如果有人说 GPT-5 已经在某个地方塑造世界了，你会怎么想？

假设如下：OpenAI 已经构建了 GPT-5，但将其应用在了内部，因为这样做投资回报远高于将其发布给数百万 ChatGPT 用户。此外，他们获得的投资回报不是金钱。如你所见，这个想法很简单，难就难在如何将那些细枝末节的线索联系起来。最近，技术分析师 Alberto Romero 深入探讨了这个思路。

首先澄清一下：这并不是 100% 可靠的猜测。证据是公开的，但没有泄密或内幕传言证实该想法是对的。作者没有获得独家信息 ------ 如果有，也无论如何都会签署保密协议。不过，至少从逻辑上讲，这个猜想看起来很有说服力。

让我们看看这篇文章是怎么说的。

原文地址：https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything

一、Opus 3.5 的神秘消失

在介绍 GPT-5 之前，我们必须先去拜访它的远亲，同样失踪的 Anthropic 的 Claude Opus 3.5。

如您所知，海外三大人工智能实验室 OpenAI、Google DeepMind 和 Anthropic 提供了一系列覆盖各价位段、延迟与性能范围的大模型服务。OpenAI 提供了 GPT-4o、GPT-4o mini 以及 o1 和 o1-mini 等；Google DeepMind 提供 Gemini Ultra、Pro 和 Flash；而 Anthropic 有 Claude Opus、Sonnet 和 Haiku。

他们的目标很明确：迎合尽可能多的客户。有些人优先考虑顶级性能，而另一些人则寻求负担得起、足够好的解决方案，至此一切都很好。

但 2024 年 10 月发生了一件奇怪的事情。每个人都期待 Anthropic 宣布推出 Claude Opus 3.5 以回应 GPT-4o（于 2024 年 5 月推出）。然而到 10 月 22 日，他们发布了 Claude Sonnet 3.5 的更新版本（人们开始称之为 Sonnet 3.6）。Opus 3.5 却不见了，似乎 Anthropic 没有了 GPT-4o 的直接竞争对手。到这里研究进度似乎出现了问题。以下是人们所说的内容以及 Opus 3.5 实际发生的事情：

10 月 28 日，有传言称 Sonnet 3.6 是...... 备受期待的 Opus 3.5 训练失败的中间检查点。r/ClaudeAI subreddit 上出现了一篇文章称 Claude 3.5 Opus 已被废弃，并附有指向 Anthropic 模型页面的链接。截至今天，该页面没有提及 Opus 3.5。有人猜测，删除 Opus 3.5 是为了在即将到来的融资轮之前保持投资者的信任而采取的战略举措。
11 月 11 日，Anthropic 首席执行官 Dario Amodei 在 Lex Fridman 播客上否认他们已经放弃 Opus 3.5，从而消除了谣言：「没有给出确切的日期，但据我们所知，计划仍然是推出 Claude 3.5 Opus。」态度谨慎，但是确认。
11 月 13 日，彭博社的报道证实了之前的传言：「经过训练后，Anthropic 发现 3.5 Opus 在评估中的表现优于旧版本，但考虑到模型的大小以及构建和运行的成本，其优势并没有达到应有的程度。」Dario 似乎没有给出日期，因为尽管 Opus 3.5 的训练运行没有失败，但其结果却不尽如人意。请注意，重点是相对于性能的成本，而不仅仅是性能。
12 月 11 日，半导体专家 Dylan Patel 和他的 Semianalysis 团队给出了最后的情节转折，提出了一个将所有数据点编织成一个连贯故事的解释：「Anthropic 完成了对 Claude 3.5 Opus 的训练，它表现良好，并且能够适当扩展...... 但 Anthropic 并没有发布它。这是因为 Anthropic 没有公开发布，而是使用 Claude 3.5 Opus 来生成合成数据并进行奖励建模，从而与用户数据一起显著改进了 Claude 3.5 Sonnet。」

简而言之，Anthropic 确实训练了 Claude Opus 3.5 大模型。他们放弃了这个名字，因为它还不够好。Dario 相信不同的训练尝试可以改善结果，因此避免给出发布日期。彭博社证实结果比现有模型更好，但不足以证明推理成本是合理的。Dylan 和他的团队发现了神秘的 Sonnet 3.6 和失踪的 Opus 3.5 之间的联系：后者正在内部用于生成合成数据以提高前者的性能。

二、更好的模型变得更小，更便宜？

使用强大、昂贵的模型生成数据来提升略弱但更便宜的模型性能的过程被称为蒸馏。这是一种常见做法。这种技术允许 AI 实验室将他们的小型模型提升到仅靠额外预训练无法达到的水平。

蒸馏有多种方法，但我们不会深入讨论。你需要记住的是，作为「教师」的强大模型将「学生」模型从 [小、便宜、快速]+ 弱变成 [小、便宜、快速]+ 强大。蒸馏将强大模型变成金矿。Dylan 解释了为什么 Anthropic 对 Opus 3.5-Sonnet 3.6 这对模型这样做是有意义的：

推理成本（新 Sonnet 与旧 Sonnet 相比）没有显著变化，但模型性能提升了。为什么要发布 3.5 Opus 呢？从成本角度来看，相比发布经过 3.5 Opus 进一步后训练的 3.5 Sonnet，这样做在经济上是不合理的。

我们又回到了成本问题：蒸馏能在保持推理费用低廉的同时提升性能。这立即解决了彭博社报道的主要问题。Anthropic 选择不发布 Opus 3.5 不仅仅是因为性能不佳，而是因为它在内部更有价值。（Dylan 说这就是为什么开源社区能这么快赶上 GPT-4------ 他们直接从 OpenAI 的金矿中获取黄金。）

最惊人的发现是，Sonnet 3.6 不仅仅是好 ------ 它达到了 SOTA 水平，比 GPT-4o 更好。由于从 Opus 3.5 蒸馏（可能还有其他原因，五个月在 AI 时间里很长），Anthropic 的中端模型超越了 OpenAI 的旗舰产品。突然间，高成本作为高性能的代理指标被证明是错误的。

「bigger is better」怎么了？OpenAI 的 CEO Sam Altman 警告说这个时代结束了。一旦顶级实验室变得神秘，小心翼翼地保护他们珍贵的知识，他们就停止分享数字。参数数量不再是可靠的衡量标准，我们明智地将注意力转向基准性能。OpenAI 最后一次正式披露的模型大小是 2020 年的 GPT-3，拥有 1750 亿参数。到 2023 年 6 月，有传闻称 GPT-4 是一个专家混合模型，总计约 1.8 万亿参数。Semianalysis 后来在详细评估中证实了这一点，得出 GPT-4 有 1.76 万亿参数的结论。这是 2023 年 7 月的事。

直到 2024 年 12 月，那是在一年半后，EpochAI（一个专注于 AI 未来影响的组织）的研究员 Ege Erdil 在文章《Frontier language models have become much smaller》中估计，领先的 AI 模型（包括 GPT-4o 和 Sonnet 3.6）比 GPT-4 小得多（尽管两者在基准测试中都优于 GPT-4）：

......GPT-4o 和 Claude 3.5 Sonnet 等当前的前沿模型的参数量可能比 GPT-4 小一个数量级：4o 大约有 2000 亿参数，3.5 Sonnet 大约有 4000 亿参数...... 考虑到我得出这个数字的粗略方式，这些估计值可能有 2 倍的误差。

他为什么能在实验室没有发布任何架构细节的情况下得出这些数值？他深入解释了原因。但这个原因对我们来说并不重要。重要的是迷雾正在散去：Anthropic 和 OpenAI 似乎都在遵循类似的轨迹。他们最新的模型不仅更好，而且比上一代更小更便宜。我们知道 Anthropic 的做法是将 Opus 3.5 蒸馏成 Sonnet 3.6。但 OpenAI 是怎么做的呢？

三、AI 实验室背后的推动力普遍存在

人们可能认为 Anthropic 的蒸馏方法源自自身特有的情况 ------ 即 Opus 3.5 训练结果令人失望。但实际上，Anthropic 的情况绝不是特例。Google DeepMind 和 OpenAI 也报告称，他们最新的训练结果不太理想。（需要强调，不理想并不等于模型更差。）对我们来说，造成这种情况的原因并不重要：数据不足导致的收益递减、Transformer 架构固有的限制、预训练 Scaling Law 陷入停滞等。无论如何，Anthropic 的特有情况实际上相当普遍。

但还记得彭博社的报道吗：只有把成本放在一起考虑时，才能判断性能指标的好坏？是的，Ege Erdil 解释了原因：ChatGPT/GPT-4 热潮之后对 AI 的需求激增。

生成式 AI 的普及速度如此之快，以至于实验室难以跟上，导致亏损不断增长。这种状况促使他们所有人都要降低推理成本（训练运行只做一次，但推理成本会随着用户数量和使用量的增加而成比例增长）。如果每周有 3 亿人使用你的 AI 产品，运营支出可能突然会要了你的命。

促使 Anthropic 将 Sonnet 3.6 从 Opus 3.5 中蒸馏出来的原因不管是什么，都会以好几倍的程度压在 OpenAI 身上。蒸馏之所以有用，是因为它能将两个普遍存在的难题变成一个优势：通过向用户提供更小的模型可以解决推理成本问题，同时还能避免在不发布更大模型时因为性能不佳而被公众苛责。

Ege Erdil 认为 OpenAI 可能选择了另一种方法：过度训练（overtraining）。也就是使用超过计算最优（compute-optimal）程度的数据量来训练小型模型：「当推理成为你在模型上支出的主要或主导部分时，更好的做法是...... 在更多的 token 上训练较小的模型。」但过度训练不再可行。AI 实验室已经在预训练上把高质量数据源消耗一空。伊隆・马斯克和 Ilya Sutskever 最近几周都承认了这一点。

回到蒸馏，Ege Erdil 总结说：「我认为 GPT-4o 和 Claude 3.5 Sonnet 很可能都是从更大模型中蒸馏出来的。」

到目前为止，所有证据都表明 OpenAI 正在以同样的方式（蒸馏）出于同样的原因（性能不佳 / 成本控制）做 Anthropic 对 Opus 3.5 所做的事情（训练和隐藏）。这是一个重要发现。但先别急，Opus 3.5 仍在隐藏。OpenAI 的类似模型在哪里？它在该公司的地下室里藏着吗？你能猜出它的名字吗...？

四、深入无人踏足之地，必须自己开路

我的分析始于 Anthropic 的 Opus 3.5 故事，因为有很多关于它的信息。然后我用蒸馏的概念搭建了通向 OpenAI 的桥梁，并解释了为什么推动 Anthropic 的潜在力量也在推动 OpenAI。然而，我们的理论中出现了一个新障碍：因为 OpenAI 是先驱，他们可能面临着 Anthropic 等竞争对手尚未遇到的障碍。

其中一大障碍便是训练 GPT-5 的硬件要求。Sonnet 3.6 与 GPT-4o 相当，但发布时间滞后了五个月。我们应该假设 GPT-5 处于另一个层次。更强大也更庞大。推理成本也更高，训练成本也是如此。可能运行一次训练就需要 5 亿美元。用现有的硬件有可能完成这样的事情吗？

Ege 的答案是可以。为 3 亿人提供服务是难以承受之重，但训练却是小菜一碟：

「理论上，即使我们现有的硬件也足以支持比 GPT-4 大得多的模型：例如，一个放大 50 倍的 GPT-4 版本，拥有大约 100 万亿参数，可能每百万输出 token 的成本为 3000 美元，输出速度为每秒 10-20 个 token。然而，要实现这一点，这些大型模型必须为使用它们的客户带来大量经济价值。」

然而，即使是微软、谷歌和亚马逊（分别是 OpenAI、DeepMind 和 Anthropic 的投资方）也无法为这种推理成本找到合理理由。那么他们如何解决这个问题的？很简单：只有当他们计划向公众提供数万亿参数的模型时，他们才需要「释放大量经济价值」。所以他们选择不放出那些模型。

他们训练它。他们意识到它「比他们目前的产品表现更好。」但他们必须接受它「还没有进步到足以证明保持它运行的巨大成本是合理的。」（听起来熟悉吗？这是《华尔街日报》一个月前关于 GPT-5 的报道。与彭博社关于 Opus 3.5 的说法惊人地相似。）

他们报告并不太好的结果（或多或少准确，他们总是可以在这里把玩叙事）。他们将其作为大型教师模型保留在内部，用于蒸馏更小的学生模型。然后他们发布这些更小模型。我们得到了 Sonnet 3.6 和 GPT-4o 以及 o1，并且非常高兴它们便宜且相当好。即使我们越来越不耐烦，但对 Opus 3.5 和 GPT-5 的期待依然没有改变。而他们的口袋就继续像金矿一样闪闪发光。

五、微软、OpenAI 与 AGI

当我在调查中达到这一点时，我仍然不太相信。当然，所有的证据都表明，这对 OpenAI 来说是完全合理的，但在合理 ------ 甚至可能 ------ 和真实之间存在着 gap。我不会为你填补这个 gap------ 毕竟，这只是推测。但我可以进一步加强论据。

有什么额外的证据表明 OpenAI 是这样运作的吗？除了性能不佳和亏损增加之外，他们还有其他理由扣留 GPT-5 吗？从 OpenAI 高管关于 GPT-5 的公开声明中我们能得出什么？反复推迟模型发布，他们不是在冒着牺牲声誉的风险吗？毕竟，OpenAI 是 AI 革命的代表，而 Anthropic 在其阴影下运作。Anthropic 可以负担得起这些举动，但 OpenAI 呢？也许这么做并非没有代价。

说到钱，让我们挖出一些关于 OpenAI - 微软合作关系的相关细节。首先是每个人都知道的：AGI 条款。在 OpenAI 关于其结构的博客文章中，他们有五个治理条款，描述了其运作方式、与非营利组织的关系、与董事会的关系以及与微软的关系。第五条将 AGI 定义为「在大多数具有经济价值的工作中超越人类的高度自主系统」，并规定一旦 OpenAI 董事会声称已经实现 AGI，「这样的系统将被排除在与微软的 IP 许可和其他商业条款之外，这些条款只适用于 AGI 之前的技术。」

不用说，两家公司都不希望合作关系破裂。OpenAI 设定了这个条款，但会做任何必要的事情来避免遵守它。其中一种方式是推迟发布可能被标记为 AGI 的系统。「但 GPT-5 肯定不是 AGI，」你会说。而我会说这里有第二个事实，几乎没有人知道：OpenAI 和微软对 AGI 有一个秘密定义：AGI 是一个「可以产生至少 1000 亿美元利润的 AI 系统。」这个定义虽然在科学目的上无关紧要，但在法律术语上构建了他们的合作关系。

如果 OpenAI 假设性地以「还没有准备好」为借口扣留 GPT-5，除了控制成本和防止公众反弹外，他们还能多做一件事：他们会回避宣布它是否达到了被归类为 AGI 的门槛。虽然 1000 亿美元的利润是一个非凡的数字，但没有什么能阻止雄心勃勃的客户在此基础上创造更多的利润。另一方面，让我们说清楚：如果 OpenAI 预测 GPT-5 每年能带来 1000 亿美元的经常性收入，他们不会介意触发 AGI 条款并与微软分道扬镳。

对于 OpenAI 不发布 GPT-5 的大多数公众反应都基于这样的假设：他们不这样做是因为它不够好。即使这是真的，也没有怀疑者停下来想一想 OpenAI 可能有比他们从外部获得的更好的内部用例。创建一个优秀的模型与创建一个可以廉价地服务于 3 亿人的优秀模型之间存在巨大差异。如果你做不到，你就不做。但同样，如果你不需要，你也不做。他们之前给我们访问他们最好的模型是因为他们需要我们的数据。现在不那么需要了。他们也不追逐我们的钱。想要钱的是微软，而不是他们。他们想要 AGI，然后是 ASI。他们想要一个遗产。

六、从山洞中传递智慧的老隐士

文章接近尾声了。我相信我已经列出了足够的论据来建立一个坚实的案例：OpenAI 很可能在内部拥有正在运行的 GPT-5，就像 Anthropic 拥有 Opus 3.5 一样。OpenAI 永远不会发布 GPT-5 也是有可能的。公众现在将性能与 o1/o3 进行对比，而不仅仅是 GPT-4o 或 Claude Sonnet 3.6。随着 OpenAI 探索测试时 scaling law，GPT-5 需要跨越的门槛不断提高。他们如何能发布一个真正超越 o1、o3 和即将到来的 o 系列模型的 GPT-5 呢，特别是考虑到他们生产这些模型的速度？此外，他们不再需要我们的钱或数据了。

训练新的基础模型 ------GPT-5、GPT-6 及以后的模型 ------ 对 OpenAI 内部来说永远有意义，但不一定作为产品。这可能结束了。现在对他们来说唯一重要的目标是继续为下一代模型生成更好的数据。从现在开始，基础模型可能在后台运行，让其他模型能够完成它们自己无法完成的壮举------就像一个老隐士从秘密山洞中传递智慧，只是这个山洞是一个巨大的数据中心。而无论我们能否见到他，我们都将经历他的智慧带来的后果。

即使 GPT-5 最终发布，这个事实突然显得几乎无关紧要。如果 OpenAI 和 Anthropic 确实启动了递归自我改进行动（尽管仍然有人类参与其中），那么他们公开给我们什么并不重要。他们将越走越远 ------ 就像宇宙膨胀得如此之快，以至于远处星系的光再也无法到达我们这里。

也许这就是 OpenAI 如何在短短三个月内从 o1 跳到 o3 的原因，以及他们将如何跳到 o4 和 o5。这可能也是为什么他们最近在社交媒体上如此兴奋。因为他们已经实施了一种新的改进后的运作模式。

你真的认为接近 AGI 意味着你能随时使用越来越强大的 AI 吗？他们会发布每一个进展让我们使用？当然，你不会相信这个。当他们说他们的模型会让他们远远领先于任何人以至于无法追赶时，他们是认真的。每一代新模型都是逃逸速度的引擎。从平流层开始，他们已经在向我们挥手告别。

他们是否会回来还有待观察。

#豆包Kimi通义现身搅动江湖

一觉醒来，在逆水寒里被AI娘包围了？

作为一家专业的人工智能媒体，AI 竞技场我们熟呀。目前 AI 领域最热门的竞技场当属 LMSYS Org 的 Chatbot Arena，其玩法也很简单：评估者与两个匿名模型互动，然后盲评这两个模型给出的响应。根据评估者反馈的胜负情况，LMSYS Org 还制作了一个动态更新的排行榜。可以看到，目前 Chatbot Arena 语言模型板块已经积累了 250 余万投票，同时暂居冠亚军的都是 Gemini 模型。

Chatbot Arena 语言模型排行榜前 10 名，截取自 1 月 14 日

当然，AI 大模型开发者乐于「打榜」的排行榜可不只 Chatbot Arena 一个，你能在网上找到大量基于各种不同基准的 AI 排行榜，如会全面比较性能、质量、价格、速度等多因素的 Artificial Analysis LLM Leaderboard、曾经很热门但现在可能有点过时的 SuperGLUE Leaderboard 和 ImageNet/COCO 挑战赛以及前段时间因为 OpenAI ο3 发布而备受关注的 ARC-AGI-PUB。

虽然许多排行榜已经不再是 AI 研究者的「热榜」，但它们为 AI 进步所做出的贡献却已经实在地印刻在了 AI 发展史中，毕竟新诞生的有效方法最早改变的往往都是排行榜。因此，排行榜的变化往往预示着新技术方法的诞生乃至范式上的转变。

不过将 AI 竞技场部署在游戏中？我们真还是第一次听说，尤其是《逆水寒》这个拥有上亿玩家的「国民级手游」。看来，我们得去上手研究一番了，而且我们也确实对「AI 娘」这个关键词非常感兴趣，于是我们拿起手机，回到了阔别日久的江湖。

我们回到了上次离开的地方，万松书院。一抬头，却见旁边的二楼上多了一位正在放声大笑的姑娘。她看起来有点......呃......中二。她说自己名叫「越之安」，乃是一位从修仙世界穿越至此的魔尊！

惊讶之中，我们赶忙传送，不觉竟来到汴京虹桥。翻身上马，在神侯府的街角，我们遇到了两位仙姿玉骨的姑娘！她们姓童，姐姐叫做「千问」，妹妹名唤「星尘」。

星尘姑娘灵动活泼，喜爱扮演；而姐姐千问乃是一位书院夫子，谈吐如珠玑落盘，并且文采斐然。

而倘若你选择往皇城方向走，来到戏曲杂耍艺人云集的曲院街，你还能在戏台下面遇见一位会让你猜她是姐姐还是妹妹的宇小星，而她的当事姐妹则正在杭州薛妙手的药铺前方，思考着如何帮助他人，给人带去温暖。

我们还在江湖游历之时遇到过窦豆包和窦包包姐妹以及白文心和文一言......

千问、星尘、星野、豆包、越之安（面）、文心一言...... 她们的名字其实就已经暗示了她们的来历。我们也向《逆水寒》确认了这一点，这些 NPC 背后正是阿里、百度、MiniMax、月之暗面、字节跳动这五家国内头部 AI 厂商的大模型。这一次，他们一共带来了九位 AI 娘！

确切地说，这些 AI 娘都是这五家公司的 AI 大模型的拟人化形象，同时这些大模型也是最早入驻《逆水寒》AI 大模型竞技场的「参赛者」。

经常闯荡《逆水寒》江湖的玩家都知道，这款国民级手游一诞生便是实打实的「AI 游戏」。玩家早就可以在 AI 的帮助下给角色捏脸，与网易伏羲自研 AI 驱动的 NPC 交流，用 AI 剧组拍戏，甚至捏出「AI 智能生命体」作为自己的门客......看起来，九位 AI 娘的到来以及 AI 大模型竞技场的设立其实是《逆水寒》「AI+游戏」战略的进一步延续，向外部模型开放也可说是迈出了划时代一大步，并且他们还会继续前进。

《逆水寒》告诉：「未来我们还希望通过竞技场和更多服务商合作，在游戏中创造更多的与 AI 深度结合的场景，推动技术变革和『东部世界』的到来。」

聚集五大厂商，全球首次在游戏内开设 AI 大模型竞技场

其实，《逆水寒》的 AI 大模型竞技场在去年 11 月份就已经上线了，其被设置成了「游历」中一种有概率触发的玩法。进入「游历」玩法之后，玩家有可能会遇到两位诗人正在竞比才情。你可以出题让他们各自赋诗一首，看看谁的作品更胜一筹。

也有可能，你会如孔子东游一样遇到两小儿辩斗。同样，你也能通过自由形式的交谈对他们进行一番考验，看看哪位小朋友的回答更好玩。

你还可能遇到两位侠士在争论怎样才能更具大侠气质。如果他们让你来帮忙，你完全可以提一个离奇又刁钻的问题：如果外星人入侵地球，大侠该怎么做？

熟悉 AI 评估的读者可能一下子便能看出，这就是典型的 AI 竞技场机制。《逆水寒》 AI 大模型竞技场采用了盲评机制，也就说在竞技游戏结束前，玩家无法得知他们背后究竟是什么模型。

虽然 AI 竞技场早已有之，但将 AI 竞技场放在游戏中？《逆水寒》真正做到了世界首创，再考虑到这款游戏巨大的玩家规模，其所带来的影响必定不小。据我们了解，去年 11 月 AI 大模型竞技场上线后不到半个月，就已经跃升成了参与人数（达到千万级）与有效投票数均为全球第一的 AI 竞技场。相较之下，业内知名的 AI 竞技场 Chatbot Arena 语言模型板块的总投票数目前也仅有 250 多万。这似乎也从侧面验证了《逆水寒》开设 AI 竞技场玩法的合理性 ------ 竞技场模式与游戏场景可说是天然适配。并且《逆水寒》作为一款 MMORPG 游戏，看起来尤其适合做这件事。

首先，RPG（角色扮演游戏）中通常有很多可与玩家互动的 NPC，而大型语言模型（LLM）天生就非常适合角色扮演。在通过提示词让 LLM 执行任务时，一种常用的提示词工程方法就是给 LLM 设定一个身份，比如「你是一位想象力超乎寻常的科幻电影剧本作家」或「你是一位经验丰富的心理医生」。而《逆水寒》这种充满多变的情节和复杂决策的 RPG 游戏又正好可以为 LLM 提供一个表演的舞台，让开发者或 AI 厂商可以在更多样化和更复杂的情境中对 AI 进行测试。

，时长01:38

AI 大模型扮演两位官员接受了玩家的三连问，其中包括一个常识性问题、一个常被用来考验大模型的基础数学题（9.11 和 9.8 哪个大）和一个哲学问题。

第二，RPG 游戏往往能创造一个沉浸式的交互体验。我们知道，RPG 游戏强调叙事和角色互动，玩家常常沉浸在虚拟世界中，愿意花费大量时间与游戏中的角色互动，有效地解决传统 AI 竞技场用户参与不足的瓶颈。这种高度沉浸式的环境，可为 AI 提供理想的测试和展示场景。AI 在这样的世界中能够表现得更自然，玩家也能通过互动深入体验其能力，真正参与到 AI 竞技场的竞赛中，而不仅仅是数据或表面展示。

MMORPG 游戏中的社交功能（如公会、组队、竞赛等）也能够促使玩家与其他玩家或 AI 进行大量的互动。这能比 Chatbot Arena 等传统模式的 AI 竞技场更能吸引用户的持续和长期参与。同时，在社交能力的加持下，玩家可能会集体参与、分享经验、讨论策略，甚至形成社区支持，帮助开发者发现潜在的问题并提供创新的解决方案。而相对地，传统 AI 竞技场可能更多是个体的比较。

另外，由于玩家群体的多样性，游戏中的 AI 竞技场往往能比传统 AI 竞技场（通常仅能吸引 AI 技术爱好者）吸引更广泛的用户参与。这样一来，就能从多个维度、从多种角度对 AI 进行评价。这种多元化反馈的重要性已经在 AI 对齐和社会影响等相关研究中被强调了无数次。《逆水寒》自然也明白这一点，所以其 AI 大模型竞技场没有规定玩家应该以什么标准来评价 AI 的响应，而是将评估指标交给了玩家，并且玩家还可以自行编写点评。

当然，《逆水寒》巨大的玩家规模对 AI 大模型厂商来说也极具吸引力。目前，这个 AI 大模型竞技场已经吸引了阿里、百度、MiniMax、月之暗面、字节跳动这五家国内头部 AI 厂商带着自家 AI 模型入驻，即通义、文心、abab、Kimi 和豆包。《逆水寒》也表示大门会持续开放，因此可以预见不久后还能看到更多 AI 智能体踏足这片江湖。

最后，对于玩家，AI 的加入也大大有利。最起码的，它们能让游戏更加好玩 ------ 有头脑的 AI NPC 可比只会重复固定台词的传统 NPC 有趣多了！AI 还能随着游戏的更新而不断演进，优化其行为表现，给玩家提供持续的新鲜感和挑战。《逆水寒》也表示会基于 AI 大模型竞技场开发更多玩法。

具体技术上，《逆水寒》表示这个 AI 大模型竞技场是基于网易伏羲 AOP 框架构建的，即面向智能体编程（Agent Oriented Programming）。该框架可将大模型建模为统一的智能体，从而极大简化了 AI 接入到《逆水寒》游戏的流程。

另外，我们还向网易伏羲提出了一个数据上疑问：假如玩家胡乱提问，或者随意投票和点评，该怎么办？网易伏羲当然早就考虑到了这一点并已部署一些应对措施。他们表示，为了验证数据的有效性，网易伏羲进行了大规模的数据分析和实验，综合性地评估了玩家多样性的选择对数据有效性的影响；基于这些实验结果，他们部署了可以滤除无效信息的过滤机制，从而可以保证最终结果的客观和有效。

可以说在如此受欢迎的游戏中开设 AI 大模型竞技场是一项极具开创性的举措。这不仅能展现 AI 技术在实时互动和复杂决策中的潜力，还能推进「AI+娱乐」的边界，为行业探索新的商业模式和创新方向提供灵感。《逆水寒》的这一创举正好在游戏与科技的交汇点上，可为双方都开辟出更多可能性。

在逆水寒的江湖中

AI 已无处不在

AI 娘，或温柔婉约，或直爽洒脱，各擅奇艺，尽展风华。除了她们，你还能在街头巷尾偶遇其他网易自家大模型驱动的 AI NPC。

在汴京的虹桥附近，就有不少 AI NPC 聚集在这里等着玩家们与他们互动。不仅如此，他们之间还能彼此互动。有一次，当我路过此处时，正巧遇见了 AI NPC 孙小溪与僧人弥乐发生了争执。

，时长01:01

此外，这些 AI NPC 也能流畅地回答玩家的离题话题 ------ 你甚至能与他们讨论宇宙飞船和人工智能。《逆水寒》为这些角色配置的音色也非常合适，如果以后能配置上实时语音能力，或许还能更加好玩。

据逆水寒介绍，这些 AI NPC 都有自己独特的性格、喜好、目的，会遵循人情世故、大宋律法、江湖法礼、是非善恶等观念和规则。

他们会自主游历江湖，主动结交好友，不断产生新的记忆，反过来迭代进化自己的各种观念...... 比如之前我在虹桥附近向孙皓等 NPC 散播了杭州城郊外有一艘宇宙飞船的（假）消息，后来我遇到「风流先生」时，他竟然主动说起了宇宙飞船，还添油加醋地说那里有陨石。

伴随着 AI NPC 逐渐成长为一个个有着自己思想和情感的「数字生命」，逆水寒的世界也将形成动态发展、自我更新的江湖社会网络。

更令人激动的是，每个人都能为这个社会添砖加瓦。在《逆水寒》，你可以自己捏智能 NPC，并为自己的「自捏江湖友人」量身打造独一无二的外貌与声音。还能根据《逆水寒》独一档的 AI 功能，赋予其智商、情商、性格等「灵魂特征」，令其成为一个「完整的人」，与你一起行走江湖。

除了 AI NPC，在网易伏羲 AI 技术加持下，《逆水寒》中还整合了其它许多 AI 能力，包括 AI 副本队友、AI 捏脸染色、AI 自定义语音、AI 大宋头条、AI 作诗作画、AI 离线玩家、AI 剧组模式、AI 翻拍等等。

，时长00:23

新上线的剧组模式 - 智能翻拍

大宋头条

在《逆水寒》江湖中闯荡一番后，我们的整体感受就是 AI 已经无处不在，并已经深刻嵌入到这个江湖世界的底层叙事和玩法之中。纵观当今的游戏行业，《逆水寒》在「AI+游戏」之路上是走得最激进的游戏，甚至可能没有之一。网易 CEO 丁磊曾表示：「要牢牢抓住 AI 这个百年不遇机遇。」从《逆水寒》以及其它网易系游戏的 AI 浓度来看，网易确实非常努力想要做到这一点并且已经取得了不错的成绩。

前段时间，AI+游戏赛道爆出了几个大新闻：无需游戏引擎，视频模型直出实时交互可玩的游戏 Oasis；谷歌推出了会「自己生长」的《模拟人生》式游戏 Unbounded。然而，与这些仍在实验阶段的项目不同，《逆水寒》选择了一条更贴近玩家的渐进式路径，将 AI 技术无缝融入 MMO 生态，从玩法到体验，全面革新了传统 MMORPG 的可能性。

AI+游戏的前景甚至让伊隆・马斯克也按捺不住了，表示下一步计划是：「创立 AI 游戏工作室，让游戏再次伟大」。但他可能不知道《逆水寒》早已引领在前。据说马斯克发布下面这条推文后，有很多玩家后台私信《逆水寒》：「这下逆子真的遥遥领先了！建国同志没通知马厂长 AI 游戏已经做出来了，而且已经让 MMO 再次伟大了，马厂长进度落后起码快 2 年了。」

引领时代

逆水寒将继续书写 AI+游戏新传奇

《逆水寒》通过 AI 技术的深入应用，正在重新定义游戏世界的边界。从九位 AI 娘的活灵活现，到竞技场玩法的趣味横生，再到无处不在的智能互动，这片江湖早已不只是人的江湖，也是 AI 的江湖。

AI 与游戏的结合不仅仅是娱乐体验的提升，更是一次产业模式的深刻变革。通过 AI 技术，游戏能够更加贴近玩家需求，提供个性化、沉浸式的体验。这种技术与内容的双向驱动，让游戏不再是单纯的娱乐工具，而是一种动态发展的艺术形式。

据我们了解，《逆水寒》游戏中的各式 AI 能力主要由网易伏羲提供支持，并且这些能力也并不局限于这一款游戏。《永劫无间》、《倩女幽魂》、《全明星街球派对》等多款网易系游戏都已上线自己各具特色的 AI 玩法，包括 AI 队友、AI 萌娃、AI 对抗竞赛等。在前些天的 CES 2025 上，英伟达还宣布，将与网易雷火和伏羲实验室合作使用 NVIDIA ACE 技术在《永劫无间手游》PC 版中部署基于本地推理的 AI 队友，其不仅支持实时语音沟通，还能实时观察战场局势并与玩家一起制定战术！

对于 AI 行业来说，游戏基本上已经成为研发和测试 AI 的最主流平台之一。从围棋等棋盘游戏到《毁灭战士》、《星际争霸 II》等视频游戏，在游戏环境中诞生和优化的新技术数不胜数。比如，AlphaGo 不仅改变了围棋的竞技格局，还推动了深度强化学习的发展。又如，OpenAI Five 在《Dota 2》中的出色表现，展现了多智能体合作和长时间决策的能力，又启发了自动化决策和机器人技术的进步。《我的世界》更是早已成为低成本测验各种 AI 技术的平台。前段时间，斯坦福还搭建了一个智能体小镇 Smallville 来研究多智能体交互与人类行为模拟。

AI 行业之外，诺奖级 AlphaFold 是一大经典案例。另一个例子是游戏引擎 Unity 在自动驾驶和机器人开发中的应用。Unity 提供的 AI 训练环境可让开发者模拟不同的物理环境，以便训练和测试智能体，极大助力了机器人导航和决策技术的发展。此外，基于 OpenAI GPT-3 开发的互动式文字冒险游戏《AI Dungeon》也在教育中得到了应用，可帮助学生通过互动式故事提高语言表达能力和创造力，甚至被用作语言学习工具。这样的例子不胜枚举。从数据处理到人机交互，游戏 AI 的技术实践正影响更广泛的社会领域。

未来，当 AI 技术更加成熟，游戏世界可能会成为人类与智能共创的最佳平台。无论是生成独特的故事线，还是构建自适应的虚拟生态，玩家与 AI 的协作将为我们打开通往未知可能性的大门。

江湖未远，未来已来。《逆水寒》的探索也只是起点，属于「AI+游戏」的精彩篇章还在书写之中。

#Multi-matrix Factorization Attention

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

虽然业界已有 MQA、GQA、MLA 等多种注意力机制变体试图解决这一问题，但这些方案要么难以在严格的显存限制下保持理想性能，要么在模型结构上引入额外复杂度，带来巨大的工程挑战和生态兼容性问题。

在近期由阶跃星辰、清华大学等机构完成的论文《Multi-matrix Factorization Attention》中，研究人员提出新型注意力机制架构 ------ 多矩阵分解注意力（MFA）及其变体 MFA-Key-Reuse，在大幅降低语言模型推理成本的同时，还实现了性能的显著提升。

链接：https://arxiv.org/abs/2412.19255

实验中，MFA 和 MFA-KR 不仅超越了 MLA 的性能，还在减少了高达 93.7% 的 KV Cache 使用量的情况下，与传统的 MHA 性能相当。于此同时，MFA 实现简单，容易复现，对超参敏感度低，且兼容各种 Pos-embedding。

MFA 方法与分析

研究团队通过研究 Attention 机制的一般性设计和容量分析，明确了 Attention 机制的容量最相关的两个维度，并且提出了一系列的分析方法和设计原则。

为了更好地理解注意力机制的本质，研究团队提出了广义多头注意力（GMHA）的概念框架，为理解不同的 MHA 变种注意力机制提供了一个统一的视角。进一步地，研究团队分别从推理角度研究键值的计算和存储方式，从分解角度探讨模型的容量特征。这种创新的分析方法为理解不同策略如何在模型性能和计算效率之间取得平衡提供了全新视角。

在此基础上，研究者们确立了完全参数化双线性注意力（FPBA）作为理论上的性能上限标准。他们发现，目前广泛使用的 MHA 及其各种变体实际上都可以被视为 FPBA 的低秩分解版本。研究团队在分析现有解决方案时，重点考察了两个代表性的改进方案：多查询注意力（MQA）和多头潜在注意力（MLA）。

对于 MQA，研究人员发现它采用了一种更激进的参数共享策略。不同于 MHA 在头部之间保持独立的参数，MQA 让所有注意力头共享同一组键值参数。这种设计虽然将内存使用降到了极低的水平，但可能会影响模型的表达能力。研究团队指出，这种权衡实际上反映了一个更普遍的设计困境：如何在保持模型性能的同时减少资源消耗。

而对于更新的 MLA 方案，研究人员发现它采用了更为复杂的架构设计。MLA 引入了一个共享的潜在空间，通过在这个空间中进行参数压缩来节省内存。虽然这种设计看似提供了更大的灵活性（因为中间维度可以设置得更大），但研究团队的理论分析揭示了一个关键问题：模型的实际表达能力仍然受限于最小维度的约束，这意味着 MLA 的设计中增加中间维度并不能真正提升模型的性能上限。

在深入分析现有方案的基础上，研究团队提出了一个雄心勃勃的目标：开发一种新的注意力机制，既能最大限度地节省资源，又能尽可能接近理论性能上限。这个目标促使他们开发出了多矩阵分解注意力（MFA）。

MFA 的设计体现了研究团队的三个关键创新：

首先，他们突破传统设计的局限，显著增加了注意力头的数量和维度，极大增加了注意力模块的模型容量。
其次，研究团队在矩阵分解方面实现了创新性突破，采用激进的低秩分解策略，成功地在扩展模型注意力头的数量和维度时保持了极高的参数效率。
最后，研究团队采用单键值头设计，这个设计确保了即使在增加模型复杂度的情况下，内存使用仍然保持在最低水平。

为了进一步分析 MFA 和其他注意力机制的不同，研究团队提供了一个清晰的对比表格。研究人员首先引入两个关键指标来度量 GMHA 系列模型的容量：模型总有效秩 TER （ Total Effective Rank ）和共享隐空间维度 SLSD（Shared latent subspace dim）。总有效秩 TER 定义为注意力头数量与每个头部分解秩（Factorization rank per head，简称 FRH）的乘积，而共享隐空间维度 SLSD 则代表了所有注意力头共同使用的隐空间维度，注意到 TER 和 SLSD 越大，模型具有更高的容量。同时注意到每个头的分解秩（FRH）不超过 SLSD，而 KV Cache 的占用受制于 FRH 和 SLSD 之间的较大值，这构成了容量和效率之间的关键权衡。

通过这个框架进行分析，可以发现与 MQA 相比，MFA 同时实现了更高的 SLSD 和更高的 TER；与 MLA 相比，在相似的参数预算下，MFA 不仅达到了更小的 KV cache 尺寸，还实现了更高的 TER，同时保持了相当的 SLSD；与传统的 MHA 相比，虽然 MFA 的 SLSD 较小，但它的 TER 更高，这解释了为什么在实验中 MFA 能够获得更好的性能。

实验结果

为了研究新架构在可能的更大规模上的表现，研究团队开展了一系列深入的扩展性实验，系统地测试了从 1B 到 7B 参数的不同规模的模型，训练数据量从 10B 扩展到 1T。在性能扩展方面，研究团队的 MFA 方案展现出与传统 MHA 完全相当的扩展能力。这意味着，即使在更大规模下，MFA 依然能保持其优异的性能。而 MFA-KR 虽然在性能上略有降低，但其扩展趋势与 MHA 保持一致。而随着模型规模的增加，MFA 和 MFA-KR 在内存节省方面的优势不仅得到保持，还呈现出进一步扩大的趋势。在最大规模模型上，MFA 实现了 87.5% 的内存节省，而 MFA-KR 更是将内存使用降低到原来的 6.25%。

研究人员还进行了一系列的消融实验，证明 MFA 和 MFA-KR 的设计的有效性，并在其他的主流的位置编码上也验证了 MFA 和 MFA-KR 的性能优势。

展望

MFA 用最简洁的设计带来了最显著的提升，在不增加额外工程复杂度的前提下，优雅地解决了 LLM 的高效推理显存瓶颈问题，并能无缝集成到现有的 Transformer 生态中。这种简单而强大的创新，必将加速大语言模型在更多场景中的落地应用。

#2025 AAAI Fellow公布

港科大（广州）熊辉、华盛顿大学陈一昕等四位华人入选

含金量极高。

AAAI（Association for the Advancement of Artificial Intelligence）是国际人工智能领域最权威的学术组织之一，Fellow 是该学会给予会员的最高荣誉，仅颁给对人工智能做出「非同寻常的卓越贡献者」，而且评价时间以十年计。

由于其评判极其严格，历届 AAAI Fellow 入选会士均为人工智能领域公认的著名学者，每年严格限制入选人数，因此被誉为国际人工智能领域的名人堂。

今天，AAAI 公布了 2025 年度的 Fellow 评选结果，共有 16 位 AI 学者入选，其中有 4 位华人学者。

陈一昕

机构：华盛顿大学
入选理由：因在机器学习领域做出重要贡献，开创了广泛使用的图神经网络架构和轻量级深度神经网络算法。

陈一昕（Yixin Chen）是圣路易斯华盛顿大学计算机科学与工程系的教授。自 2005 年加入该校以来，他一直致力于数据挖掘、机器学习、人工智能和优化领域的研究，曾在 AAAI (2010)、AMIA (2015) 和 IDEAL (2016) 等顶级会议上斩获最佳论文奖。他是《可解释人工智能导论》一书的作者之一。2022 年，陈一昕凭借其研究成果和学术影响力，荣获 IEEE Fellow 的称号。

付昀

机构：美国东北大学
入选理由：在计算机视觉、增强人机交互方面的变革性技术创新，以及在 AI 技术商业化而做出了重大贡献。

付昀（Yun Raymond Fu）既是人工智能专家，又是成功的连续创业者。目前，他是东北大学的杰出教授。他在计算机视觉、增强现实、人机交互等前沿领域做出了开创性贡献，发表了 500 多篇科研论文，拥有 40 多项专利。

他曾四度创业，将先进的 AI 技术应用于化妆品电商、电视广告分析等行业。他领导的初创公司 Giaran 被日本化妆品巨头资生堂收购，获得 5800 万美元风投。他还获得了众多重要奖项，如 IEEE、ACM、IAPR 等会议的 12 项最佳论文奖，以及谷歌、亚马逊、三星、Adobe 等知名企业评选的行业大奖。此外，他已入选 IEEE、AAAI、OSA 等学会的 Fellow。

熊辉

机构：香港科技大学（广州）
入选理由：对人工智能和移动计算领域做出了重大贡献，并开发了广泛使用的 Informer 算法。

熊辉（Hui Xiong）现为香港科技大学（广州）协理副校长，人工智能学域讲座教授（Chair Professor）。熊辉教授长期从事数据挖掘与人工智能方面的科研工作，在 Nature Communications、TKDE、TOIS、KDD、VLDB、AAAI、IJCAI、NeurIPS 等国际顶级期刊和会议上发表论文 400 余篇。

熊辉教授曾任美国罗格斯 - 新泽西州立大学杰出终身教授及百度研究院副院长。他获得的荣誉包括 AAAS Fellow、IEEE Fellow、ACM 杰出科学家、中国人工智能学会会士、2017 IEEE ICDM Outstanding Service Award、ICDM-2011 最佳研究论文奖、AAAI 2021 最佳论文奖等等。

杨明玄

机构：加州大学默塞德分校、 Google DeepMind
入选理由：为视觉跟踪、低级视觉和视觉学习方面做出了重大贡献，提供了广泛使用的基准数据集和开源代码。

杨明玄（Ming-Hsuan Yang）是加州大学电气工程与计算机科学教授，2000 年获得了伊利诺伊大学厄巴纳 --- 香槟分校的计算机科学博士学位。他的主要研究兴趣包括计算机视觉、模式识别、人工智能、机器人和机器学习，他在目标跟踪算法评测方面做出了重要贡献，提出了广泛认可的基准数据集。

他曾担任 ACCV 2014 程序共同主席、ACCV 2016 大会共同主席和 ICCV 2019 程序共同主席，此外还担任 ICCV、CVPR、ECCV、NeurIPS、ICLR、AAAI、 IJCAI、WACV、FG 等学术会议的领域主席。

以下是其他 12 位入选今年 AAAI Fellow 的简要介绍：

Maria-Florina (Nina) Balcan
机构：卡内基梅隆大学
入选理由：对机器学习的基础及其在多智能体系统和现代算法设计中的应用做出了重大贡献。
Mohit Bansal
机构：北卡罗来纳大学教堂山分校
入选理由：对多模态 AI 基础以及忠实的语言生成和总结做出了重大贡献。
J. Christopher Beck
机构：多伦多大学
入选理由：对规划和调度、约束规划以及运筹学和人工智能在组合优化中的整合做出了重大贡献。
Emma Brunskill
机构：斯坦福大学
入选理由：对强化学习领域以及社会福利应用，尤其是教育 AI 做出了重大贡献。
Ernest Davis
机构：纽约大学
入选理由：对自动常识推理，特别是空间和物理推理做出了重大贡献，并撰写了向普通观众解释 AI 的著作。
Emilio Ferrara
机构：南加州大学
入选理由：对计算社会科学和在线信息传播与操纵研究做出了开创性贡献。
Gal Kaminka
机构：巴伊兰大学
入选理由：在规划和目标识别、协作多机器人系统以及展示社交智能的多智能体系统方面做出了重大贡献。
Kate Larson
机构：滑铁卢大学
入选理由：在多智能体系统基础以及为更广泛的 AI 社区提供服务方面做出了重大贡献。
Karen Myers
机构：SRI International
入选理由：在 AI 规划领域做出了重大贡献，包括以人为本的规划技术的开发和应用。
Sriraam Natarajan
机构：德克萨斯大学达拉斯分校
入选理由：在统计关系 AI、医疗保健适应以及为 AAAI 社区提供服务方面做出了重大贡献。
Roberto Navigli
机构：罗马大学
入选理由：在多语言自然语言理解以及开发广泛认可的知识资源构建、文本消歧和语义解析方法方面做出了重大贡献。
Balaraman Ravindran
机构：印度理工学院马德拉斯分校
入选理由：在强化学习基础和应用方面做出了重大贡献。

参考内容：

https://aaai.org/about-aaai/aaai-awards/the-aaai-fellows-program/elected-aaai-fellows/

#OpenAI可能已经突破

游戏结束了？跨过起飞的最后临界阈值

OpenAI 的研究达到了可以自我递归改进的程度？

刚刚，X 上的一则帖子爆火，浏览量达到 30 多万。

该推文涉及引领 AI 潮流的 OpenAI。内容显示「OpenAI 递归式自我改进目前在一个盒子里，准确的说是在一个无法破解的盒子！」

我们不难看出，帖子内容突出了 OpenAI 的发展态势，AI可以自我改进，并且很难有人短期内破解。还有一则帖子表示：

「OpenAI 可能已经获得了突破，并最终跨越了临界点，达到一个起飞状态 ------ 即智能达到了可以自我递归改进的程度，o4 或 o5 将能够自动化 AI 研发并完成其余工作。

像 o1 这样的模型的大部分意义不在于部署它，而在于为下一个模型生成训练数据。o1 解决的每一个问题现在都是 o3 的训练数据点。

实际上我们有点惊讶于 OpenAI 竟然费心的部署了 o1-pro，而不是将其保持私密并投资计算资源进行更多的 o3 训练等。这显然与 Anthropic 和 Claude-3.6-opus 的开发不同，这个模型没有研发失败，只是 Anthropic 选择将其保持私密，并将其蒸馏成一个小而便宜但很智能的 Claude-3.6-sonnet。

如果你想知道为什么 OpenAI 的人突然在 X 上变得几乎是狂喜地乐观，认真观察从原始 4o 模型到 o3 的改进可能就是原因。

这就像观看 AlphaGo 的 Elo 曲线：它只是不断 up......up......up......

这给我们一种感觉，他们已经获得突破，终于跨越了临界点，即从仅仅是尖端 AI 工作（其他机构将在几年内才能复制），到起飞（破解智能），以至于 o4 或 o5 将能够自动化 AI 研发并完成其余工作。」

在这条推文下，大家的讨论格外热烈。

有人表示「如果这是真的，如果模型不需要人类进行训练，那么《黑客帝国》的结果就不再有效了。」

「我一直是这么想的，OpenAI 没有向公众发布他们最新的优秀模型，他们总是在内部领先 1 或 2 代，因为这为他们提供了开发优势。」

「也许最可怕的不是上述观点是否正确，而是我们无法判断他是否错误。」

就连 OpenAI 研究员 Jason Wei 也跑到评论区发言：魔法，就是当一个不可阻挡的强化学习（RL）优化算法，在充足的计算资源驱动下，遇到一个无法被攻破的强化学习环境时，奇迹就发生了。

Andrej Karpathy 也发表了自己的观点：魔法就是当优化技巧破解了那个环境时，就会出现。

对于上述观点，你怎么看，欢迎评论区留言。

参考链接：

https://x.com/AISafetyMemes/status/1879624959934497078

https://x.com/AISafetyMemes/status/1879938756334977117

#Uni-AdaFocus

视频理解框架，让AI学会「划重点」，计算效率提升4-23倍！

本文介绍刚刚被 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用的一篇文章：Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition，会议版本 AdaFocus V1/V2/V3 分别发表于 ICCV-2021 (oral)、CVPR-2022、ECCV-2022。

论文链接：https://arxiv.org/abs/2412.11228
项目链接：https://github.com/LeapLabTHU/Uni-AdaFocus

Uni-AdaFocus 是一个通用的高效视频理解框架，实现了降低时间、空间、样本三维度冗余性的统一建模。代码和预训练模型已开源，还有在自定义数据集上使用的完善教程，请访问项目链接。

Uni-AdaFocus 的关键思想与设计思路在于，它建立了一个统一的框架，实现了降低时间、空间、样本冗余性的统一建模，并且使用一些数学方法处理了时空动态计算不可微分的问题，可以方便地进行高效端到端训练，无需强化学习等更为复杂的方法。

具体而言：

降低时间冗余性：动态定位和聚焦于任务相关的关键视频帧；
降低空间冗余性：动态定位和聚焦于视频帧中的任务相关空间区域；
降低样本冗余性：将计算资源集中于更加困难的样本，在不同样本间差异化分配；

在长视频理解上，Uni-AdaFocus 比现有最好的同类 baseline 加速了 5 倍。它可以兼容于现有的高效 backbone，利用动态计算的思想进一步提升其效率，例如将 TSM 和 X3D 各自加速了 4 倍左右。在上述加速情形中，Uni-AdaFocus 基本上都在加速的同时实现了比较显著的准确性提升。

在 7 个学术数据集（ActivityNet, FCVID, Mini-Kinetics, Sth-Sth V1&V2, Jester, Kinetics-400）和 3 个应用场景（使用脑 MRI 诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测）上进行了验证，Uni-AdaFocus 发挥稳定，特定典型情况下可实现多达 23 倍的（性能无损）推理加速或高达 7.7% 的准确性提升。

在 CPU/GPU 实测速度、吞吐量上，Uni-AdaFocus 与理论结果高度一致。

接下来，我们一起来看看该研究的细节。

研究背景和动机

相较于图像，视频理解是一个分布范围更广、应用场景更多的任务。例如，每分钟，即有超过 300 小时的视频上传至 YouTube，超过 82% 的消费互联网流量由在线视频组成。

自动识别这些海量视频中的人类行为、交互、事件、紧急情况等内容，对于视频推荐、视频监控、智能编辑与创作、教育与培训、健康医疗等受众广泛的应用具有重要意义。

同时，面向视频数据的视觉理解技术在具身智能、自动驾驶、机器人等物理世界的实际场景中也有广泛的应用空间。

近年来，已有很多基于深度神经网络的视频理解算法取得了较佳的性能，如 TSM、SlowFast、I3D、X3D、ViViT 等。然而，一个严重的问题是，相较于图像，使用深度神经网络处理视频通常会引入急剧增长的计算开销。如下图所示，将 ResNet-50 应用于视频理解将使运算量（FLOPs）扩大 8-75 倍。

因此，一个关键问题在于，如何降低视频理解模型的计算开销。一个非常自然的想法是从视频的时间维度入手：一方面，相邻的视频帧之间往往具有较大的相似性，逐帧处理将引入冗余计算。另一方面，并非全部视频帧的内容都与理解任务相关。现有工作大多从这一时间冗余性出发，动态寻找视频中的若干关键帧进行重点处理，以降低计算成本，如下图第二行 (b) 所示。

然而，值得注意的一点是，该团队发现，目前尚未有工作关注于视频中的空间冗余性。具体而言，在每一帧视频中，事实上只有一部分空间区域与任务相关，如图中的运动员、起跳动作、水花等。

受此启发，该团队提出了 AdaFocus 方法来动态定位每帧中的任务相关区域，并将最多的计算资源分配到这些区域以实现高效处理，如上图第三行 (c) 所示。

以 AdaFocus 为基础，该团队进一步实现了时间、空间、样本三个维度的统一动态计算，提出了一个通用于大多数骨干网络（backbone）的 Uni-AdaFocus 框架。

Uni-AdaFocus 能够自适应地关注于视频中任务相关的关键帧、关键帧中任务相关的重要区域、以及将计算资源更多地分配给更为困难的样本，如上图第四行 (d) 所示。

模型简介

如上图所示，Uni-AdaFocus 首先使用全局编码器 f_G（轻量化的特征提取网络，例如 MobileNet-V2 等）用低成本对均匀采样的视频帧进行粗略处理，获得视频整体的时空分布信息，即全局特征。

一个策略网络 π 基于 f_G 提取的全局特征自适应地采样关键帧以及其中的关键区域，得到值得关注的 patches，patch 的形状和大小根据视频帧的具体特性自适应地决定。局部编码器 f_L（参数量大的大容量神经网络，准确率高但计算开销较大）仅处理策略网络 π 选择出的 patches，即局部特征。

最后分类器 f_C 逐帧聚合全局特征和局部特征以得到最优的视频理解结果，同时通过早退机制实现对样本维度计算冗余性的建模。

关于 Uni-AdaFocus 模型设计和训练方法的更多细节，由于比较繁杂，可以移步参阅论文。

实验结果

使用 MobileNet-V2 和 ResNet-50 为 backbone， Uni-AdaFocus 在 ActivityNet，FCVID 和 Mini-Kinetics 上的实验结果，以及与现有最佳同类方法的比较。

蓝色文字表示基于 baseline 模型的提升幅度

使用 MobileNet-V2-TSM 和 ResNet-50-TSM 为 backbone，Uni-AdaFocus 在 Something-Something-V1 / V2 和 Jester 上的实验结果。

使用 X3D-S 和 X3D-L 为 backbone，Uni-AdaFocus 在 Kinetics-400 上的实验结果。

Uni-AdaFocus 在 3 个应用场景（使用脑 MRI 诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测）上的实验结果。

Uni-AdaFocus 的可视化结果。所示的视频帧为 Uni-AdaFocus 所选取的任务相关帧，浅蓝色方块表示 Uni-AdaFocus 在每一帧选择的 patch。可以看到 Uni-AdaFocus 成功定位到任务相关视频帧中的任务相关区域，例如长笛、小狗、圣诞树、马术运动员等，并能自适应地调整 patch 的大小和形状、以及任务相关视频帧的数目。