AI领域的三箭齐发之夜 - genie3,gpt-oss, Opus 4.1

昨夜可以算得上AI领域的"诸神之战",就在一天之内,Google DeepMind 发布了面向交互的世界模型 Genie 3,Anthropic 推出编码与推理性能升级的 Claude Opus 4.1,而 OpenAI 终于再一次"Open",开放了 gpt‑oss‑120b 和 gpt‑oss‑20b 的权重。三个模型集中在一天发布,不知道google和anthropic是不是为了狙击OpenAI,但御三家同一天发布新模型,确实难得,值得记录一下。

Genie 3:世界模型进入实时交互时代

DeepMind 团队过去两年持续探索"世界模型"(World Model)方向。Genie 1/2 能根据图像或文本生成短视频,为智能体提供"视觉想象",但缺乏实时交互和长期一致性。2025 年 8 月发布的 Genie 3 解决了这两大难题,将世界模型往前推了"一小步"。

实时交互与高分辨率

官方博客指出,Genie 3 可以根据文本提示生成可交互的虚拟世界,支持玩家或智能体以每秒 24 帧、720p 分辨率的速度自由走动或跳跃。这种实时性意味着生成过程不再是离线的序列化动画,而是可以同步接收控制信号并渲染输出,交互体验与游戏引擎类似。

长期一致性与记忆

传统视频生成模型很难保证长时间的一致性,越往后生成的帧越容易漂移。DeepMind 研究人员强调,Genie 3 的环境能够在几分钟内保持高度一致,视觉记忆最长可以追溯到几分钟前。换句话说,当玩家绕回到之前看过的位置时,物体不会无故消失或错位。

实时推理的潜在空间模型

与一些世界模型将物理引擎和渲染管线外置不同,Genie 3 采用单一的生成网络,同时接收"移动视角"或"移动主体"等控制信号,并在潜空间中进行时序推断和图像生成。控制信号和环境上下文融合在同一模型中,因此能够在保持物理一致性的前提下生成画面,这比将独立的物理引擎塞进生成模型更高效,也更易于大模型化。

可提示的世界事件

Genie 3 在交互方式上不仅支持导航控制,还引入了自然语言触发的事件。如在生成的场景中输入"下雨"或"出现一辆车",模型将即时修改环境。这一功能官方称之为 promptable world events,它允许用户改变天气、添加对象或角色,从而增强交互的表达力和可玩性。

安全开发与有限测试

DeepMind 在博客中明确把 Genie 3 定义为一次 limited research preview。研发团队与负责安全的RDI 团队合作,先评估潜在风险,再逐步开放权限。目前仅向少量学术机构和创作者开放,以便在更广泛部署前解决安全与伦理问题。

核心技术点

Genie 3 的技术架构在论文中尚未完全公开,但从官方描述和现有模型演化趋势,可以推测其核心创新主要包括:

时序扩散或变分自回归模型 :既要保证实时性,又要维持长时间一致性,常见的逐帧自回归生成容易累积噪声,逐段式扩散或潜空间注意力机制可以缓解此问题。DeepMind 强调模型在潜空间进行物理推理,可能结合了扩散模型的重采样与 Transformer 的长序列记忆,可能还是基于Genie系列的基础架构。

内嵌控制信号:模型输入不仅包含文本提示,还接收动作向量(如移动方向和速度),与环境特征融合后再进行生成。这类似于将强化学习中的策略函数内化到生成模型,使之具备条件动作的预测能力。

事件注入机制:本质上是将高层次指令映射为潜空间操作。这不同于简单的风格化 prompt,而是能实质性改变场景元素。模型需要在不破坏长期一致性的前提下插入事件,体现了对"物理连续性"约束的理解。

局限与挑战

尽管 Genie 3 在世界模型领域是里程碑,但官方博客也列出了现阶段还存在的几个限制:

动作空间有限:目前模型的控制维度主要是移动视角或移动主体,复杂操作无法实现;promptable world events 虽能改变环境,却不一定由玩家自身执行。

多智能体交互不够准确:当多个独立代理在同一环境中时,模型难以模拟复杂互动。

地理还原度有限:模型无法精确复刻真实地理场景,生成的世界更多是基于统计纹理与直觉物理,而非精确地图。

文本渲染依赖输入:场景中出现的文字只有在 prompt 中明确指定时才清晰可读。

持续交互时长有限:目前连续交互时间只有几分钟,远低于真实游戏或仿真需求。

这些限制说明 Genie 3 仍处于早期样机阶段,要支撑具身智能训练或真实世界仿真,还需要扩大动作维度、提高真实感、延长记忆和交互时间。此外,开放此类模型也涉及安全问题,例如如何防止生成危险内容、如何限制其训练对象等。

世界模型的未来趋势

从更大的视角看,Genie 3 的意义在于将世界模型从"观看视频"推进到"进入世界"。与 2020 年 GPT‑3 将大规模语言模型从文本完成扩展至通用自然语言接口类似,Genie 3 的发布预示着一种新的交互范式:

    1. 端到端具身仿真:无需独立物理引擎就能在生成网络内完成物理推理和渲染,为具身智能提供虚拟训练场景。
    1. 动作与事件统一建模:在潜空间同时表示环境状态与代理动作,为多任务学习、强化学习提供统一世界模型。
    1. 跨领域数据融合:未来或可利用现实视频数据和模拟数据训练统一模型,使其更好地理解现实物理。
    1. 开放研究生态:DeepMind 强调将逐步扩大测试人群并收集反馈。例如未来一两年内发布公共研究环境(如 OpenAI Gym 的升级版),可能重塑强化的sim2real技术栈。

genie 3的发布给世界模型注入了一剂强心针,lecun老师的JEPA系列希望也能有更多进展,多条路一起走,看看哪条能走通,目前看DeepMind是超前迈了一步。

GPT‑OSS‑120b/20b:OpenAI 时隔多年重启开源

OpenAI 自 2020 年公开 GPT‑3 之后,核心模型一直通过 API 提供,就没有开源过任何模型。记得记录的一个日子,2025 年 8 月 5 日,OpenAI 终于发布了 gpt‑oss 系列,包含 120b 和 20b 两个版本,这是自 GPT‑2 以来首次提供开源权重,算得上OpenAI的Open again。

模型规模与架构

开源权重与 Apache 2.0 许可:gpt‑oss 模型以 Apache 2.0 许可发布,允许自由使用、修改和商业分发,开发者可以在本地运行、二次微调。

两种尺寸,混合专家(MoE)架构:gpt‑oss 有 120B 和 20 B 参数两个版本,实际分别参数为116.8B、20.9B。使用混合专家架构,实际每个 token 只激活部分专家:120b 模型(36层)每次激活约 5.1 B 个参数,20b 模型(24层)激活 3.6 B参数。

128K 上下文与 RoPE 位置编码:模型使用YaRN旋转位置编码(在 RoPE 基础上进行频率分段插值 + 注意力缩放),支持 最长 128 K tokens 的上下文窗口,结合GQA(Grouped Query Atteion)和attention sink,配合交替滑窗,实现了长上下文窗口的注意力机制性能优化。

链式思考与推理等级:模型支持可调整的"Reasoning: low/medium/high"策略,用户可在系统 prompt 中指定推理深度(与ChatGPT选择模型high、low级别逻辑一样)。

性能与硬件要求

接近闭源专有模型:gpt‑oss‑120b 在核心推理基准上与 o4‑mini 相近,gpt‑oss‑20b 与 o3‑mini 性能相当。120b 在 Codeforces 编程竞赛、MMLU、AIME 等任务上与 o4‑mini 持平或超越,20b 在数学和健康问答上优于 o3‑mini。

硬件友好:120b 模型可在单张 80 GB H100 显卡上运行,20b 模型仅需 16 GB VRAM。但需要注意,模型量化使用MXFP4格式,cuda平台只有H系列和50系列显卡才能支持。

开源生态支持:模型可通过 Ollama、LM Studio 等平台部署(推荐无H,50卡同学采用此种方式),支持Triton、vLLM 等推理框架。

安全措施与社区挑战

安全多方位考量:OpenAI 对训练数据进行了化学、生物等敏感信息过滤,同时为了充分评估开源模型被恶意用于生化武器制造的风险,通过"恶意微调"(Malicious Fine-tuning, MFT)试验模来模拟模型最大化微调后的危险领域能力,结果表明这些恶意微调模型仍未达到OpenAI用于模型风险评估的Preparedness Framework中的高风险水平。这个方法同时得到了三个独立专家团队的审查,OpenAI采纳了专家团队提出了改进训练流程和评估机制的建议进行了训练流程优化。

OpenAI综合多项评估标准和试验结果才选择了开源。另外OpenAI提供 50 万美元的红队挑战,鼓励全球的研究人员、开发者和技术爱好者帮助识别新的安全问题。从这些措施上看,OpenAI在模型安全问题上的重视程度确实投入不少。

开源策略变化:OpenAI 此次开放可能部分源于开源模型的快速发展,特别是中国大模型公司站稳了开源LLM的第一梯队,DeepSeek R1-0528,Qwen3系列模型,Kimi-K2,GLM-4.5陆续实现开源模型的Sota,直追闭源模型能力,这迫使OpenAI重新考虑开源策略。选择开源gpt-oss既是向社区展示实力,也希望借助外部力量改进安全性与技术创新。

模型的内生Agentic能力

后训练强化推理与代理能力:gpt-oss采用了与OpenAI o3类似的链式思考强化学习(CoT RL)技术进行后训练,这一过程不仅教会模型如何推理和解决问题,更重要的是赋予了模型强大的推理能力(math、coding)和工具使用能力,目前社区的开源推理模型也是走的这条RL后训练增强工具能力的技术路线,而OpenAI在这个技术栈上积累的经验应该算是无出其右,后续闭源模型持续优化的后训练相关经验仍然可以迁移到开源模型上。

Harmony:gpt-oss采用定制的harmony聊天格式,通过特殊标记来划分消息边界,使用关键词参数(如User、Assistant)指示消息的发送者和接收者。该格式建立了基于角色的信息层级来解决指令冲突:System > Developer > User > Assistant > Tool。

更重要的是,该格式引入了"通道"概念来指示每条消息的预期可见性,如analysis用于CoT标记、commentary用于函数工具调用、final用于向用户展示的答案,使得模型能够在CoT中穿插调用工具,为agent长程任务的plan和act的迭代执行提供交互标准参考。

OpenAI此次开源的gpt-oss模型算是诚意十足,没有遮遮掩掩,而且性能很顶,在开源模型阵营也是第一梯队的存在,对于LLM开源社区,应用生态和agent技术栈都带来了真Open的力量。

Claude Opus 4.1:coding王者稳步迭代

Anthropic 在 2025 年 5 月推出 Claude 4 系列,分为旗舰 Opus 4 和高效 Sonnet 4。本次发布Opus 4的升级版 Opus 4.1, 在编码能力和推理稳定性上继续进一步提升。

主要特性与能力提升

编码性能跃升: Opus 4.1 在 SWE‑bench Verified 基准上达到 74.5% 的高分。SWE‑bench包含 500 个来自 GitHub 的真实 bug 修复任务,测试模型在不运行代码的情况下修改多文件项目的能力。相比 Opus 4(72.5%)有两个点提升,这个榜单现在突破70的通用推理模型只有claude(o3 69.1)。

针对大型代码库的精细修改:使用反馈上,GitHub 团队使用体验总结Opus 4.1 在多文件重构上的精度更高,能精准定位 bug 并避免不必要的改动。Rakuten Group 的团队则认为,模型在大模型代码库的bug定位中比较准确,很少引入新的错误。

深入研究与数据分析能力:官方介绍指出 Opus 4.1 提升了细节跟踪和"agentic search"能力。这意味着模型在长链搜索、复杂任务规划、跨文档分析等方面更可靠,在DeepResearch类任务中可能会有更好的表现。

在系统卡片提供的数据上看,多个安全风险评估基本延续了前代模型的表现,没有新增的严重风险或伦理问题。但在自主性评估上,Claude Opus 4.1 在评估中表现大部分优于或相近 Claude Opus 4 ,在少数案例中分数略低,整体上提升幅度不是那么明显,不过Athropic官博也提到未来几周会推出提升更大的模型,值得期待。

世界模型与大模型的交汇与分化

世界模型 or 大语言模型

世界模型与大语言模型虽在功能定位上有所不同,但是在追逐智能的路上,两者的融合似乎也是一种必然。

功能定位不同:Genie 3 是生成和模拟三维世界的模型,用于具身智能和交互式内容;Claude Opus 4.1(多模态,但本文主要讨论其文本模态的推理能力) 和 gpt‑oss 属于大语言模型,用于推理、编程和内容创作。前者侧重对物理环境的建模和视觉一致性,后者侧重逻辑推理和知识理解。

潜在融合:随着代理研究的发展,未来需要同时理解语言与环境。比如智能体需要理解规划任务(语言模型)并在虚拟世界里执行任务(世界模型)。DeepMind 已在尝试用 Genie 3 为 SIMA 之类的代理提供训练环境;anthropic的工具调用能力自不必说,OpenAI 的 gpt‑oss 也有对工具调用和代码执行提供了原生能力支持,同时LLM也是agent进行决策的核心大脑。二者结合有望推动"具身大模型"的形成。

世界模型与大模型首先都会沿着各自的技术方向发展,逐步交汇融合,在实际场景中发挥1+1大于2的价值。

世界模型进入可用阶段:Genie 3 在交互性、视觉一致性和可提示事件上取得突破,使世界模型不再只是生成"录像带"的玩具,而是真正能用来训练智能体的仿真平台。下一步需扩展动作维度、支持多代理、提高地理还原度,并大幅延长交互时长。此外,如何平衡开放与安全,是研究者必须解决的难题。

开源权重推动生态繁荣: gpt‑oss 表明即便是商业巨头也开始重新拥抱开源。MoE 架构和开放许可降低了部署门槛,将强大的推理模型带给个人和中小企业,促进社区生态的繁荣和创新。随着头部闭源厂商加入开源阵营,未来开源与闭源之间的竞争肯定会越发激烈,这也是我们希望看到的,开源的价值和意义将促进AI更大程度上的智能平权。

向具身智能迈进

世界模型和大语言模型最终将汇合于智能体。一个真正的具身智能需要理解自然语言指令,规划复杂任务,并在现实或虚拟世界中执行动作。Genie 3 提供了环境,Claude 4.1 和 gpt‑oss 提供了大脑进行规划,agent进行执行,所有的迭代流程实现环境、流程、参与者的高度自动化。如何融合两者,实现从语言到行动的闭环,也是实现AGI的毕竟之路。

结语

在短短一天里,Google DeepMind 的 Genie 3、Anthropic 的 Claude Opus 4.1 和 OpenAI 的 gpt‑oss 相继发布,掀起的浪花都不小,三家工作之中,个人认为跃进程度最大还是genie3,甚至可以称之为世界模型的GPT-3时刻。未来的 AI 将既能听懂人类语言,又能理解世界、执行动作,而且具备自主学习能力,没有世界模型这一步很难达到。我们处在一个新的拐点上,既要欣喜于技术的飞跃,也应清醒地看到随着模型能力的快速跃进,安全、伦理与监管的重要性已经迫在眉睫。