一、总目录
(一)大语言模型与推理技术进展
-
Rio-3.5-Open-397B 被证实为 Nex 与 Qwen 权重线性融合
-
Kimi K2.7 Code 高速版上线,输出效率提升至 6 倍
-
百灵发布 Ling & Ring 2.6 技术报告,聚焦 Agent 工作流优化
-
微博推出 VibeThinker-3B,小参数实现旗舰级推理性能
-
Poolside 开源 Laguna M.1,225B MoE 架构适配长程编码任务
(二)多模态与世界模型动态
-
高德发布 DreamX-World 1.0 通用世界模型,支持分钟级视频生成
-
SpaceXAI 推出 Grok Imagine Video 1.5,全端开放视频生成能力
-
Boogu 团队开源 Boogu-Image-0.1,小数据量实现顶级图像生成效果
-
阿里升级 HappyOyster 1.0 实时交互模型,新增双模式玩法
-
Ai2 发布 MolmoMotion 开源 3D 运动预测模型,覆盖机器人与视频生成场景
(三)垂直领域专用模型发布
-
微软开源 FastContext-1.0,大幅降低代码 Agent Token 消耗
-
通义推出 Qwen-Robot Suite 具身智能模型系列
-
Cartesia 发布 Sonic-3.5 与 Ink-2,刷新语音类模型性能
-
火山引擎开放豆包实时语音模型 3.0 API 邀测
-
阿里联合人大开源 LOGOS 统一科学大模型
二、详细内容汇总
(一)大语言模型与推理技术进展
1. Rio-3.5-Open-397B 被证实为 Nex 与 Qwen 权重线性融合
里约热内卢市信息技术公司 IplanRIO 发布的 Rio-3.5-Open-397B 模型,被开发者曝出未经过独立训练,本质是开源模型 Nex N2 Pro 与 Qwen3.5-397B-A17B 按 0.6:0.4 比例的逐元素线性权重融合。
开发者给出两项核心验证证据:一是移除模型硬编码的系统提示词后直接询问身份,模型有 79.2% 的概率自称为 "Nex",无概率自称为 "Rio",甚至能完整复述 Nex 机构的背景信息;二是提取各层张量计算后,融合结果与原模型的余弦相似度高达 0.99,统计学上排除了不相关模型偶然重合的可能。Nex 官方随后证实了该结论,同时强调开源社区中作品署名权的核心价值。
针对社区质疑,IplanRIO 更新了 HuggingFace 上的模型说明,称原计划发布经过 On-Policy Distillation 优化的版本,但误上传了未蒸馏的基础融合权重,并就造成的社区混乱致歉。此外,社区还围绕模型公共资金使用问题产生争议,相关人士澄清该项目为市政 IT 员工的副业项目,未动用公共训练资金,此前的公开表述存在沟通误解。
参考链接:
https://github.com/nex-agi/Nex-N2/issues/4
2. Kimi K2.7 Code 高速版上线,输出效率提升至 6 倍
Kimi 正式推出 K2.7 Code 高速版模型,该版本与普通版基于同一模型底座,通过推理优化实现了效率跃升,在常规编程场景下输出速度可达普通版的 5-6 倍。
目前该模型已向 Kimi API 开发者、Kimi Business 企业用户及抢先体验计划用户开放,后续预计 7 月起逐步向 Allegretto 及以上等级的个人会员开放。定价层面,API 调用价格为普通版的 2 倍,Kimi Code Plan 套餐内的用量抵扣系数为 3 倍。
参考链接:
https://mp.weixin.qq.com/s/p87ebkY1xqKtkGZ2N3DGSw
3. 百灵发布 Ling & Ring 2.6 技术报告,聚焦 Agent 工作流优化
百灵正式发布 Ling & Ring 2.6 系列技术报告,该系列模型面向真实 Agent 工作流场景设计,针对不同任务复杂度做了差异化定位:Ling-2.6 主打高 token 效率,以更少的输出 token 承载等量信息,适配即时响应、高频调用的轻量场景;Ring-2.6 侧重深度推理与长链路任务执行,适配复杂 Agent 工作流、多工具调用场景。
架构层面,该系列采用 Hybrid Linear Attention 混合注意力架构,将 Lightning Attention 与 MLA 按 7:1 比例结合,最高支持 256K 上下文长度,同时大幅降低了长上下文的训练与推理显存、算力成本。后训练阶段通过专家化训练、双向偏好对齐、KPop 强化学习算法等技术,分别优化 token 效率与 Agent 工具调用稳定性,在多项 Agent 基准测试中表现突出。目前该系列的基座与后训练权重均已向社区开源。
参考链接:
https://mp.weixin.qq.com/s/j8ZXKvDZzMkSSiUyXecqGA
4. 微博推出 VibeThinker-3B,小参数实现旗舰级推理性能
微博 WeiboAI 发布 3B 参数的开源推理模型 VibeThinker-3B,该模型基于 Spectrum-to-Signal 后训练范式,通过课程式监督微调、多领域强化学习与离线自蒸馏的全流水线优化,在多项高难度推理基准测试中追平了旗舰级大模型的表现。
官方数据显示,该模型在 AIME26 数学竞赛测试中得分突出,搭配声明级测试时缩放技术后成绩进一步提升;同时在 LiveCodeBench 代码基准与分布外泛化测试中表现优异,且推理能力的强化未牺牲指令遵循精度。不过社区也有讨论对该模型的超高成绩提出过拟合质疑,认为 3B 小参数模型难以在多领域同时达到旗舰级通用水准。
参考链接:
https://arxiv.org/abs/2606.16140
https://huggingface.co/WeiboAI/VibeThinker-3B
5. Poolside 开源 Laguna M.1,225B MoE 架构适配长程编码任务
Poolside 正式发布并开源 Laguna M.1 大模型,该模型为 225B 总参数、23B 激活参数的 MoE 混合专家架构,基于 30T tokens 从零训练打造,专为 Agent 编码与长程任务设计,支持 256K 上下文窗口。
该模型在 SWE-bench Verified、SWE-Bench Pro、Terminal-Bench 等多项代码与终端任务基准中处于行业第一梯队,配套开源了用于 Agent 训练与评估的运行时环境。技术层面,模型采用自研 AutoMixer 数据混合框架自动优化训练数据配比,使用 Muon 优化器提升训练效率与参数收敛速度,并搭建全异步在线强化学习系统,保障长程 Agent 任务的训练稳定性。模型权重基于 Apache 2.0 协议开源,支持开发者自由下载部署与二次微调。
参考链接:
https://poolside.ai/blog/laguna-a-deeper-dive
https://huggingface.co/poolside/Laguna-M.1
(二)多模态与世界模型动态
1. 高德发布 DreamX-World 1.0 通用世界模型,支持分钟级视频生成
高德 AmapAI 推出基于 Wan2.2 底座的通用交互世界模型 DreamX-World 1.0,主打高保真连续世界生成与实时交互能力,定位交互式虚拟世界生成底座。
该模型支持最长 1 分钟的连续自回归视频生成,具备精准的相机控制能力,通过长序列渐进式训练,缓解了长视频生成中常见的身份、背景、风格与色彩漂移问题,可实现上百帧的连贯世界探索。同时模型搭载几何引导的记忆检索机制,当相机回到已探索区域时,可召回之前的视觉特征,保留场景布局、物体身份与局部外观,提升世界一致性。
交互层面,模型支持文本驱动的世界事件生成,可实现单事件触发与多事件组合的动态环境变化;同时兼容第一人称探索与第三人称跟随两种视角生成,可适配游戏、虚拟漫游等不同场景。目前模型相关代码与权重已开源,Beta 版即将正式上线。
参考链接:
https://amap-ml.github.io/DreamX_World/
https://github.com/AMAP-ML/DreamX-World
2. SpaceXAI 推出 Grok Imagine Video 1.5,全端开放视频生成能力
SpaceXAI 正式发布 Grok Imagine Video 1.5 及 Video 1.5 Fast 两款视频生成模型,相比上一代产品,在音频同步精度、运动连贯性与物理效果真实性上均有显著提升。
其中高速版 Video 1.5 Focus 生成 6 秒 720p 视频的耗时从 40 余秒压缩至约 25 秒,生成效率大幅提升,兼顾质量与速度。目前 Grok Imagine Video 1.5 已结束预览阶段,正式全面接入 SpaceXAI API,面向开发者开放;高速版则面向 C 端用户,在官网、iOS 与 Android 移动端同步上线。官方还透露,近期将为该系列新增项目管理、多 Agent 并行生成、媒体库搜索等功能,进一步拓展创作能力。
参考链接:
https://x.ai/news/grok-imagine-video-1-5
https://docs.x.ai/developers/model-capabilities/video/generation
3. Boogu 团队开源 Boogu-Image-0.1,小数据量实现顶级图像生成效果
Boogu 团队正式开源 Boogu-Image-0.1 系列统一多模态图像模型,包含 Base 基础版、Turbo 高速版、Edit 编辑版等多个变体,覆盖文生图、图生图、图像编辑、文本渲染等核心场景,同时支持中英双语的精准文字生成。
该系列模型的训练数据规模相比主流方案小一个数量级,但通过强化多模态理解底座、优化标注质量与训练流水线,在多项基准测试与人类偏好评估中达到顶级开源模型水平,部分场景接近闭源模型表现。其中 Turbo 版仅需 3-4 步即可生成高质量图像,推理延迟大幅降低,适配高频生成场景;Edit 版支持精准的局部编辑与风格转换。模型权重基于 Apache-2.0 协议向研究用途开放,同时提供完整的推理代码与部署指南。
参考链接:
https://github.com/boogu-project/Boogu-Image
4. 阿里升级 HappyOyster 1.0 实时交互模型,新增双模式玩法
阿里巴巴对旗下实时交互开放世界模型 HappyOyster 1.0 完成功能升级,新增 Adventure(冒险漫游)与 Directing(导演创作)两种交互模式,进一步拓展了实时世界模型的应用边界。
升级后的模型支持更丰富的环境交互逻辑、更灵活的玩家操作控制,同时新增可回溯的剧情节点机制,用户可以调整剧情走向、回溯关键节点,适配互动叙事场景。官方表示,该模型的能力更新将为游戏开发、互动短剧、直播互动、文化旅游数字化等领域提供新的技术方案,助力实时交互内容的低成本创作。
参考链接:
https://www.happyoyster.cn/home
5. Ai2 发布 MolmoMotion 开源 3D 运动预测模型,覆盖机器人与视频生成场景
艾伦人工智能研究所(Ai2)发布并开源基于 Molmo 2 视觉语言骨干的 3D 运动预测模型 MolmoMotion,可结合历史视觉帧、物体关键点与自然语言指令,精准预测物体未来的 3D 运动轨迹,覆盖刚性、铰接、变形等多种运动类型。
该模型提供两种技术变体:自回归(AR)版本输出离散化坐标,流匹配(FM)版本生成连续平滑的运动轨迹,可适配不同下游场景需求。为支撑模型训练,团队同步开源了包含 116 万条视频的 MolmoMotion-1M 数据集,以及 PointMotionBench 评测基准,后者包含 2.7K 人工验证的视频片段,覆盖 111 类物体、61 种运动类型。
实测显示,该模型初始化的机器人抓取策略可显著提升任务成功率;同时可作为运动引导信号,提升文生视频模型的指令遵循度与运动合理性。模型与相关资源均以 Apache 2.0 协议开源。
参考链接:
https://molmomotion.github.io/
https://huggingface.co/blog/allenai/molmomotion
https://huggingface.co/collections/allenai/molmomotion
(三)垂直领域专用模型发布
1. 微软开源 FastContext-1.0,大幅降低代码 Agent Token 消耗
微软开源了专为代码 Agent 打造的轻量级代码库探索模型 FastContext-1.0 家族,定位为主 Agent 的子智能体,专门负责精准检索与定位代码上下文,将代码探索与问题求解任务解耦。
该模型通过并行调用 READ、GLOB、GREP 三类只读工具检索代码库,最终仅返回紧凑的文件路径与行号范围作为核心上下文,无需将大量无关代码输入主 Agent。官方测试数据显示,将其集成到 Mini-SWE-Agent 后,端到端任务解决率最高提升 5.5%,同时主 Agent 的 Token 消耗最高降低 60%,大幅提升了代码 Agent 的运行效率与成本表现,尤其适配大型代码库的 Agent 开发场景。该模型基于 MIT 许可证开源。
参考链接:
https://huggingface.co/microsoft/FastContext-1.0-4B-SFT
https://github.com/microsoft/fastcontext
2. 通义推出 Qwen-Robot Suite 具身智能模型系列
Qwen 团队正式发布 Qwen-Robot Suite 具身智能基础模型系列,包含三款差异化模型,旨在打通视觉语言理解与物理运动控制之间的技术鸿沟,为机器人具身智能提供通用模型底座,覆盖不同复杂度的机器人操作场景。
目前三款模型均可独立调用,官方同步开放了部分实验性体验功能,供开发者测试与二次开发,加速具身智能技术的落地应用。
参考链接:
https://qwen-robotmanip.d-robotics.cc/
https://qwen.ai/blog?id=qwen-robotsuite
3. Cartesia 发布 Sonic-3.5 与 Ink-2,刷新语音类模型性能
Cartesia 推出两款流式语音大模型,分别为文本转语音模型 Sonic-3.5 与语音转文本模型 Ink-2,完善了语音交互的全链路模型矩阵。
官方称两款模型均为对应领域的性能标杆,在语音自然度、识别准确率、端到端延迟等核心指标上领先行业同类产品,主打低延迟流式交互,适配实时语音对话、智能客服、有声内容创作、实时字幕等多种场景。
参考链接:
https://x.com/krandiash/status/2066559212533190917
4. 火山引擎开放豆包实时语音模型 3.0 API 邀测
火山引擎正式上线豆包实时语音模型 3.0(Seeduplex)API 服务并开启邀请测试,该模型为原生全双工端到端语音大模型,主打自然流畅的实时语音交互,摆脱传统半双工模型的对讲机式交互感。
核心能力层面,模型深度融合语音与语义理解,可精准感知对话节奏,动态判断用户发言结束时机,相比半双工模型判停延迟大幅缩短,复杂场景下抢话率显著降低;同时具备强抗干扰能力,可在嘈杂环境、多人交谈场景中精准锁定用户指令,降低误触发与误回复概率。此外模型支持在实时对话中直接调用工具执行任务,可完成日程预定、文档总结、信息查询等操作,实现 "边听边说边办事"。
该模型可广泛应用于车载智能座舱、智能硬件、智能客服、智能办公等场景,助力企业升级语音交互体验。
参考链接:
https://mp.weixin.qq.com/s/L4BJnexabQu5DAxDnwEGxw
5. 阿里联合人大开源 LOGOS 统一科学大模型
阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院正式开源统一科学大模型 LOGOS,首次实现蛋白质、小分子、功能材料、化学反应等多领域科学对象的统一序列建模,探索 AI for Science 的通用化路径。
该模型设计了一套 "科学语法" 体系,将不同模态的科学结构、空间交互关系转化为统一的离散 Token 序列,使跨领域知识可在同一大模型框架内迁移、协同优化。模型无需输入 3D 坐标,仅通过纯序列范式即可完成任务,打破了传统科学模型依赖 3D 几何网络的技术路径依赖。
在六大核心科学任务测试中,LOGOS 均匹配或超越了领域专用模型的表现,包括口袋条件配体生成、逆合成预测、蛋白结合位点识别、MOF 新材料生成等,同时展现出极高的参数效率,仅用 1B 参数就超过了更大参数量的专用模型。目前模型权重、推理代码与技术报告均已开源,供科研与产业界使用。
参考链接: