【AIGC行业前沿】2026年6月AIGC行业前沿模型发布动态（6月15日-6月21日）

一、总目录

（一）大语言模型与推理技术进展

Rio-3.5-Open-397B 被证实为 Nex 与 Qwen 权重线性融合
Kimi K2.7 Code 高速版上线，输出效率提升至 6 倍
百灵发布 Ling & Ring 2.6 技术报告，聚焦 Agent 工作流优化
微博推出 VibeThinker-3B，小参数实现旗舰级推理性能
Poolside 开源 Laguna M.1，225B MoE 架构适配长程编码任务

（二）多模态与世界模型动态

高德发布 DreamX-World 1.0 通用世界模型，支持分钟级视频生成
SpaceXAI 推出 Grok Imagine Video 1.5，全端开放视频生成能力
Boogu 团队开源 Boogu-Image-0.1，小数据量实现顶级图像生成效果
阿里升级 HappyOyster 1.0 实时交互模型，新增双模式玩法
Ai2 发布 MolmoMotion 开源 3D 运动预测模型，覆盖机器人与视频生成场景

（三）垂直领域专用模型发布

微软开源 FastContext-1.0，大幅降低代码 Agent Token 消耗
通义推出 Qwen-Robot Suite 具身智能模型系列
Cartesia 发布 Sonic-3.5 与 Ink-2，刷新语音类模型性能
火山引擎开放豆包实时语音模型 3.0 API 邀测
阿里联合人大开源 LOGOS 统一科学大模型

二、详细内容汇总

（一）大语言模型与推理技术进展

1. Rio-3.5-Open-397B 被证实为 Nex 与 Qwen 权重线性融合

里约热内卢市信息技术公司 IplanRIO 发布的 Rio-3.5-Open-397B 模型，被开发者曝出未经过独立训练，本质是开源模型 Nex N2 Pro 与 Qwen3.5-397B-A17B 按 0.6:0.4 比例的逐元素线性权重融合。

开发者给出两项核心验证证据：一是移除模型硬编码的系统提示词后直接询问身份，模型有 79.2% 的概率自称为 "Nex"，无概率自称为 "Rio"，甚至能完整复述 Nex 机构的背景信息；二是提取各层张量计算后，融合结果与原模型的余弦相似度高达 0.99，统计学上排除了不相关模型偶然重合的可能。Nex 官方随后证实了该结论，同时强调开源社区中作品署名权的核心价值。

针对社区质疑，IplanRIO 更新了 HuggingFace 上的模型说明，称原计划发布经过 On-Policy Distillation 优化的版本，但误上传了未蒸馏的基础融合权重，并就造成的社区混乱致歉。此外，社区还围绕模型公共资金使用问题产生争议，相关人士澄清该项目为市政 IT 员工的副业项目，未动用公共训练资金，此前的公开表述存在沟通误解。

参考链接：

https://github.com/nex-agi/Nex-N2/issues/4

https://huggingface.co/prefeitura-rio/Rio-3.5-Open-397B/commit/a778c1ec4e21180ee55c3ea016a348e549e75f09

2. Kimi K2.7 Code 高速版上线，输出效率提升至 6 倍

Kimi 正式推出 K2.7 Code 高速版模型，该版本与普通版基于同一模型底座，通过推理优化实现了效率跃升，在常规编程场景下输出速度可达普通版的 5-6 倍。

目前该模型已向 Kimi API 开发者、Kimi Business 企业用户及抢先体验计划用户开放，后续预计 7 月起逐步向 Allegretto 及以上等级的个人会员开放。定价层面，API 调用价格为普通版的 2 倍，Kimi Code Plan 套餐内的用量抵扣系数为 3 倍。

参考链接：

https://mp.weixin.qq.com/s/p87ebkY1xqKtkGZ2N3DGSw

3. 百灵发布 Ling & Ring 2.6 技术报告，聚焦 Agent 工作流优化

百灵正式发布 Ling & Ring 2.6 系列技术报告，该系列模型面向真实 Agent 工作流场景设计，针对不同任务复杂度做了差异化定位：Ling-2.6 主打高 token 效率，以更少的输出 token 承载等量信息，适配即时响应、高频调用的轻量场景；Ring-2.6 侧重深度推理与长链路任务执行，适配复杂 Agent 工作流、多工具调用场景。

架构层面，该系列采用 Hybrid Linear Attention 混合注意力架构，将 Lightning Attention 与 MLA 按 7:1 比例结合，最高支持 256K 上下文长度，同时大幅降低了长上下文的训练与推理显存、算力成本。后训练阶段通过专家化训练、双向偏好对齐、KPop 强化学习算法等技术，分别优化 token 效率与 Agent 工具调用稳定性，在多项 Agent 基准测试中表现突出。目前该系列的基座与后训练权重均已向社区开源。

参考链接：

https://mp.weixin.qq.com/s/j8ZXKvDZzMkSSiUyXecqGA

4. 微博推出 VibeThinker-3B，小参数实现旗舰级推理性能

微博 WeiboAI 发布 3B 参数的开源推理模型 VibeThinker-3B，该模型基于 Spectrum-to-Signal 后训练范式，通过课程式监督微调、多领域强化学习与离线自蒸馏的全流水线优化，在多项高难度推理基准测试中追平了旗舰级大模型的表现。

官方数据显示，该模型在 AIME26 数学竞赛测试中得分突出，搭配声明级测试时缩放技术后成绩进一步提升；同时在 LiveCodeBench 代码基准与分布外泛化测试中表现优异，且推理能力的强化未牺牲指令遵循精度。不过社区也有讨论对该模型的超高成绩提出过拟合质疑，认为 3B 小参数模型难以在多领域同时达到旗舰级通用水准。

参考链接：

https://arxiv.org/abs/2606.16140

https://huggingface.co/WeiboAI/VibeThinker-3B

5. Poolside 开源 Laguna M.1，225B MoE 架构适配长程编码任务

Poolside 正式发布并开源 Laguna M.1 大模型，该模型为 225B 总参数、23B 激活参数的 MoE 混合专家架构，基于 30T tokens 从零训练打造，专为 Agent 编码与长程任务设计，支持 256K 上下文窗口。

该模型在 SWE-bench Verified、SWE-Bench Pro、Terminal-Bench 等多项代码与终端任务基准中处于行业第一梯队，配套开源了用于 Agent 训练与评估的运行时环境。技术层面，模型采用自研 AutoMixer 数据混合框架自动优化训练数据配比，使用 Muon 优化器提升训练效率与参数收敛速度，并搭建全异步在线强化学习系统，保障长程 Agent 任务的训练稳定性。模型权重基于 Apache 2.0 协议开源，支持开发者自由下载部署与二次微调。

参考链接：

https://poolside.ai/blog/laguna-a-deeper-dive

https://huggingface.co/poolside/Laguna-M.1

（二）多模态与世界模型动态

1. 高德发布 DreamX-World 1.0 通用世界模型，支持分钟级视频生成

高德 AmapAI 推出基于 Wan2.2 底座的通用交互世界模型 DreamX-World 1.0，主打高保真连续世界生成与实时交互能力，定位交互式虚拟世界生成底座。

该模型支持最长 1 分钟的连续自回归视频生成，具备精准的相机控制能力，通过长序列渐进式训练，缓解了长视频生成中常见的身份、背景、风格与色彩漂移问题，可实现上百帧的连贯世界探索。同时模型搭载几何引导的记忆检索机制，当相机回到已探索区域时，可召回之前的视觉特征，保留场景布局、物体身份与局部外观，提升世界一致性。

交互层面，模型支持文本驱动的世界事件生成，可实现单事件触发与多事件组合的动态环境变化；同时兼容第一人称探索与第三人称跟随两种视角生成，可适配游戏、虚拟漫游等不同场景。目前模型相关代码与权重已开源，Beta 版即将正式上线。

参考链接：

https://amap-ml.github.io/DreamX_World/

https://github.com/AMAP-ML/DreamX-World

2. SpaceXAI 推出 Grok Imagine Video 1.5，全端开放视频生成能力

SpaceXAI 正式发布 Grok Imagine Video 1.5 及 Video 1.5 Fast 两款视频生成模型，相比上一代产品，在音频同步精度、运动连贯性与物理效果真实性上均有显著提升。

其中高速版 Video 1.5 Focus 生成 6 秒 720p 视频的耗时从 40 余秒压缩至约 25 秒，生成效率大幅提升，兼顾质量与速度。目前 Grok Imagine Video 1.5 已结束预览阶段，正式全面接入 SpaceXAI API，面向开发者开放；高速版则面向 C 端用户，在官网、iOS 与 Android 移动端同步上线。官方还透露，近期将为该系列新增项目管理、多 Agent 并行生成、媒体库搜索等功能，进一步拓展创作能力。

参考链接：

https://x.ai/news/grok-imagine-video-1-5

https://docs.x.ai/developers/model-capabilities/video/generation

3. Boogu 团队开源 Boogu-Image-0.1，小数据量实现顶级图像生成效果

Boogu 团队正式开源 Boogu-Image-0.1 系列统一多模态图像模型，包含 Base 基础版、Turbo 高速版、Edit 编辑版等多个变体，覆盖文生图、图生图、图像编辑、文本渲染等核心场景，同时支持中英双语的精准文字生成。

该系列模型的训练数据规模相比主流方案小一个数量级，但通过强化多模态理解底座、优化标注质量与训练流水线，在多项基准测试与人类偏好评估中达到顶级开源模型水平，部分场景接近闭源模型表现。其中 Turbo 版仅需 3-4 步即可生成高质量图像，推理延迟大幅降低，适配高频生成场景；Edit 版支持精准的局部编辑与风格转换。模型权重基于 Apache-2.0 协议向研究用途开放，同时提供完整的推理代码与部署指南。

参考链接：

https://boogu.org/

https://github.com/boogu-project/Boogu-Image

https://huggingface.co/Boogu

4. 阿里升级 HappyOyster 1.0 实时交互模型，新增双模式玩法

阿里巴巴对旗下实时交互开放世界模型 HappyOyster 1.0 完成功能升级，新增 Adventure（冒险漫游）与 Directing（导演创作）两种交互模式，进一步拓展了实时世界模型的应用边界。

升级后的模型支持更丰富的环境交互逻辑、更灵活的玩家操作控制，同时新增可回溯的剧情节点机制，用户可以调整剧情走向、回溯关键节点，适配互动叙事场景。官方表示，该模型的能力更新将为游戏开发、互动短剧、直播互动、文化旅游数字化等领域提供新的技术方案，助力实时交互内容的低成本创作。

参考链接：

https://www.happyoyster.cn/home

5. Ai2 发布 MolmoMotion 开源 3D 运动预测模型，覆盖机器人与视频生成场景

艾伦人工智能研究所（Ai2）发布并开源基于 Molmo 2 视觉语言骨干的 3D 运动预测模型 MolmoMotion，可结合历史视觉帧、物体关键点与自然语言指令，精准预测物体未来的 3D 运动轨迹，覆盖刚性、铰接、变形等多种运动类型。

该模型提供两种技术变体：自回归（AR）版本输出离散化坐标，流匹配（FM）版本生成连续平滑的运动轨迹，可适配不同下游场景需求。为支撑模型训练，团队同步开源了包含 116 万条视频的 MolmoMotion-1M 数据集，以及 PointMotionBench 评测基准，后者包含 2.7K 人工验证的视频片段，覆盖 111 类物体、61 种运动类型。

实测显示，该模型初始化的机器人抓取策略可显著提升任务成功率；同时可作为运动引导信号，提升文生视频模型的指令遵循度与运动合理性。模型与相关资源均以 Apache 2.0 协议开源。

参考链接：

https://molmomotion.github.io/

https://huggingface.co/blog/allenai/molmomotion

https://huggingface.co/collections/allenai/molmomotion

（三）垂直领域专用模型发布

1. 微软开源 FastContext-1.0，大幅降低代码 Agent Token 消耗

微软开源了专为代码 Agent 打造的轻量级代码库探索模型 FastContext-1.0 家族，定位为主 Agent 的子智能体，专门负责精准检索与定位代码上下文，将代码探索与问题求解任务解耦。

该模型通过并行调用 READ、GLOB、GREP 三类只读工具检索代码库，最终仅返回紧凑的文件路径与行号范围作为核心上下文，无需将大量无关代码输入主 Agent。官方测试数据显示，将其集成到 Mini-SWE-Agent 后，端到端任务解决率最高提升 5.5%，同时主 Agent 的 Token 消耗最高降低 60%，大幅提升了代码 Agent 的运行效率与成本表现，尤其适配大型代码库的 Agent 开发场景。该模型基于 MIT 许可证开源。

参考链接：

https://huggingface.co/microsoft/FastContext-1.0-4B-SFT

https://github.com/microsoft/fastcontext

2. 通义推出 Qwen-Robot Suite 具身智能模型系列

Qwen 团队正式发布 Qwen-Robot Suite 具身智能基础模型系列，包含三款差异化模型，旨在打通视觉语言理解与物理运动控制之间的技术鸿沟，为机器人具身智能提供通用模型底座，覆盖不同复杂度的机器人操作场景。

目前三款模型均可独立调用，官方同步开放了部分实验性体验功能，供开发者测试与二次开发，加速具身智能技术的落地应用。

参考链接：

https://qwen-robotmanip.d-robotics.cc/

https://qwen.ai/blog?id=qwen-robotsuite

3. Cartesia 发布 Sonic-3.5 与 Ink-2，刷新语音类模型性能

Cartesia 推出两款流式语音大模型，分别为文本转语音模型 Sonic-3.5 与语音转文本模型 Ink-2，完善了语音交互的全链路模型矩阵。

官方称两款模型均为对应领域的性能标杆，在语音自然度、识别准确率、端到端延迟等核心指标上领先行业同类产品，主打低延迟流式交互，适配实时语音对话、智能客服、有声内容创作、实时字幕等多种场景。

参考链接：

https://x.com/krandiash/status/2066559212533190917

4. 火山引擎开放豆包实时语音模型 3.0 API 邀测

火山引擎正式上线豆包实时语音模型 3.0（Seeduplex）API 服务并开启邀请测试，该模型为原生全双工端到端语音大模型，主打自然流畅的实时语音交互，摆脱传统半双工模型的对讲机式交互感。

核心能力层面，模型深度融合语音与语义理解，可精准感知对话节奏，动态判断用户发言结束时机，相比半双工模型判停延迟大幅缩短，复杂场景下抢话率显著降低；同时具备强抗干扰能力，可在嘈杂环境、多人交谈场景中精准锁定用户指令，降低误触发与误回复概率。此外模型支持在实时对话中直接调用工具执行任务，可完成日程预定、文档总结、信息查询等操作，实现 "边听边说边办事"。

该模型可广泛应用于车载智能座舱、智能硬件、智能客服、智能办公等场景，助力企业升级语音交互体验。

参考链接：

https://mp.weixin.qq.com/s/L4BJnexabQu5DAxDnwEGxw

5. 阿里联合人大开源 LOGOS 统一科学大模型

阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院正式开源统一科学大模型 LOGOS，首次实现蛋白质、小分子、功能材料、化学反应等多领域科学对象的统一序列建模，探索 AI for Science 的通用化路径。

该模型设计了一套 "科学语法" 体系，将不同模态的科学结构、空间交互关系转化为统一的离散 Token 序列，使跨领域知识可在同一大模型框架内迁移、协同优化。模型无需输入 3D 坐标，仅通过纯序列范式即可完成任务，打破了传统科学模型依赖 3D 几何网络的技术路径依赖。

在六大核心科学任务测试中，LOGOS 均匹配或超越了领域专用模型的表现，包括口袋条件配体生成、逆合成预测、蛋白结合位点识别、MOF 新材料生成等，同时展现出极高的参数效率，仅用 1B 参数就超过了更大参数量的专用模型。目前模型权重、推理代码与技术报告均已开源，供科研与产业界使用。

参考链接：

https://mp.weixin.qq.com/s/50q5uY849FKnBzk1Q04MRg

https://huggingface.co/LOGOS-Hub