【AIGC行业前沿】2026年6月AIGC行业前沿模型发布动态(6月8日-6月14日)

目录:

  1. 剪映首发 Seedance 2.0 系列新模型
  2. 云知声正式发布新一代原生智能体大模型 U2
  3. 小米联合TileRT推出 MiMo-V2.5-Pro-UltraSpeed 推理模式
  4. 高德发布生成式3D地球模型ABot-Earth-0.5并开放行业内测
  5. MindLab Research 发布 Macaron-V1-Preview 智能体模型
  6. OpenAI Codex v0.138.0 新增CLI与桌面端会话无缝移交功能
  7. 智谱联合清华开源端到端角色动画模型 SCAIL-2
  8. HiDream 推出闭源文生图模型 O1-Image-1.5
  9. Cohere 发布开源Agentic编程模型 North Mini Code
  10. 谷歌推出 Gemini 3.5 Live Translate 实时语音翻译模型
  11. 腾讯混元开源多模态统一强化学习框架 UniRL
  12. 月之暗面发布并开源编程专用模型 Kimi K2.7 Code
  13. 小米 MiMo 团队开源终端编程 Agent MiMo Code V0.1
  14. MiniMax 正式开放 M3 大模型权重
  15. 华为发布开源盘古 openPangu 2.0 系列大模型
  16. 摩尔线程开源GPU算子生成专用代码大模型 MusaCoder
  17. PaddleOCR 发布新一代轻量级 OCR 系统 PP-OCRv6
  18. 智源研究院在2026智源大会发布多款大模型与智能体
  19. 字节跳动开源图像质量评估模型 EvoQuality
  20. Zyphra 推出开源 MoE 架构 TTS 模型 ZONOS2
  21. 千问上线全周期高考志愿填报 Agent
  22. OpenRouter 推出 Fusion 多模型融合 API

1、剪映首发 Seedance 2.0 系列新模型

剪映通过官方小红书账号官宣,将于15日首发上线Seedance 2.0新模型。官方表示该模型相较前代生成速度更快、使用成本更低,首发期间将同步推出折扣优惠,目前官方正通过社交平台发起互动,邀请用户猜测具体折扣力度。

参考链接:https://www.xiaohongshu.com/user/profile/5cc0829f000000001100e8e0

2、云知声正式发布新一代原生智能体大模型 U2

云知声正式推出新一代通用大语言模型U2,产品定位为面向个人、开发者与各类组织的原生智能体大模型,主打高智能密度与任务执行闭环能力。该模型搭载混合思考机制与Agent-Harness协同训练范式,不盲目堆叠参数,侧重提升单Token价值,可自主拆解并推进100步以上的复杂工作流。官方评测数据显示,U2在GPQA Diamond、SWE-Bench Verified、Claw-Eval等权威榜单中跻身主流大模型第一梯队。目前该模型已上线云知声Token Hub,全面开放使用。

参考链接:https://maas.unisound.com/models/u2

3、小米联合TileRT推出 MiMo-V2.5-Pro-UltraSpeed 推理模式

小米MiMo团队与TileRT联合发布MiMo-V2.5-Pro的UltraSpeed推理模式,通过模型与系统深度协同设计,在标准8卡通用GPU节点上,实现万亿参数模型生成速度突破1000 tokens/s。该模式的API已开启限时申请试用,试用周期为6月9日至6月23日23:59,定价为标准版的3倍,暂不支持Token Plan,试用名额将优先向具备真实业务需求的企业与专业开发者开放。此外,包含FP4量化权重与DFlash模型参数的模型检查点已同步在HuggingFace开源。

参考链接:

https://mimo.xiaomi.com/blog/mimo-tilert-1000tps

https://platform.xiaomimimo.com/ultraspeed

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

https://www.tilert.ai/blog/breaking-1000-tps.html

4、高德发布生成式3D地球模型ABot-Earth-0.5并开放行业内测

高德发布生成式3D地球模型ABot-Earth-0.5,该模型被称为全球首个完全基于3DGS数据训练、具备工程落地能力的3D原生城市世界模型。用户仅需输入卫星影像或文本描述,即可在消费级GPU上用约10分钟生成公里级规模的3D城市场景,输出格式兼容主流开发引擎。目前该模型已完成全球超190个国家和地区的3D地图构建,现已面向行业开放内测申请,未来将重点赋能具身智能、低空经济、应急救援等领域。

参考链接:

https://github.com/amap-cvlab/ABot-Earth-0.5

https://abot-earth.amap.com/

5、MindLab Research 发布 Macaron-V1-Preview 智能体模型

MindLab Research正式发布Macaron-V1-Preview-749B智能体模型。该模型基于GLM-5.1进行后训练,面向多轮个人生活辅助、工具规划、生成式UI等Agent场景优化。模型采用Mixture-of-LoRA(MoL)架构,由744B基础模型搭配5个约1B参数的专家LoRA适配器组成,可有效降低不同任务间的优化干扰。官方数据显示,该模型在Macaron LivingBench等多项基准测试中表现优异。目前模型完整权重已通过Hugging Face以MIT协议开源,后续还将推出30B、200B参数的开源变体。

参考链接:

https://macaron.im/mindlab/research/macaron-v1-preview

https://huggingface.co/mindlab-research/Macaron-V1-Preview-749B

6、OpenAI Codex v0.138.0 新增CLI与桌面端会话无缝移交功能

OpenAI发布Codex rust-v0.138.0版本,带来多项功能更新与体验优化。本次更新核心亮点为CLI与桌面端的会话互通能力:用户可通过/app命令,将当前命令行会话无缝移交至macOS与Windows平台的Codex Desktop中继续操作,同时Windows工作区也支持通过深度链接直接在桌面端启动。此外,新版本支持模型读取本地图片附件与生成图片的保存路径,兼容v2个人访问令牌,在插件自动化中新增了更丰富的JSON结构化输出,并支持暴露远程MCP服务器。本次更新还修复了多行粘贴提前提交、流式传输产生额外空白行等界面问题,通过复用插件发现结果、优化字节扫描提升了启动与处理速度。

参考链接:

https://github.com/openai/codex/releases/tag/rust-v0.138.0

https://x.com/fcoury/status/2064135794059829720

7、智谱联合清华开源端到端角色动画模型 SCAIL-2

智谱与清华大学研究团队联合发布SCAIL-2端到端受控角色动画模型,已在Hugging Face、ModelScope等平台开源。该模型通过直接拼接驱动视频的latent特征,摆脱了传统方案对骨架图、修复掩码等中间表示的依赖,原生支持单/多角色动画、角色替换、长视频生成与3D姿态控制。模型基于MotionPair-60K数据集训练,具备动物驱动等零样本泛化能力,支持输出512p与704p分辨率内容,采用Apache 2.0开源协议,同时提供ComfyUI工作流支持。

参考链接:

https://teal024.github.io/SCAIL-2/

https://github.com/zai-org/SCAIL-2

https://huggingface.co/zai-org/SCAIL-2

8、HiDream 推出闭源文生图模型 O1-Image-1.5

据Artificial Analysis披露,HiDream正式发布闭源文生图模型HiDream-O1-Image-1.5。该模型基于Unified Transformer架构,在单一token空间内完成编码,支持生成最高2K分辨率的图像。在Artificial Analysis的文生图排行榜中,该模型位列第三,排名仅次于OpenAI的图像模型。目前该模型定价为每千张图像80美元,已上线HiHarness与Vivago平台。

参考链接:https://x.com/ArtificialAnlys/status/2064465242323869910

9、Cohere 发布开源Agentic编程模型 North Mini Code

Cohere正式推出其首款开源Agentic编程模型North Mini Code,采用混合专家(MoE)架构,总参数量为300亿,其中激活参数量为30亿。官方数据显示,该模型在Artificial Analysis编程指数中获得33.4分,在同量级模型中具备较强竞争力;在相同硬件与并发条件下,输出吞吐量最高可达对比模型Devstral Small 2的2.8倍,同时Token间延迟也具备优势。开发者目前可通过Hugging Face免费获取模型权重,也可通过Cohere API、OpenRouter等渠道接入使用,模型采用Apache 2.0开源协议。

参考链接:

https://cohere.com/blog/north-mini-code

https://huggingface.co/CohereLabs/North-Mini-Code-1.0

https://docs.cohere.com/docs/north-mini-code-1.0

10、谷歌推出 Gemini 3.5 Live Translate 实时语音翻译模型

谷歌发布最新音频模型Gemini 3.5 Live Translate,主打流式实时语音到语音翻译能力,可自动识别70余种语言,在翻译过程中保留说话人的语调、语速与音高特征。不同于传统逐句翻译方案,该模型采用连续流式生成机制,在等待上下文保障翻译质量与实时同步输出之间取得平衡,仅落后说话者数秒,输出流畅无生硬停顿,同时具备较强的噪声鲁棒性。目前开发者可通过Gemini Live API与Google AI Studio使用该模型的公开预览版;消费端方面,该模型正逐步在全球Android与iOS端的Google翻译应用上线,Google Meet也已面向部分企业客户开启私人预览。所有生成音频均会添加SynthID不可感知水印,用于AI内容识别。

参考链接:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/

https://ai.google.dev/gemini-api/docs/live-api/live-translate

https://aistudio.google.com/live?model=gemini-3.5-live-translate-preview

11、腾讯混元开源多模态统一强化学习框架 UniRL

腾讯混元团队正式开源UniRL多模态强化学习基础设施,可为多类模型提供统一的后训练支持。该框架的核心设计是将"生成-评分-计算优势-更新策略-同步权重"的完整强化学习后训练循环,跨模型家族统一实现,让模型类型与算法选型成为两个独立可组合的维度。UniRL支持扩散模型、自回归模型、提示词增强模型、统一模型四类训练模式,兼容Stable Diffusion 3、FLUX.2-Klein、WAN系列、Qwen系列、HunyuanVideo等主流模型。除集成标准强化学习算法外,官方还同步开源了自研的DRPO与Flow-DPPO算法,配套完整代码可供开发者直接使用。

参考链接:

https://unirl-project.github.io/unirl/

https://github.com/Tencent-Hunyuan/UniRL

https://arxiv.org/abs/2606.09821

12、月之暗面发布并开源编程专用模型 Kimi K2.7 Code

月之暗面正式发布并开源专注编程场景的Kimi K2.7 Code模型,采用总参数1T、激活参数32B的MoE架构,支持256K上下文与多模态输入。官方数据显示,该模型较上一代减少约30%推理token消耗,在多项代码与Agent基准测试中性能显著提升。模型使用时需强制开启思考模式,官方建议非编程场景仍选用K2.6版本。

目前该模型已上线API与Kimi Code平台,输出定价为每百万tokens 27元;输出速度达普通版5-6倍的高速版预计下周上线API,定价为普通版两倍。平台同步推出为期三周的充值赠代金券活动。

参考链接:

https://mp.weixin.qq.com/s/NBw1VAA9MjpKv-Rirq9qDg

https://huggingface.co/moonshotai/Kimi-K2.7-Code

13、小米 MiMo 团队开源终端编程 Agent MiMo Code V0.1

小米MiMo团队正式发布开源终端编程Agent"MiMo Code"V0.1版本,内置限时免费的MiMo-V2.5多模态模型,具备百万token上下文窗口与跨会话持久记忆能力,支持用户从Claude Code零成本迁移配置。

参考链接:

https://github.com/XiaomiMiMo/MiMo-Code

https://mimo.xiaomi.com/en/blog/mimo-code-long-horizon

https://mimo.xiaomi.com/en/mimocode

14、MiniMax 正式开放 M3 大模型权重

MiniMax现已在Hugging Face平台开放MiniMax M3模型权重。该模型总参数量约428B、激活参数23B,支持1M上下文窗口与原生多模态能力。本次发布附带"MINIMAX COMMUNITY LICENSE"使用协议:非商业用途可免费使用、修改与分发模型;商业用途需在产品相关页面醒目展示"Built with MiniMax M3"标识,其中年收入超2000万美元的产品需提前获得官方书面授权,未达门槛仅需向官方发送一次性通知。

参考链接:

https://huggingface.co/MiniMaxAI/MiniMax-M3

https://github.com/MiniMax-AI/MiniMax-M3

15、华为发布开源盘古 openPangu 2.0 系列大模型

在HDC 2026华为开发者大会上,华为常务董事余承东正式发布全新开源盘古大模型openPangu 2.0系列。该系列统一支持512K超长上下文窗口,分为Pro与Flash两个版本适配不同算力场景:Pro版总参数505B,其中激活参数18B;Flash版总参数92B,其中激活参数6B。

该系列深度适配HarmonyOS生态并针对昇腾算力做了专项优化,官方称其单卡吞吐量最高可达业界主流开源模型的两倍。华为计划自6月30日起,陆续开源模型架构、权重、预训练与后训练代码等七大核心组件。

参考链接:暂无公开官方链接

16、摩尔线程开源GPU算子生成专用代码大模型 MusaCoder

摩尔线程正式开源面向GPU底层算子生成的专用代码大模型MusaCoder,这是业内首个基于国产全功能GPU完成全链路训练与验证的开源代码大模型,其完整后训练流程均在由MTT S5000搭建的夸娥智算集群上完成。

在KernelBench严格评测中,MusaCoder-27B-RL版本Overall Pass@8达到93.2%,整体表现超越Claude Opus 4.7、DeepSeek-V4 Pro等主流SOTA代码模型,在高难度的Level 3算子生成任务中优势更为显著。

参考链接:

https://mp.weixin.qq.com/s/O4FdV14h0KzGexk5xQfxEQ

https://huggingface.co/MooreThreads/MusaCoder-27B

http://arxiv.org/abs/2606.04847

17、PaddleOCR 发布新一代轻量级 OCR 系统 PP-OCRv6

PaddleOCR团队正式发布PP-OCRv6轻量级OCR系统,基于全新MetaFormer统一架构打造,提供tiny、small、medium三档模型,参数量覆盖1.5M至34.5M,可灵活适配端侧到服务端各类部署场景。

官方测试数据显示,medium版本的检测与识别精度较上一代server版本分别提升4.6%和5.1%,在多项OCR基准测试中超越GPT-5.5、Qwen3-VL-235B等大视觉模型,同时强化了多语种识别能力与工业复杂场景适配效果。目前所有模型均已在HuggingFace等平台上线。

参考链接:

https://github.com/paddlepaddle/paddleocr

https://paddlepaddle.github.io/PaddleOCR/latest/en/index.html

https://huggingface.co/PaddlePaddle/PP-OCRv6_medium_det

https://arxiv.org/abs/2606.13108

18、智源研究院在2026智源大会发布多款大模型与智能体

在2026智源大会上,智源研究院集中发布多项AI领域成果:

基座大模型层面,推出可实现脑信号与图文声双向转换的神经科学模型Brainμ 1.0,同步发布全球规模最大的AI-Ready神经科学数据集与对应数据平台BrainToken;多模态大模型悟界Emu3.5已登上《Nature》正刊,AI药物发现模型悟界·OpenComplex 2.5性能实现升级;自研通用世界模型Physis v0.1仍在研发中,计划未来数月内开源。

应用层面,发布具身大脑悟界·RoboBrain Orca v0(已与50余家企业达成合作),以及心脏疾病辅助诊断、科研自主探索等四款垂直领域智能体,其中心脏磁共振辅助诊断智能体精度达到安贞医院顶尖心血管医生水平。

基础生态方面,升级发布众智FlagOS 2.1系统,官方称已适配18家芯片厂商的32款芯片,内置算子超600个,可支撑90%以上主流开源模型部署。

参考链接:

https://zhidx.com/p/565250.html

19、字节跳动开源图像质量评估模型 EvoQuality

字节跳动在Hugging Face平台开源图像质量评估模型EvoQuality。该视觉语言模型无需依赖人工标注数据,可通过自我进化的方式迭代提升评估性能,官方表示其效果已超越部分有监督训练的同类方法。

参考链接:

https://huggingface.co/ByteDance/EvoQuality

20、Zyphra 推出开源 MoE 架构 TTS 模型 ZONOS2

Zyphra以Apache 2.0开源协议正式发布ZONOS2实时语音合成模型。该模型是首款采用MoE架构的开源TTS产品,总参数8B、激活参数900M,主打高保真零样本语音克隆能力,在说话人相似度、韵律自然度等指标上表现优异,同时兼顾实时推理性能。目前模型权重已开放下载,同时提供云端演示与API接入渠道。

参考链接:

https://www.zyphra.com/our-work/zonos2

https://github.com/Zyphra/ZONOS2

https://huggingface.co/Zyphra/ZONOS2

21、千问上线全周期高考志愿填报 Agent

千问正式上线国内首个全周期高考志愿填报Agent,面向全国考生免费提供志愿规划与咨询服务。该产品基于千问高考志愿大模型与夸克8年高考数据积累打造,具备志愿日历、个性化志愿报告、智能问答三大核心能力,可结合考生分数、兴趣偏好与历年院校招录数据提供定制化规划建议。

产品针对老旧设备与弱网环境做了专项优化,同时千问将通过"暖芒公益"计划,持续为偏远地区考生提供志愿填报指导服务。

参考链接:

https://mp.weixin.qq.com/s/ocE80lRyRyQ1g-AfCTGmxw

22、OpenRouter 推出 Fusion 多模型融合 API

OpenRouter正式推出Fusion多模型融合API,其核心机制为:将用户任务并行分发至多款模型生成独立回答,再由裁判模型对多份结果做共识梳理、矛盾对比与亮点整合,输出结构化分析后生成最终答案。

官方在DRACO深度研究基准测试中验证,多模型融合的表现普遍优于单一模型:Fable 5与GPT-5.5的融合组合得分达到69.0%,超过所有参测单模型;由低成本模型组成的平价组合得分超越GPT-5.5,成本仅为旗舰模型的一半。目前该功能已正式开放,开发者可通过API调用集成,普通用户也可在网页端直接体验。

参考链接:

https://openrouter.ai/blog/announcements/fusion-beats-frontier/

https://openrouter.ai/fusion

https://openrouter.ai/docs/guides/features/server-tools/fusion

相关推荐
AI创界者2 小时前
PilotTTS 一键整合包(Win/Mac):8G 显存畅跑,实测解锁情绪与副语言的精准控制
人工智能·macos·aigc·音视频
英勇无比的消炎药2 小时前
一行命令背后:TinyRobot CLI 如何重构 AI 对话接入的效率范式
vue.js·aigc
harykali3 小时前
Hello-ROCm:Gemma4微调 #Datawhale #AMDev
人工智能·llm
用户5191495848453 小时前
Flowise预认证任意文件上传漏洞分析(CVE-2025-26319)
人工智能·aigc
DigitalOcean3 小时前
砍掉 60% AI 推理成本:深度解构 DigitalOcean 推理路由器的 MoE 门控与智能分流机制
llm·aigc·agent
羞儿3 小时前
llm-algo-1
llm·调试·显存·构建
AndrewHZ3 小时前
【LLM技术全景】大模型能力探秘:In-Context Learning与思维链(CoT)
人工智能·语言模型·大模型·llm·cot·思维链·icl
Vergelight4 小时前
实战拆解|三类RAG架构差异:朴素、进阶、多轮RAG落地选型指南
架构·大模型·aigc·agent·ai产品经理·转行·ai后台设计
AI袋鼠帝4 小时前
终于找到一键做爆款AI短视频的办法了!OiiOii 2.0升级实测【保姆级教程】
人工智能·aigc
枫子有风5 小时前
LLM-Agent智能体(大厂面试常问)
面试·职场和发展·llm·agent