【AIGC行业前沿】2026年6月AIGC行业前沿模型发布动态（6月1-6月7）

1、MiniMax 上线 M3 旗舰多模态模型，支持百万级超长上下文

MiniMax 正式推出新一代旗舰模型 MiniMax M3，主打原生多模态能力与100万token超长上下文窗口，针对性优化智能体推理、工具调用、代码开发及长文档处理等复杂场景。目前该模型已全面开放API、Token Plan订阅服务，同时在OpenCode平台开启限时免费体验活动。计费层面，512k tokens以内输入可享7天五折优惠，折后输入、输出单价分别为每百万token2.10元、8.40元；超512k的超长文本功能现阶段限时限量开放，需对接销售开通，预计短期内全量上线。

相关链接 ：

https://platform.minimaxi.com

https://www.minimaxi.com/blog/minimax-m3

https://platform.minimaxi.com/docs

https://platform.minimaxi.com/subscribe/token-plan

https://github.com/MiniMax-AI/MiniMax-M2.7/issues

https://platform.minimaxi.com/docs/api-reference

2、SpaceXAI 推出视频生成模型 Grok-Imagine-Video-1.5-Preview 并开放API

SpaceXAI 全新视频生成模型 Grok-Imagine-Video-1.5-Preview 正式上线开发者API，支持文本、图像双输入生成短视频。模型提供480p、720p两种分辨率生成选项，按视频时长计费，单价分别为每秒0.08美元、0.14美元。据Arena.ai平台评测数据，该模型720p版本登顶图像转视频榜单，相较前代同分辨率模型评分提升52分，综合性能超越Seedance-2.0等主流视频生成模型。

https://x.com/arena/status/2060874057130934376

3、通义千问发布 Qwen-VLA 统一视觉语言动作通用模型

通义千问团队发布Qwen-VLA视觉-语言-动作一体化通用模型，基于Qwen3.5-4B骨干网络搭配1.15B DiT动作解码器构建，可统一实现机器人操作、视觉导航、轨迹预测三类核心任务。模型采用四阶段渐进式训练方案，搭载形态感知提示词机制，无需专属输出头即可适配多类机器人平台。实测结果显示，Qwen-VLA-Instruct在LIBERO、Simpler-WidowX、真实ALOHA双臂机器人等多项评测中，性能持平或优于各类专项微调专家模型。

相关链接 ：

https://qwen.ai/blog?id=qwenvla

https://github.com/QwenLM/Qwen-VLA

4、MiniMax M3 模型官宣开源计划，10日内开放权重

MiniMax M3旗舰多模态模型正式官宣开源规划，该模型搭载全新MSA稀疏注意力架构，百万级超长上下文、代码生成、智能体交互能力行业领先，支持图片、视频输入及电脑桌面自动化操作，在SWE-Bench Pro、SVG-Bench、Claw-Eval等权威基准测试中表现突出。目前模型API、MiniMax Code智能体产品、Token Plan订阅服务均已上线，官方承诺将在10天内发布完整技术报告并开源模型权重。

5、VAST 发布 Project Eden 多人多智能体世界模型预览版

VAST AI Research 推出Project Eden世界模型研究预览版，是业内首个聚焦AI原生多人、多智能体同步交互的世界模型。该模型创新式实现底层世界状态与视觉渲染解耦，构建出可持久运行、可编辑、支持多视角观测的结构化动态环境。依托三层架构与结构视觉对齐数据范式，模型具备环境状态持久化、物理动态响应、内容复用编辑、多智能体同屏交互等核心能力，现阶段仅为研究预览版本，后续将持续优化状态转换模型等核心模块。

https://www.youtube.com/watch?v=Mplodyn0Xjk

6、JetBrains 开源低延迟代码模型 Mellum2（12B MoE架构）

JetBrains 正式开源Mellum2模型，采用12B总参数、2.5B激活参数的MoE混合专家架构，全程基于文本与代码数据训练，专注低延迟文本处理与代码任务，不涉及多模态场景。该模型推理速度较同类模型提升两倍以上，适配提示词分类、工具筛选、上下文压缩、私有化部署等轻量化AI流程场景，基于Apache 2.0协议开源，在同规模开源模型中基准性能具备较强竞争力。

https://huggingface.co/blog/JetBrains/mellum2-launch

https://huggingface.co/collections/JetBrains/mellum-2

7、阿里通义千问推出多模态智能体模型 Qwen3.7-Plus

阿里通义千问发布Qwen3.7-Plus多模态智能体模型，在原有文本与智能体能力基础上，全面升级视觉理解能力，打造一体化通用智能体基座。模型可精准感知真实场景、操控图形与命令行界面、依托视觉信息生成代码，支持在单一智能体循环中融合GUI、CLI交互，完成端到端复杂任务。目前该模型已上线阿里云百炼API平台，同时开放Qwen Studio在线体验入口。

相关链接 ：

https://qwen.ai/blog?id=qwen3.7-plus

https://chat.qwen.ai/?models=qwen3.7-plus

8、H Company 发布 Holo3.1 系列端侧优化模型

H Company 推出基于通义千问架构迭代的Holo3.1模型系列，重点优化跨平台智能体控制能力，大幅提升网页、桌面、移动端等多场景部署稳定性。该系列包含0.8B、4B、9B、35B-A3B四种参数规格，其中35B-A3B版本新增FP8、Q4 GGUF、NVFP4三类量化权重，专门适配终端本地推理，可在消费级硬件上实现完全本地化运行。模型现已同步上线Holo Models API与Hugging Face平台。

https://hcompany.ai/holo-models-api

https://huggingface.co/collections/Hcompany/holo31

9、Ideogram 开源9.3B参数文生图模型Ideogram 4.0

Ideogram 发布首款开源权重文生图基础模型Ideogram 4.0，参数量9.3B，采用全新单流Diffusion Transformer架构，原生支持2048分辨率图像生成。模型新增结构化JSON提示词接口，支持边界框布局控制、十六进制色彩精准调配，多语言文本渲染与创意设计能力达到开源顶尖水平。在Arena.ai文生图榜单中位列第八，为排名最高的开源模型。模型权重以非商用协议开源，同时提供分档位计费的商用API服务。

相关链接 ：

https://ideogram.ai/blog/ideogram-4.0/

https://huggingface.co/ideogram-ai/ideogram-4-nf4

https://github.com/ideogram-oss/ideogram4

10、Reve 发布4K顶级图像模型Reve 2.0，支持精细化图像编辑

AI图像实验室Reve 正式推出Reve 2.0图像生成模型及配套编辑器，官方将其定位为顶级4K图像生成模型。该模型登顶Arena文生图榜单第二位，性能超越Nano Banana 2、GPT-Image-1.5等主流模型。创新搭载"精确布局"与"图像即代码"机制，支持图像分区标记、元素精细化编辑、自定义内容植入，用户可上传参考图辅助创作，目前已全面上线官方平台。

https://reve.com

11、OpenAI 升级生命科学专用模型 GPT-Rosalind

OpenAI 重磅升级企业级生命科学研究模型GPT-Rosalind，全面接入GPT-5.5的智能体代码编写与工具调用能力，深度适配药物研发、基因组分析、实验室调试等科研场景。在多项自建专业基准测试中，该模型性能优于GPT-5.5、Gemini 3.1 Pro、Grok 4.3等通用大模型。同时配套上线生命科学研究、NGS分析两大专用插件，支持Codex平台调用。目前模型面向全球具备合规科研资质的机构开放预览权限，诺和诺德为核心合作企业。

https://openai.com/gpt-rosalind/

https://github.com/openai/plugins/tree/main/plugins/ngs-analysis

12、Nex AGI 开源旗舰模型 Nex-N2-Pro，对标顶级商用模型

Nex AGI 开源旗舰模型Nex-N2-Pro，该模型基于Qwen3.5-397B-A17B优化迭代，搭载专属Agentic Thinking智能推理框架，具备自适应推理能力。官方实测显示，其多项核心基准性能可媲美GPT-5.5、Opus 4.7等行业顶尖商用模型。目前模型权重已同步上线Hugging Face、ModelScope平台，硅基流动平台同步开启限时免费API调用活动。

https://nex-agi.cn/

13、字节跳动开源 Bernini 视频生成编辑统一框架

字节跳动开源Bernini统一视频生成与编辑框架，同步开放推理代码、Bernini-R渲染器权重及配套学术论文。该框架融合MLLM语义规划器与DiT渲染器，一站式支持文生图、文生视频、视频运动修改、参考图编辑、内容插入等全链路创作场景。内部盲测结果显示，其视频编辑能力达到主流闭源商业模型第一梯队。项目基于Apache 2.0协议开源，适配Wan2.2基础组件，在Hopper架构GPU上可实现最优运行效果。

相关链接 ：

https://github.com/bytedance/Bernini

https://bernini-ai.github.io/

https://huggingface.co/ByteDance/Bernini-R

https://arxiv.org/abs/2605.22344

14、Boson AI 发布 Higgs Audio v3 TTS 多语种语音合成模型

Boson AI 推出专为实时语音智能体场景打造的Higgs Audio v3 TTS模型，主打自然对话式语音生成，摆脱传统机械朗读效果。模型支持100余种语言零样本语音克隆，开发者可通过内联标签实时调控语音情绪、语速、停顿及各类音效。经过优化，该模型多语种识别错字率降至个位数，多项评测指标优于多款主流商用、开源TTS模型。目前非商用模型权重与官方API服务已全面开放。

https://huggingface.co/bosonai/higgs-audio-v3-tts-4b

15、Google Magenta 推出低延迟实时音乐生成模型 Magenta RealTime 2

Google Magenta 团队发布实时交互式音乐生成模型Magenta RealTime 2及配套C++推理引擎，提供24亿参数标准版、2.3亿参数轻量版两种规格。模型支持MIDI、音频、文本多模态指令控制，将前代3秒的控制延迟压缩至200毫秒，实现低延迟连续音乐流生成。依托MLX框架优化，模型仅支持Apple Silicon Mac本地运行，标准版需M3 Pro/M2 Max及以上配置，轻量版可适配全系Apple Silicon设备。

https://huggingface.co/google/magenta-realtime-2

https://github.com/magenta/magenta-realtime

16、NVIDIA 开源 Nemotron 3.5 多模态内容安全审核模型

NVIDIA 正式发布Nemotron 3.5内容安全模型及专属多模态安全数据集，模型基于Gemma 3 4B IT架构微调而成，支持单轮推理完成多语种、多模态内容审核，可同步校验用户提示词、生成图像与模型回复内容。新增自定义策略执行、可追溯推理痕迹的THINK模式，适配企业级内容风控场景。全套模型与数据集基于NVIDIA开源协议开放，支持NIM及第三方多平台部署方案。

https://huggingface.co/nvidia/Nemotron-3.5-Content-Safety

17、香港HKGAI V3大模型发布，本地化智能体能力全面升级

香港生成式人工智能研发中心（HKGAI）推出全新迭代的HKGAI V3大模型，相较初代版本，新增完整智能体（Agent）执行能力。模型依托香港本地专属数据训练，精通两文三语，深度适配香港本地语境、文化及各类垂直应用场景，可优化升级"港文通""港话通"等本地AI应用。香港特区政府将筹建AI产业发展策略委员会，完善本地AI生态，HKGAI后续将推出生态合作机制，推动模型产学研落地应用。

18、Google 发布Gemma 4 QAT量化权重，移动端模型压缩至1GB

Google DeepMind 发布Gemma 4全系模型量化感知训练（QAT）权重，通过训练阶段模拟量化压缩，大幅降低模型精度损耗。本次更新包含适配消费级GPU的Q4_0通用格式，以及专为移动端打造的定制量化格式。依托静态激活预处理、通道级量化、2-bit精准压缩、KV缓存优化等技术，Gemma 4 E2B模型内存占用压缩至1GB以内，纯文本部署版本体积更小。模型权重已开源，全面兼容llama.cpp、Ollama、MLX等主流部署工具链。

https://huggingface.co/collections/google/gemma-4-qat-q4-0

19、小红书开源20亿参数端到端TTS模型dots.tts

小红书rednote-hilab团队开源20亿参数端到端自回归TTS模型dots.tts，采用无离散Token全连续架构，依托Qwen2.5-1.5B语义编码器与48kHz AudioVAE声学头构建。模型在多语种基准测试中斩获开源最优成绩，具备极强的声音克隆与情感表达能力。项目基于Apache 2.0协议开源，开放预训练、对齐、蒸馏等多版本权重，配套完整推理微调代码与在线体验Demo，适配多语种语音合成场景。

https://github.com/rednote-hilab/dots.tts

https://huggingface.co/collections/rednote-hilab/dotstts

https://huggingface.co/spaces/rednote-hilab/dots.tts

20、OpenRouter上线Riverflow 2.5自定义图像模型，限时免费开放

OpenRouter 上线Riverflow 2.5图像生成模型，为业内首款支持用户自定义评分标准的AI绘图模型，可通过专属评分规则引导模型创作与精细化编辑。模型提供Fast、Pro双版本，支持四档推理精度调节，平衡生成速度与画质，最高支持4K分辨率输出、10张参考图输入。平台开启限时福利，截至6月9日，所有用户可免费体验该模型全部功能。

21、Miso Labs 开源8B参数情感TTS模型MisoTTS 8B

Miso Labs 发布8B参数语音合成模型MisoTTS 8B，由7.7B主干网络搭配300M解码器组成，采用RVQ Transformer架构，大幅拓展音频语义寻址空间，可生成高情感表现力的对话语音。该模型现阶段仅支持英文合成，权重基于修改版MIT协议开源，所有生成音频默认搭载SilentCipher水印，适配英文场景高质量语音生成需求。

22、Cohere 首发编程专用模型BLS-Mini-Code-1.0早期测试版

Cohere 推出首款编程专用模型BLS-Mini-Code-1.0，开放早期版本供社区测试迭代。模型采用MoE混合专家架构，总参数量30B，单次推理仅激活3B参数，包含128个专家模块、8个激活通道，搭载全局+4096滑动窗口交错注意力机制，最高支持50万上下文长度。目前模型尚未完成正式迭代，基准评测数据、开源协议及部署细则将在正式版发布时同步公示。

23、研究团队推出开源 20B 搜索 Agent Harness-1

UIUC等大学联合团队发布并开源了名为 Harness-1 的 20B 参数搜索 Agent，该模型通过在有状态搜索框架内进行强化学习训练，将检索状态外部化维护。

UIUC等大学联合研究团队在 arXiv 发表论文并开源了名为 Harness-1 的 20B 参数检索子 Agent。

该模型采用了一种"状态外化"的有状态搜索框架。环境侧会负责维护候选池、重要性标签、验证记录和预算感知上下文等可恢复的工作记忆。

而模型策略本身仅专注于"搜索什么、保留什么、何时停止"等语义决策。

官方数据显示，在涵盖网页、金融、专利和多跳问答的 8 个检索基准中，Harness-1 取得了 0.730 的平均精选召回率。

它以 +11.4 个百分点的优势超越次强的开源搜索子 Agent，并与体积更大的前沿模型搜索器保持竞争力。

相关链接 ：

https://huggingface.co/pat-jj/harness-1

https://github.com/pat-jj/harness-1

https://arxiv.org/abs/2606.02373

【AIGC行业前沿】2026年6月AIGC行业前沿模型发布动态（6月1-6月7）

目录

1、MiniMax 上线 M3 旗舰多模态模型，支持百万级超长上下文

2、SpaceXAI 推出视频生成模型 Grok-Imagine-Video-1.5-Preview 并开放API

3、通义千问发布 Qwen-VLA 统一视觉语言动作通用模型

4、MiniMax M3 模型官宣开源计划，10日内开放权重

5、VAST 发布 Project Eden 多人多智能体世界模型预览版

6、JetBrains 开源低延迟代码模型 Mellum2（12B MoE架构）

7、阿里通义千问推出多模态智能体模型 Qwen3.7-Plus

8、H Company 发布 Holo3.1 系列端侧优化模型

9、Ideogram 开源9.3B参数文生图模型Ideogram 4.0

10、Reve 发布4K顶级图像模型Reve 2.0，支持精细化图像编辑

11、OpenAI 升级生命科学专用模型 GPT-Rosalind

12、Nex AGI 开源旗舰模型 Nex-N2-Pro，对标顶级商用模型

13、字节跳动开源 Bernini 视频生成编辑统一框架

14、Boson AI 发布 Higgs Audio v3 TTS 多语种语音合成模型

15、Google Magenta 推出低延迟实时音乐生成模型 Magenta RealTime 2

16、NVIDIA 开源 Nemotron 3.5 多模态内容安全审核模型

17、香港HKGAI V3大模型发布，本地化智能体能力全面升级

18、Google 发布Gemma 4 QAT量化权重，移动端模型压缩至1GB

19、小红书开源20亿参数端到端TTS模型dots.tts

20、OpenRouter上线Riverflow 2.5自定义图像模型，限时免费开放

21、Miso Labs 开源8B参数情感TTS模型MisoTTS 8B

22、Cohere 首发编程专用模型BLS-Mini-Code-1.0早期测试版

23、研究团队推出开源 20B 搜索 Agent Harness-1