目录
1、MiniMax 上线 M3 旗舰多模态模型,支持百万级超长上下文
2、SpaceXAI 推出视频生成模型 Grok-Imagine-Video-1.5-Preview 并开放API
3、通义千问发布 Qwen-VLA 统一视觉语言动作通用模型
4、MiniMax M3 模型官宣开源计划,10日内开放权重
5、VAST 发布 Project Eden 多人多智能体世界模型预览版
6、JetBrains 开源低延迟代码模型 Mellum2(12B MoE架构)
7、阿里通义千问推出多模态智能体模型 Qwen3.7-Plus
8、H Company 发布 Holo3.1 系列端侧优化模型
9、Ideogram 开源9.3B参数文生图模型Ideogram 4.0
10、Reve 发布4K顶级图像模型Reve 2.0,支持精细化图像编辑
11、OpenAI 升级生命科学专用模型 GPT-Rosalind
12、Nex AGI 开源旗舰模型 Nex-N2-Pro,对标顶级商用模型
13、字节跳动开源 Bernini 视频生成编辑统一框架
14、Boson AI 发布 Higgs Audio v3 TTS 多语种语音合成模型
15、Google Magenta 推出低延迟实时音乐生成模型 Magenta RealTime 2
16、NVIDIA 开源 Nemotron 3.5 多模态内容安全审核模型
17、香港HKGAI V3大模型发布,本地化智能体能力全面升级
18、Google 发布Gemma 4 QAT量化权重,移动端模型压缩至1GB
19、小红书开源20亿参数端到端TTS模型dots.tts
20、OpenRouter上线Riverflow 2.5自定义图像模型,限时免费开放
21、Miso Labs 开源8B参数情感TTS模型MisoTTS 8B
22、Cohere 首发编程专用模型BLS-Mini-Code-1.0早期测试版
23、高校团队开源20B高性能搜索智能体Harness-1
1、MiniMax 上线 M3 旗舰多模态模型,支持百万级超长上下文
MiniMax 正式推出新一代旗舰模型 MiniMax M3,主打原生多模态能力与100万token超长上下文窗口,针对性优化智能体推理、工具调用、代码开发及长文档处理等复杂场景。目前该模型已全面开放API、Token Plan订阅服务,同时在OpenCode平台开启限时免费体验活动。计费层面,512k tokens以内输入可享7天五折优惠,折后输入、输出单价分别为每百万token2.10元、8.40元;超512k的超长文本功能现阶段限时限量开放,需对接销售开通,预计短期内全量上线。
相关链接 :
https://www.minimaxi.com/blog/minimax-m3
https://platform.minimaxi.com/docs
https://platform.minimaxi.com/subscribe/token-plan
https://github.com/MiniMax-AI/MiniMax-M2.7/issues
https://platform.minimaxi.com/docs/api-reference
2、SpaceXAI 推出视频生成模型 Grok-Imagine-Video-1.5-Preview 并开放API
SpaceXAI 全新视频生成模型 Grok-Imagine-Video-1.5-Preview 正式上线开发者API,支持文本、图像双输入生成短视频。模型提供480p、720p两种分辨率生成选项,按视频时长计费,单价分别为每秒0.08美元、0.14美元。据Arena.ai平台评测数据,该模型720p版本登顶图像转视频榜单,相较前代同分辨率模型评分提升52分,综合性能超越Seedance-2.0等主流视频生成模型。
相关链接 :
https://docs.x.ai/developers/models/grok-imagine-video-1.5-preview
https://x.com/arena/status/2060874057130934376
3、通义千问发布 Qwen-VLA 统一视觉语言动作通用模型
通义千问团队发布Qwen-VLA视觉-语言-动作一体化通用模型,基于Qwen3.5-4B骨干网络搭配1.15B DiT动作解码器构建,可统一实现机器人操作、视觉导航、轨迹预测三类核心任务。模型采用四阶段渐进式训练方案,搭载形态感知提示词机制,无需专属输出头即可适配多类机器人平台。实测结果显示,Qwen-VLA-Instruct在LIBERO、Simpler-WidowX、真实ALOHA双臂机器人等多项评测中,性能持平或优于各类专项微调专家模型。
相关链接 :
https://qwen.ai/blog?id=qwenvla
https://github.com/QwenLM/Qwen-VLA
4、MiniMax M3 模型官宣开源计划,10日内开放权重
MiniMax M3旗舰多模态模型正式官宣开源规划,该模型搭载全新MSA稀疏注意力架构,百万级超长上下文、代码生成、智能体交互能力行业领先,支持图片、视频输入及电脑桌面自动化操作,在SWE-Bench Pro、SVG-Bench、Claw-Eval等权威基准测试中表现突出。目前模型API、MiniMax Code智能体产品、Token Plan订阅服务均已上线,官方承诺将在10天内发布完整技术报告并开源模型权重。
相关链接 :
https://www.minimaxi.com/blog/minimax-m3
5、VAST 发布 Project Eden 多人多智能体世界模型预览版
VAST AI Research 推出Project Eden世界模型研究预览版,是业内首个聚焦AI原生多人、多智能体同步交互的世界模型。该模型创新式实现底层世界状态与视觉渲染解耦,构建出可持久运行、可编辑、支持多视角观测的结构化动态环境。依托三层架构与结构视觉对齐数据范式,模型具备环境状态持久化、物理动态响应、内容复用编辑、多智能体同屏交互等核心能力,现阶段仅为研究预览版本,后续将持续优化状态转换模型等核心模块。
相关链接 :
https://www.tripo3d.ai/research/project-eden
https://www.youtube.com/watch?v=Mplodyn0Xjk
6、JetBrains 开源低延迟代码模型 Mellum2(12B MoE架构)
JetBrains 正式开源Mellum2模型,采用12B总参数、2.5B激活参数的MoE混合专家架构,全程基于文本与代码数据训练,专注低延迟文本处理与代码任务,不涉及多模态场景。该模型推理速度较同类模型提升两倍以上,适配提示词分类、工具筛选、上下文压缩、私有化部署等轻量化AI流程场景,基于Apache 2.0协议开源,在同规模开源模型中基准性能具备较强竞争力。
相关链接 :
https://blog.jetbrains.com/ai/2026/06/mellum2-goes-open-source-a-fast-model-for-ai-workflows/
https://huggingface.co/blog/JetBrains/mellum2-launch
https://huggingface.co/collections/JetBrains/mellum-2
7、阿里通义千问推出多模态智能体模型 Qwen3.7-Plus
阿里通义千问发布Qwen3.7-Plus多模态智能体模型,在原有文本与智能体能力基础上,全面升级视觉理解能力,打造一体化通用智能体基座。模型可精准感知真实场景、操控图形与命令行界面、依托视觉信息生成代码,支持在单一智能体循环中融合GUI、CLI交互,完成端到端复杂任务。目前该模型已上线阿里云百炼API平台,同时开放Qwen Studio在线体验入口。
相关链接 :
https://qwen.ai/blog?id=qwen3.7-plus
https://chat.qwen.ai/?models=qwen3.7-plus
8、H Company 发布 Holo3.1 系列端侧优化模型
H Company 推出基于通义千问架构迭代的Holo3.1模型系列,重点优化跨平台智能体控制能力,大幅提升网页、桌面、移动端等多场景部署稳定性。该系列包含0.8B、4B、9B、35B-A3B四种参数规格,其中35B-A3B版本新增FP8、Q4 GGUF、NVFP4三类量化权重,专门适配终端本地推理,可在消费级硬件上实现完全本地化运行。模型现已同步上线Holo Models API与Hugging Face平台。
相关链接 :
https://huggingface.co/blog/Hcompany/holo31
https://hcompany.ai/holo-models-api
https://huggingface.co/collections/Hcompany/holo31
9、Ideogram 开源9.3B参数文生图模型Ideogram 4.0
Ideogram 发布首款开源权重文生图基础模型Ideogram 4.0,参数量9.3B,采用全新单流Diffusion Transformer架构,原生支持2048分辨率图像生成。模型新增结构化JSON提示词接口,支持边界框布局控制、十六进制色彩精准调配,多语言文本渲染与创意设计能力达到开源顶尖水平。在Arena.ai文生图榜单中位列第八,为排名最高的开源模型。模型权重以非商用协议开源,同时提供分档位计费的商用API服务。
相关链接 :
https://ideogram.ai/blog/ideogram-4.0/
https://huggingface.co/ideogram-ai/ideogram-4-nf4
https://github.com/ideogram-oss/ideogram4
10、Reve 发布4K顶级图像模型Reve 2.0,支持精细化图像编辑
AI图像实验室Reve 正式推出Reve 2.0图像生成模型及配套编辑器,官方将其定位为顶级4K图像生成模型。该模型登顶Arena文生图榜单第二位,性能超越Nano Banana 2、GPT-Image-1.5等主流模型。创新搭载"精确布局"与"图像即代码"机制,支持图像分区标记、元素精细化编辑、自定义内容植入,用户可上传参考图辅助创作,目前已全面上线官方平台。
相关链接 :
https://x.com/reve/status/2062260665121919101
11、OpenAI 升级生命科学专用模型 GPT-Rosalind
OpenAI 重磅升级企业级生命科学研究模型GPT-Rosalind,全面接入GPT-5.5的智能体代码编写与工具调用能力,深度适配药物研发、基因组分析、实验室调试等科研场景。在多项自建专业基准测试中,该模型性能优于GPT-5.5、Gemini 3.1 Pro、Grok 4.3等通用大模型。同时配套上线生命科学研究、NGS分析两大专用插件,支持Codex平台调用。目前模型面向全球具备合规科研资质的机构开放预览权限,诺和诺德为核心合作企业。
相关链接 :
https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind/
https://openai.com/gpt-rosalind/
https://github.com/openai/plugins/tree/main/plugins/ngs-analysis
12、Nex AGI 开源旗舰模型 Nex-N2-Pro,对标顶级商用模型
Nex AGI 开源旗舰模型Nex-N2-Pro,该模型基于Qwen3.5-397B-A17B优化迭代,搭载专属Agentic Thinking智能推理框架,具备自适应推理能力。官方实测显示,其多项核心基准性能可媲美GPT-5.5、Opus 4.7等行业顶尖商用模型。目前模型权重已同步上线Hugging Face、ModelScope平台,硅基流动平台同步开启限时免费API调用活动。
相关链接 :
https://huggingface.co/nex-agi/Nex-N2-Pro
13、字节跳动开源 Bernini 视频生成编辑统一框架
字节跳动开源Bernini统一视频生成与编辑框架,同步开放推理代码、Bernini-R渲染器权重及配套学术论文。该框架融合MLLM语义规划器与DiT渲染器,一站式支持文生图、文生视频、视频运动修改、参考图编辑、内容插入等全链路创作场景。内部盲测结果显示,其视频编辑能力达到主流闭源商业模型第一梯队。项目基于Apache 2.0协议开源,适配Wan2.2基础组件,在Hopper架构GPU上可实现最优运行效果。
相关链接 :
https://github.com/bytedance/Bernini
https://huggingface.co/ByteDance/Bernini-R
https://arxiv.org/abs/2605.22344
14、Boson AI 发布 Higgs Audio v3 TTS 多语种语音合成模型
Boson AI 推出专为实时语音智能体场景打造的Higgs Audio v3 TTS模型,主打自然对话式语音生成,摆脱传统机械朗读效果。模型支持100余种语言零样本语音克隆,开发者可通过内联标签实时调控语音情绪、语速、停顿及各类音效。经过优化,该模型多语种识别错字率降至个位数,多项评测指标优于多款主流商用、开源TTS模型。目前非商用模型权重与官方API服务已全面开放。
相关链接 :
https://www.boson.ai/blog/higgs-audio-v3-tts
https://huggingface.co/bosonai/higgs-audio-v3-tts-4b
15、Google Magenta 推出低延迟实时音乐生成模型 Magenta RealTime 2
Google Magenta 团队发布实时交互式音乐生成模型Magenta RealTime 2及配套C++推理引擎,提供24亿参数标准版、2.3亿参数轻量版两种规格。模型支持MIDI、音频、文本多模态指令控制,将前代3秒的控制延迟压缩至200毫秒,实现低延迟连续音乐流生成。依托MLX框架优化,模型仅支持Apple Silicon Mac本地运行,标准版需M3 Pro/M2 Max及以上配置,轻量版可适配全系Apple Silicon设备。
相关链接 :
https://magenta.withgoogle.com/magenta-realtime-2
https://huggingface.co/google/magenta-realtime-2
https://github.com/magenta/magenta-realtime
16、NVIDIA 开源 Nemotron 3.5 多模态内容安全审核模型
NVIDIA 正式发布Nemotron 3.5内容安全模型及专属多模态安全数据集,模型基于Gemma 3 4B IT架构微调而成,支持单轮推理完成多语种、多模态内容审核,可同步校验用户提示词、生成图像与模型回复内容。新增自定义策略执行、可追溯推理痕迹的THINK模式,适配企业级内容风控场景。全套模型与数据集基于NVIDIA开源协议开放,支持NIM及第三方多平台部署方案。
相关链接 :
https://huggingface.co/blog/nvidia/nemotron-3-5-content-safety
https://huggingface.co/nvidia/Nemotron-3.5-Content-Safety
17、香港HKGAI V3大模型发布,本地化智能体能力全面升级
香港生成式人工智能研发中心(HKGAI)推出全新迭代的HKGAI V3大模型,相较初代版本,新增完整智能体(Agent)执行能力。模型依托香港本地专属数据训练,精通两文三语,深度适配香港本地语境、文化及各类垂直应用场景,可优化升级"港文通""港话通"等本地AI应用。香港特区政府将筹建AI产业发展策略委员会,完善本地AI生态,HKGAI后续将推出生态合作机制,推动模型产学研落地应用。
相关链接 :
https://www.info.gov.hk/gia/general/202606/03/P2026060300659.htm
18、Google 发布Gemma 4 QAT量化权重,移动端模型压缩至1GB
Google DeepMind 发布Gemma 4全系模型量化感知训练(QAT)权重,通过训练阶段模拟量化压缩,大幅降低模型精度损耗。本次更新包含适配消费级GPU的Q4_0通用格式,以及专为移动端打造的定制量化格式。依托静态激活预处理、通道级量化、2-bit精准压缩、KV缓存优化等技术,Gemma 4 E2B模型内存占用压缩至1GB以内,纯文本部署版本体积更小。模型权重已开源,全面兼容llama.cpp、Ollama、MLX等主流部署工具链。
相关链接 :
https://huggingface.co/collections/google/gemma-4-qat-q4-0
19、小红书开源20亿参数端到端TTS模型dots.tts
小红书rednote-hilab团队开源20亿参数端到端自回归TTS模型dots.tts,采用无离散Token全连续架构,依托Qwen2.5-1.5B语义编码器与48kHz AudioVAE声学头构建。模型在多语种基准测试中斩获开源最优成绩,具备极强的声音克隆与情感表达能力。项目基于Apache 2.0协议开源,开放预训练、对齐、蒸馏等多版本权重,配套完整推理微调代码与在线体验Demo,适配多语种语音合成场景。
相关链接 :
https://rednote-hilab.github.io/dots.tts-demo/
https://github.com/rednote-hilab/dots.tts
https://huggingface.co/collections/rednote-hilab/dotstts
https://huggingface.co/spaces/rednote-hilab/dots.tts
20、OpenRouter上线Riverflow 2.5自定义图像模型,限时免费开放
OpenRouter 上线Riverflow 2.5图像生成模型,为业内首款支持用户自定义评分标准的AI绘图模型,可通过专属评分规则引导模型创作与精细化编辑。模型提供Fast、Pro双版本,支持四档推理精度调节,平衡生成速度与画质,最高支持4K分辨率输出、10张参考图输入。平台开启限时福利,截至6月9日,所有用户可免费体验该模型全部功能。
相关链接 :
https://x.com/OpenRouter/status/2062951474406240687
21、Miso Labs 开源8B参数情感TTS模型MisoTTS 8B
Miso Labs 发布8B参数语音合成模型MisoTTS 8B,由7.7B主干网络搭配300M解码器组成,采用RVQ Transformer架构,大幅拓展音频语义寻址空间,可生成高情感表现力的对话语音。该模型现阶段仅支持英文合成,权重基于修改版MIT协议开源,所有生成音频默认搭载SilentCipher水印,适配英文场景高质量语音生成需求。
22、Cohere 首发编程专用模型BLS-Mini-Code-1.0早期测试版
Cohere 推出首款编程专用模型BLS-Mini-Code-1.0,开放早期版本供社区测试迭代。模型采用MoE混合专家架构,总参数量30B,单次推理仅激活3B参数,包含128个专家模块、8个激活通道,搭载全局+4096滑动窗口交错注意力机制,最高支持50万上下文长度。目前模型尚未完成正式迭代,基准评测数据、开源协议及部署细则将在正式版发布时同步公示。
23、研究团队推出开源 20B 搜索 Agent Harness-1
UIUC等大学联合团队发布并开源了名为 Harness-1 的 20B 参数搜索 Agent,该模型通过在有状态搜索框架内进行强化学习训练,将检索状态外部化维护。
UIUC等大学联合研究团队在 arXiv 发表论文并开源了名为 Harness-1 的 20B 参数检索子 Agent。
该模型采用了一种"状态外化"的有状态搜索框架。环境侧会负责维护候选池、重要性标签、验证记录和预算感知上下文等可恢复的工作记忆。
而模型策略本身仅专注于"搜索什么、保留什么、何时停止"等语义决策。
官方数据显示,在涵盖网页、金融、专利和多跳问答的 8 个检索基准中,Harness-1 取得了 0.730 的平均精选召回率。
它以 +11.4 个百分点的优势超越次强的开源搜索子 Agent,并与体积更大的前沿模型搜索器保持竞争力。
相关链接 :
https://huggingface.co/pat-jj/harness-1