【AIGC行业前沿】2026年5月AIGC行业前沿模型发布动态（5月25-5月31）

1、SpaceXAI 完成 Grok V9-Medium 模型训练并公布开源规划

SpaceXAI创始人埃隆·马斯克官宣，参数量1.5T的Grok基础模型V9-Medium已完成完整训练，目前进入微调阶段，短期内将启动强化学习优化流程，预计2-3周内正式对外发布。同时他透露，团队计划在2026年底开源0.5T参数版本的Grok模型。

据悉，Grok V9-Medium训练阶段融入大量Cursor数据，官方内部评测效果优异。相较于当前承载全线Grok生产业务的0.5T v8-Small模型，新版本实现全方位升级，在复杂编程任务处理能力上提升尤为显著，将大幅强化模型的代码生成、调试与复杂场景开发能力。

https://x.com/elonmusk/status/2058796067592736866

2、OpenBMB 推出开源小模型 MiniCPM5-1B，登顶2B以下模型榜单

OpenBMB团队正式开源MiniCPM5系列首款模型MiniCPM5-1B，同步开放模型权重、完整训练数据集及部署代码，为轻量化AI落地提供全新方案。该模型参数量为10.8亿，凭借优异综合性能拿下Artificial Analysis小模型榜单第一名，成为当前2B参数以下综合实力最强的开源基础模型。

模型搭载创新混合推理架构，经INT4量化后体积仅0.5GB，适配手机、浏览器、CPU设备等各类轻量化终端的本地部署场景。其训练依托AI自研的ForgeTrain框架完成，后训练阶段融合强化学习（RL）与在线策略蒸馏（OPD）技术，大幅优化了小模型的推理精度与泛化能力，兼顾部署便捷性与实战性能。

3、快手Kwai-Keye开源Keye-VL-2.0-30B-A3B超长视频理解多模态模型

快手Kwai-Keye团队开源300亿参数旗舰级多模态基础模型Keye-VL-2.0-30B-A3B，模型权重与代码已在Hugging Face、GitHub平台全面公开。该模型是业内首个落地生产场景的DSA（DeepSeek稀疏注意力）架构视觉语言模型，核心优势集中在超长视频理解领域。

依托DSA架构，模型可在保障计算高效性的前提下，精准解析时长1小时的长视频内容，同时支持256K超长上下文近乎无损推理。实测数据显示，其长视频理解、精细时序感知能力对标同级最优模型，部分指标可媲美Gemini 3 Flash等顶尖闭源模型。此外，作为Keye系列首款面向智能体应用的基础模型，其原生搭载系统级编排机制，可直接适配搜索、工具调用、代码生成等主流AI应用场景。

https://github.com/Kwai-Keye/Keye

4、PrismML 发布轻量化图像生成模型Bonsai Image 4B，适配本地终端设备

PrismML推出专为终端本地推理打造的Bonsai Image 4B图像生成模型系列，包含1-bit极简压缩版与Ternary高精度版两个版本，彻底解决高端图像模型终端部署门槛高的难题。

该模型基于FLUX.2 Klein 4B架构优化重构，通过二进制、三进制权重压缩技术大幅缩减模型体积：1-bit版本扩散Transformer体积仅0.93GB，压缩倍率达8.3倍，保留原模型88%的性能；Ternary版本体积1.21GB，压缩倍率6.4倍，性能留存率高达95%。两款模型均支持iPhone、iPad、Mac、CUDA显卡等设备本地运行，512×512分辨率图像在iPhone 17 Pro Max生成耗时仅9.4秒，Mac M4 Pro设备运行速度较原版模型提升5.6倍。目前模型基于Apache 2.0协议开源，配套专属iOS应用Bonsai Studio同步上线。

https://huggingface.co/collections/prism-ml/bonsai-image

https://github.com/PrismML-Eng/Bonsai-Image-Demo

5、微软推出MAI-Image-2.5文生图模型，登顶行业榜单前三

微软全新迭代图像生成模型MAI-Image-2.5正式发布，凭借突出的综合能力跻身Arena文生图排行榜第三名。相较于前代MAI-Image-2，新版本在文本渲染精度、视觉推理能力上实现突破性升级，同时优化了风格化插画、商业级图像的生成效果。

该模型可适配多元化创作风格，精准匹配用户指令需求，对物体结构、场景布局、空间关系的刻画更为精准细腻。目前模型已开放公众体验入口，现阶段仅支持Arena平台使用，官方规划未来两周内将陆续上线MAI Playground与Foundry平台，进一步降低用户使用门槛。

6、OpenMOSS 发布语音与音效双模型，升级多语种合成与高保真音效生成能力

OpenMOSS团队连发两款音频领域AI模型，分别为升级版语音合成模型MOSS-TTS-v1.5与全新音效生成模型MOSS-SoundEffect-v2.0，两款模型均已开源并开放推理代码。

MOSS-TTS-v1.5保留零样本语音克隆核心能力，将支持语种拓展至31种，优化了长参考音频匹配短文本的克隆效果，升级标点韵律适配、内联停顿标记控制功能，多语种合成音质显著提升。全新的MOSS-SoundEffect-v2.0参数量达13亿，采用DiT架构与Flow Matching优化目标，可依据中英文文本，生成最长30秒、48kHz无损高保真音效，广泛适配各类音频创作场景。

https://huggingface.co/OpenMOSS-Team/MOSS-SoundEffect-v2.0

7、NVIDIA开源PiD像素扩散解码器，实现高清图像极速解码超分

NVIDIA推出全新像素扩散解码器PiD（Pixel Diffusion Decoder），创新式将潜空间解码、图像超分两大流程整合为单一条件像素扩散模型，颠覆传统"先解码、后超分"的级联模式。

该模型直接在高分辨率像素空间完成去噪处理，搭配DMD2蒸馏技术将推理步骤精简至4步，大幅提升高清图像生成效率。实测数据显示，可将512分辨率潜变量快速解码为2048超高清图像，RTX 5090设备耗时不足1秒，GB200高端显卡仅需210毫秒，速度较传统级联超分方案提升5.9倍，同时图像细节、视觉保真度更优。PiD兼容Flux、SD3等主流图像模型架构，相关权重已开放下载，仅限非商业科研与评估场景使用。

8、腾讯Hy-MT2模型更新开源协议，全面开放商用权限

腾讯正式官宣，旗下Hy-MT2模型开源协议更新为Apache License 2.0，彻底解除商用、微调、二次开发的权限限制。

新协议支持开发者与企业无门槛将模型应用于学术研究、商业落地、模型微调、衍生品开发等各类场景，无额外授权成本与使用约束。据Hugging Face平台数据显示，Hy-MT2的两个版本长期稳居平台趋势榜单，分别位列第一名与第四名，具备极高的行业实用性与认可度。

9、Biohub开源蛋白质生物学世界模型套件，突破蛋白结构预测技术壁垒

Biohub发布新一代蛋白质生物学"世界模型"系统，全套工具包含蛋白质语言模型ESMC、高精度结构预测模型ESMFold2，以及涵盖68亿条序列的ESM Atlas数据集，所有模型、数据、论文均基于MIT协议开源，支持商业与非商业全场景使用。

核心模型ESMFold2在抗体-抗原等复杂蛋白质结构预测任务中达到业界最优水平，无需针对特定靶点微调，即可通过计算设计出适配5类肿瘤、免疫学靶点的高亲和力微型蛋白结合物与单链抗体，为生物医药研发、蛋白质工程领域提供了强大的AI工具支撑。

相关链接 ：

https://biohub.ai/esm/protein/about

https://biohub.ai/papers/esm_protein.pdf

10、百度飞桨升级PaddleOCR-VL 1.6，刷新文档解析行业SOTA成绩

百度飞桨PaddlePaddle团队推出文档解析模型PaddleOCR-VL 1.6，在OmniDocBench v1.6基准测试中斩获96.33%的高分，刷新开源与闭源方案的最优记录。

新版本新增区域感知数据优化框架与渐进式后训练方案，针对性提升表格、中文古籍、生僻字、印章等复杂场景的识别准确率，全面优化文本、公式、表格的一体化解析能力。模型架构完全兼容前代1.5版本，支持零成本即插即用迁移，无需改动原有部署方案，目前已通过Hugging Face正式开源。

https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

11、商汤科技开源信息图生成模型，强化高密度图文渲染能力

商汤科技开源升级版信息图生成模型SenseNova-U1-8B-MoT-Infographic，聚焦高密度视觉信息生成场景，全面优化图文生成精度与排版效果。

该模型大幅提升了文字识别准确率、页面排版稳定性、图表生成质量，可适配100余种风格与布局的复杂图文内容创作，在学术页面、数据图表、信息海报等场景表现优异。经BizGenEval、IGenBench等权威基准测试验证，其综合性能达到当前开源模型顶尖水平，为自动化信息图创作提供了高效解决方案。

12、Liquid AI发布端侧MoE模型LFM2.5-8B-A1B，兼顾轻量化与高性能

Liquid AI推出专为终端设备优化的混合专家模型LFM2.5-8B-A1B，适配手机、笔记本、PC、智能机器人等各类硬件终端。模型总参数量8B，活跃参数量仅1.5B，支持128K超长上下文窗口，依托38T海量tokens数据训练而成。

官方实测显示，该模型可在单设备上完成完整智能体循环，工具调用响应速度更快，综合性能可媲美参数量高出4倍的同类MoE模型。模型采用LFM2开放权重协议开源，上线即实现AMD、Intel、Apple等主流硬件平台的全适配推理，全面满足端侧轻量化、高性能AI应用需求。

13、Bagel Labs推出首款去中心化视频生成模型Paris 2.0

Bagel Labs发布业界首款去中心化训练的视频扩散模型Paris 2.0，攻克了异构分布式GPU集群下的高质量视频生成训练难题。

模型由3个11B参数的Flux MM-DiT专家模型组成，训练阶段各专家独立处理数据切片，无需梯度与参数交互，仅在推理阶段通过轻量级路由器完成智能调度。在同等算力投入条件下，Paris 2.0的FVD指标降至279.01，较传统单体模型性能翻倍，同时文本视频匹配度、画面美学评分同步提升。目前模型权重已在Hugging Face开放，仅限科研评估场景使用。

https://arxiv.org/abs/2605.26064

14、ElevenLabs升级Dubbing v2配音模型，支持多语种情感化精准配音

ElevenLabs上线全新Dubbing v2 AI配音模型，革新音频翻译配音技术，直接基于原始音频特征做端到端转换，可在90余种语言及口音转换中，完整保留原声的情感、语气、节奏与声纹特征。

模型内置同步感知智能算法，可精准匹配视频画面与配音音频，实现声画同步对齐。目前该功能已落地ElevenCreative、ElevenProductions两大平台，官方推出限时福利，7天内为不同订阅等级用户提供1-30分钟免费配音额度，大幅降低多语种视频本地化创作门槛。

相关链接 ：

https://elevenlabs.io/dubbing-studio

15、ElevenLabs上线Music v2音乐生成模型，实现全流派无缝创作

ElevenLabs发布全面升级的Music v2 AI音乐生成模型，大幅提升人声演唱、乐器演奏、编曲混音的整体质量，适配全音乐流派创作。

新版本支持同一曲目实现歌剧、重金属、快节奏说唱等多种风格无缝切换，可自由嵌入各类音效且保持乐曲整体连贯性。新增局部重绘功能，支持用户单独改写歌曲前奏、副歌、桥段等任意片段，不影响整体编曲结构。同时模型多语言歌词生成、编曲适配能力全面优化，官方同步下调API与自助服务定价，所有生成音频均支持无版权商用，现已全面上线ElevenMusic、ElevenCreative平台。

16、Google Nano Banana系列图像模型转正GA，开放生产级API调用

Google正式将Nano Banana Pro、Nano Banana 2两款图像生成模型升级为GA正式版本，开发者可通过Gemini API直接接入生产环境使用。

其中Nano Banana 2对应Gemini 3.1 Flash Image，支持视频输入解析，可结合视频上下文生成图片、缩略图、信息图，单张生成图片定价0.045美元；Nano Banana Pro对应Gemini 3 Pro Image，单张图片定价0.134美元。两款模型均完成生产级稳定性验证，可满足企业规模化、常态化图像生成需求。

【AIGC行业前沿】2026年5月AIGC行业前沿模型发布动态（5月25-5月31）

目录

1、SpaceXAI 完成 Grok V9-Medium 模型训练并公布开源规划

2、OpenBMB 推出开源小模型 MiniCPM5-1B，登顶2B以下模型榜单

3、快手Kwai-Keye开源Keye-VL-2.0-30B-A3B超长视频理解多模态模型

4、PrismML 发布轻量化图像生成模型Bonsai Image 4B，适配本地终端设备

5、微软推出MAI-Image-2.5文生图模型，登顶行业榜单前三

6、OpenMOSS 发布语音与音效双模型，升级多语种合成与高保真音效生成能力

7、NVIDIA开源PiD像素扩散解码器，实现高清图像极速解码超分

8、腾讯Hy-MT2模型更新开源协议，全面开放商用权限

9、Biohub开源蛋白质生物学世界模型套件，突破蛋白结构预测技术壁垒

10、百度飞桨升级PaddleOCR-VL 1.6，刷新文档解析行业SOTA成绩

11、商汤科技开源信息图生成模型，强化高密度图文渲染能力

12、Liquid AI发布端侧MoE模型LFM2.5-8B-A1B，兼顾轻量化与高性能

13、Bagel Labs推出首款去中心化视频生成模型Paris 2.0

14、ElevenLabs升级Dubbing v2配音模型，支持多语种情感化精准配音

15、ElevenLabs上线Music v2音乐生成模型，实现全流派无缝创作

16、Google Nano Banana系列图像模型转正GA，开放生产级API调用