目录
1、SpaceXAI 完成 Grok V9-Medium 模型训练并公布开源规划
2、OpenBMB 推出开源小模型 MiniCPM5-1B,登顶2B以下模型榜单
3、快手Kwai-Keye开源Keye-VL-2.0-30B-A3B超长视频理解多模态模型
4、PrismML 发布轻量化图像生成模型Bonsai Image 4B,适配本地终端设备
5、微软推出MAI-Image-2.5文生图模型,登顶行业榜单前三
6、OpenMOSS 发布语音与音效双模型,升级多语种合成与高保真音效生成能力
7、NVIDIA开源PiD像素扩散解码器,实现高清图像极速解码超分
8、腾讯Hy-MT2模型更新开源协议,全面开放商用权限
9、Biohub开源蛋白质生物学世界模型套件,突破蛋白结构预测技术壁垒
10、百度飞桨升级PaddleOCR-VL 1.6,刷新文档解析行业SOTA成绩
11、商汤科技开源信息图生成模型,强化高密度图文渲染能力
12、Liquid AI发布端侧MoE模型LFM2.5-8B-A1B,兼顾轻量化与高性能
13、Bagel Labs推出首款去中心化视频生成模型Paris 2.0
14、ElevenLabs升级Dubbing v2配音模型,支持多语种情感化精准配音
15、ElevenLabs上线Music v2音乐生成模型,实现全流派无缝创作
16、Google Nano Banana系列图像模型转正GA,开放生产级API调用
1、SpaceXAI 完成 Grok V9-Medium 模型训练并公布开源规划
SpaceXAI创始人埃隆·马斯克官宣,参数量1.5T的Grok基础模型V9-Medium已完成完整训练,目前进入微调阶段,短期内将启动强化学习优化流程,预计2-3周内正式对外发布。同时他透露,团队计划在2026年底开源0.5T参数版本的Grok模型。
据悉,Grok V9-Medium训练阶段融入大量Cursor数据,官方内部评测效果优异。相较于当前承载全线Grok生产业务的0.5T v8-Small模型,新版本实现全方位升级,在复杂编程任务处理能力上提升尤为显著,将大幅强化模型的代码生成、调试与复杂场景开发能力。
相关链接 :
https://x.com/elonmusk/status/2058787384364265734
https://x.com/elonmusk/status/2058796067592736866
2、OpenBMB 推出开源小模型 MiniCPM5-1B,登顶2B以下模型榜单
OpenBMB团队正式开源MiniCPM5系列首款模型MiniCPM5-1B,同步开放模型权重、完整训练数据集及部署代码,为轻量化AI落地提供全新方案。该模型参数量为10.8亿,凭借优异综合性能拿下Artificial Analysis小模型榜单第一名,成为当前2B参数以下综合实力最强的开源基础模型。
模型搭载创新混合推理架构,经INT4量化后体积仅0.5GB,适配手机、浏览器、CPU设备等各类轻量化终端的本地部署场景。其训练依托AI自研的ForgeTrain框架完成,后训练阶段融合强化学习(RL)与在线策略蒸馏(OPD)技术,大幅优化了小模型的推理精度与泛化能力,兼顾部署便捷性与实战性能。
相关链接 :
https://huggingface.co/openbmb/MiniCPM5-1B
3、快手Kwai-Keye开源Keye-VL-2.0-30B-A3B超长视频理解多模态模型
快手Kwai-Keye团队开源300亿参数旗舰级多模态基础模型Keye-VL-2.0-30B-A3B,模型权重与代码已在Hugging Face、GitHub平台全面公开。该模型是业内首个落地生产场景的DSA(DeepSeek稀疏注意力)架构视觉语言模型,核心优势集中在超长视频理解领域。
依托DSA架构,模型可在保障计算高效性的前提下,精准解析时长1小时的长视频内容,同时支持256K超长上下文近乎无损推理。实测数据显示,其长视频理解、精细时序感知能力对标同级最优模型,部分指标可媲美Gemini 3 Flash等顶尖闭源模型。此外,作为Keye系列首款面向智能体应用的基础模型,其原生搭载系统级编排机制,可直接适配搜索、工具调用、代码生成等主流AI应用场景。
相关链接 :
https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B
https://github.com/Kwai-Keye/Keye
4、PrismML 发布轻量化图像生成模型Bonsai Image 4B,适配本地终端设备
PrismML推出专为终端本地推理打造的Bonsai Image 4B图像生成模型系列,包含1-bit极简压缩版与Ternary高精度版两个版本,彻底解决高端图像模型终端部署门槛高的难题。
该模型基于FLUX.2 Klein 4B架构优化重构,通过二进制、三进制权重压缩技术大幅缩减模型体积:1-bit版本扩散Transformer体积仅0.93GB,压缩倍率达8.3倍,保留原模型88%的性能;Ternary版本体积1.21GB,压缩倍率6.4倍,性能留存率高达95%。两款模型均支持iPhone、iPad、Mac、CUDA显卡等设备本地运行,512×512分辨率图像在iPhone 17 Pro Max生成耗时仅9.4秒,Mac M4 Pro设备运行速度较原版模型提升5.6倍。目前模型基于Apache 2.0协议开源,配套专属iOS应用Bonsai Studio同步上线。
相关链接 :
https://prismml.com/news/bonsai-image-4b
https://huggingface.co/collections/prism-ml/bonsai-image
https://github.com/PrismML-Eng/Bonsai-Image-Demo
5、微软推出MAI-Image-2.5文生图模型,登顶行业榜单前三
微软全新迭代图像生成模型MAI-Image-2.5正式发布,凭借突出的综合能力跻身Arena文生图排行榜第三名。相较于前代MAI-Image-2,新版本在文本渲染精度、视觉推理能力上实现突破性升级,同时优化了风格化插画、商业级图像的生成效果。
该模型可适配多元化创作风格,精准匹配用户指令需求,对物体结构、场景布局、空间关系的刻画更为精准细腻。目前模型已开放公众体验入口,现阶段仅支持Arena平台使用,官方规划未来两周内将陆续上线MAI Playground与Foundry平台,进一步降低用户使用门槛。
相关链接 :
https://microsoft.ai/news/mai-image-2-5-launches-at-no-3-on-arena-ai/
6、OpenMOSS 发布语音与音效双模型,升级多语种合成与高保真音效生成能力
OpenMOSS团队连发两款音频领域AI模型,分别为升级版语音合成模型MOSS-TTS-v1.5与全新音效生成模型MOSS-SoundEffect-v2.0,两款模型均已开源并开放推理代码。
MOSS-TTS-v1.5保留零样本语音克隆核心能力,将支持语种拓展至31种,优化了长参考音频匹配短文本的克隆效果,升级标点韵律适配、内联停顿标记控制功能,多语种合成音质显著提升。全新的MOSS-SoundEffect-v2.0参数量达13亿,采用DiT架构与Flow Matching优化目标,可依据中英文文本,生成最长30秒、48kHz无损高保真音效,广泛适配各类音频创作场景。
相关链接 :
https://huggingface.co/OpenMOSS-Team/MOSS-TTS-v1.5
https://huggingface.co/OpenMOSS-Team/MOSS-SoundEffect-v2.0
7、NVIDIA开源PiD像素扩散解码器,实现高清图像极速解码超分
NVIDIA推出全新像素扩散解码器PiD(Pixel Diffusion Decoder),创新式将潜空间解码、图像超分两大流程整合为单一条件像素扩散模型,颠覆传统"先解码、后超分"的级联模式。
该模型直接在高分辨率像素空间完成去噪处理,搭配DMD2蒸馏技术将推理步骤精简至4步,大幅提升高清图像生成效率。实测数据显示,可将512分辨率潜变量快速解码为2048超高清图像,RTX 5090设备耗时不足1秒,GB200高端显卡仅需210毫秒,速度较传统级联超分方案提升5.9倍,同时图像细节、视觉保真度更优。PiD兼容Flux、SD3等主流图像模型架构,相关权重已开放下载,仅限非商业科研与评估场景使用。
相关链接 :
https://research.nvidia.com/labs/sil/projects/pid/
8、腾讯Hy-MT2模型更新开源协议,全面开放商用权限
腾讯正式官宣,旗下Hy-MT2模型开源协议更新为Apache License 2.0,彻底解除商用、微调、二次开发的权限限制。
新协议支持开发者与企业无门槛将模型应用于学术研究、商业落地、模型微调、衍生品开发等各类场景,无额外授权成本与使用约束。据Hugging Face平台数据显示,Hy-MT2的两个版本长期稳居平台趋势榜单,分别位列第一名与第四名,具备极高的行业实用性与认可度。
相关链接 :
https://x.com/TencentHunyuan/status/2059249996256711150
9、Biohub开源蛋白质生物学世界模型套件,突破蛋白结构预测技术壁垒
Biohub发布新一代蛋白质生物学"世界模型"系统,全套工具包含蛋白质语言模型ESMC、高精度结构预测模型ESMFold2,以及涵盖68亿条序列的ESM Atlas数据集,所有模型、数据、论文均基于MIT协议开源,支持商业与非商业全场景使用。
核心模型ESMFold2在抗体-抗原等复杂蛋白质结构预测任务中达到业界最优水平,无需针对特定靶点微调,即可通过计算设计出适配5类肿瘤、免疫学靶点的高亲和力微型蛋白结合物与单链抗体,为生物医药研发、蛋白质工程领域提供了强大的AI工具支撑。
相关链接 :
https://biohub.ai/esm/protein/about
https://biohub.ai/papers/esm_protein.pdf
10、百度飞桨升级PaddleOCR-VL 1.6,刷新文档解析行业SOTA成绩
百度飞桨PaddlePaddle团队推出文档解析模型PaddleOCR-VL 1.6,在OmniDocBench v1.6基准测试中斩获96.33%的高分,刷新开源与闭源方案的最优记录。
新版本新增区域感知数据优化框架与渐进式后训练方案,针对性提升表格、中文古籍、生僻字、印章等复杂场景的识别准确率,全面优化文本、公式、表格的一体化解析能力。模型架构完全兼容前代1.5版本,支持零成本即插即用迁移,无需改动原有部署方案,目前已通过Hugging Face正式开源。
相关链接 :
https://x.com/PaddlePaddle/status/2059990434827661769
https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6
11、商汤科技开源信息图生成模型,强化高密度图文渲染能力
商汤科技开源升级版信息图生成模型SenseNova-U1-8B-MoT-Infographic,聚焦高密度视觉信息生成场景,全面优化图文生成精度与排版效果。
该模型大幅提升了文字识别准确率、页面排版稳定性、图表生成质量,可适配100余种风格与布局的复杂图文内容创作,在学术页面、数据图表、信息海报等场景表现优异。经BizGenEval、IGenBench等权威基准测试验证,其综合性能达到当前开源模型顶尖水平,为自动化信息图创作提供了高效解决方案。
相关链接 :
https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic
12、Liquid AI发布端侧MoE模型LFM2.5-8B-A1B,兼顾轻量化与高性能
Liquid AI推出专为终端设备优化的混合专家模型LFM2.5-8B-A1B,适配手机、笔记本、PC、智能机器人等各类硬件终端。模型总参数量8B,活跃参数量仅1.5B,支持128K超长上下文窗口,依托38T海量tokens数据训练而成。
官方实测显示,该模型可在单设备上完成完整智能体循环,工具调用响应速度更快,综合性能可媲美参数量高出4倍的同类MoE模型。模型采用LFM2开放权重协议开源,上线即实现AMD、Intel、Apple等主流硬件平台的全适配推理,全面满足端侧轻量化、高性能AI应用需求。
相关链接 :
https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF
13、Bagel Labs推出首款去中心化视频生成模型Paris 2.0
Bagel Labs发布业界首款去中心化训练的视频扩散模型Paris 2.0,攻克了异构分布式GPU集群下的高质量视频生成训练难题。
模型由3个11B参数的Flux MM-DiT专家模型组成,训练阶段各专家独立处理数据切片,无需梯度与参数交互,仅在推理阶段通过轻量级路由器完成智能调度。在同等算力投入条件下,Paris 2.0的FVD指标降至279.01,较传统单体模型性能翻倍,同时文本视频匹配度、画面美学评分同步提升。目前模型权重已在Hugging Face开放,仅限科研评估场景使用。
相关链接 :
https://huggingface.co/bageldotcom/paris2
https://arxiv.org/abs/2605.26064
14、ElevenLabs升级Dubbing v2配音模型,支持多语种情感化精准配音
ElevenLabs上线全新Dubbing v2 AI配音模型,革新音频翻译配音技术,直接基于原始音频特征做端到端转换,可在90余种语言及口音转换中,完整保留原声的情感、语气、节奏与声纹特征。
模型内置同步感知智能算法,可精准匹配视频画面与配音音频,实现声画同步对齐。目前该功能已落地ElevenCreative、ElevenProductions两大平台,官方推出限时福利,7天内为不同订阅等级用户提供1-30分钟免费配音额度,大幅降低多语种视频本地化创作门槛。
相关链接 :
https://elevenlabs.io/dubbing-studio
15、ElevenLabs上线Music v2音乐生成模型,实现全流派无缝创作
ElevenLabs发布全面升级的Music v2 AI音乐生成模型,大幅提升人声演唱、乐器演奏、编曲混音的整体质量,适配全音乐流派创作。
新版本支持同一曲目实现歌剧、重金属、快节奏说唱等多种风格无缝切换,可自由嵌入各类音效且保持乐曲整体连贯性。新增局部重绘功能,支持用户单独改写歌曲前奏、副歌、桥段等任意片段,不影响整体编曲结构。同时模型多语言歌词生成、编曲适配能力全面优化,官方同步下调API与自助服务定价,所有生成音频均支持无版权商用,现已全面上线ElevenMusic、ElevenCreative平台。
相关链接 :
https://elevenlabs.io/blog/introducing-music-v2
16、Google Nano Banana系列图像模型转正GA,开放生产级API调用
Google正式将Nano Banana Pro、Nano Banana 2两款图像生成模型升级为GA正式版本,开发者可通过Gemini API直接接入生产环境使用。
其中Nano Banana 2对应Gemini 3.1 Flash Image,支持视频输入解析,可结合视频上下文生成图片、缩略图、信息图,单张生成图片定价0.045美元;Nano Banana Pro对应Gemini 3 Pro Image,单张图片定价0.134美元。两款模型均完成生产级稳定性验证,可满足企业规模化、常态化图像生成需求。
相关链接 :