哔哩哔哩开源 IndexTTS-2.0：新一代零样本语音合成模型

三花AI2025-09-09 15:43

Qwen3-ASR-Flash $1$ 是基于 Qwen3 推出的高精度多语言语音识别模型，支持 11 种语言及其多种口音，具备自动语种检测与非人声过滤功能。

目前该模型暂未开源（有点小遗憾），但已上线阿里云百炼平台 API，佬们也可以在 Hugging Face Space 上在线体验 $2$ 。

IndexTTS-2.0 $3$ 是哔哩哔哩语音团队开源的新一代零样本语音合成模型，基于 55K 小时中英双语语音和 135 小时情感数据训练，实现了对语音时长和情感的精准控制。

目前 SDK 和模型都已开放，有需要的佬可以试试看！

即梦 AI 平台官网 $4$ 的新一代图像生成模型 Seedream 4.0 已逐步向所有用户推送，中国版 Nano Banana 来了。

不过官方尚未发文正式发布，但登录后即可直接体验，一次生成消耗 1 积分。

Model Context Protocol（MCP）Registry 预览版 $5$ 正式发布，这个项目可以理解为 Node.js 的 npm 或者 Python 的 PyPI 的 MCP 版本。

它旨在标准化 MCP 服务器的分发与发现流程，完全开源并支持下游构建公共或私有的子注册表。目前只能通过接口和命令行工具来发布和获取，感觉可以开始抢占几个好名字了！

Vibe Coding Platform $6$ 是 Vercel 发布并开源的基于其公司生态系统（包含 AI SDK、Gateway 和 Sandbox ）的编码平台。

有做类似业务的佬们可以好好研究下源码 $7$ ，学习学习设计思路啥的。