通义千问团队在 2025年1月 宣布开源的系列文本转语音(TTS)模型,功能强大且完全免费商用。
核心亮点与模型构成
这个"全家桶"主要包含以下三个系列,覆盖了不同场景和需求:
| 系列名称 | 主要特点 | 适用场景 |
|---|---|---|
| Qwen3-TTS | 音质标杆,声音自然、富有表现力,媲美顶级商业产品。 | 对音质有高要求的场景,如音频内容创作、有声书、播客。 |
| Qwen3-TTS-Lite | 轻量高效,参数小、推理速度快,同时保持良好音质。 | 需要快速响应或资源受限的场景,如实时交互、嵌入式设备。 |
| Qwen3-TTS-Web | 网页专用 ,针对Web端优化,模型极小(最小仅 0.3GB),支持流式输出。 | 浏览器直接运行,无需后端服务器,可实现极低延迟的语音交互。 |
如何获取与使用
这些模型已经全面开放,你可以通过以下方式开始使用:
-
官方渠道:
-
模型下载 :所有模型均已在 Hugging Face 和 ModelScope 社区发布。
-
在线体验:通义千问官方网站提供了在线演示,你可以直接输入文本试听效果。
-
项目代码 :完整的开源代码、技术文档和使用示例可以在 GitHub 上找到。
-
-
技术特性:
-
开源协议 :采用宽松的 Apache 2.0 协议,允许个人和商业免费使用,是极大的利好。
-
语言支持 :目前主要针对中文优化,效果出色,同时也支持英文。
-
功能丰富:支持调节语速、音高,并能够合成带有多样化风格(如开心、悲伤、新闻播报等)的语音。
-
这次开源被业界广泛认为是将"闭源天花板级别的技术"下放,极大地降低了高质量TTS的应用门槛。