6 亿参数玩转 20 + 语言!OuteTTS-1.0-0.6B本地部署教程,轻量模型也能 hold 住跨语言合成

一、模型介绍

OuteTTS-1.0-0.6B 是 OuteAI 于 2025 年 5 月发布的开源语音合成模型,基于 Qwen-2.5-0.5B 架构优化,参数规模 6 亿,专注于轻量级高性能语音合成。

该模型通过创新技术路径实现了多语言支持、声音克隆和低资源消耗的平衡,在边缘计算、移动应用等场景展现出独特优势。

技术特性:轻量化与多模态融合

模型采用 LLaMa 架构基础,结合 WavTokenizer 音频标记化技术,将连续音频波形转换为离散令牌序列,每秒处理 150 个令牌。通过 CTC 强制对齐技术,实现文本与音频的精确映射,无需预处理即可生成时间戳对齐的语音流。窗口化重复惩罚机制的引入,显著提升了语音输出的连贯性和自然度,尤其在长文本合成中表现稳定。

多语言支持是其核心亮点之一。模型直接支持英语、中文、阿拉伯语等 20 余种语言的文本输入,无需罗马化处理。训练数据覆盖高资源语言(如英语、中文)和中等资源语言(如葡萄牙语、波斯语),未训练语言也可生成语音但效果有限。

二、模型部署步骤

模型部署环境

ubuntu 22.04.4 LTS
cuda 12.4.1
python 3.10
NVIDIA Corporation RTX4090

1.更新基础的软件包

查看系统版本信息

bash 复制代码
#查看系统的版本信息,包括ID(如ubuntu、centos等)、版本号、名称、版本号ID等
cat /etc/os-release

配置国内源

csharp 复制代码
#更新软件列表
apt-get update

apt配置阿里源

bash 复制代码
vim  /etc/apt/sources.list

将以下内容粘贴进文件中

arduino 复制代码
deb http://mirrors.aliyun.com/debian/ bullseye main non-free contrib
deb-src http://mirrors.aliyun.com/debian/ bullseye main non-free contrib
deb http://mirrors.aliyun.com/debian-security/ bullseye-security main
deb-src http://mirrors.aliyun.com/debian-security/ bullseye-security main
deb http://mirrors.aliyun.com/debian/ bullseye-updates main non-free contrib
deb-src http://mirrors.aliyun.com/debian/ bullseye-updates main non-free contrib
deb http://mirrors.aliyun.com/debian/ bullseye-backports main non-free contrib
deb-src http://mirrors.aliyun.com/debian/ bullseye-backports main non-free contrib

2.基础Miniconda3环境

看系统是否有miniconda的环境

复制代码
conda -V

显示如上输出,即安装了相应环境,若没有miniconda的环境请安装

3.创建虚拟环境

创建名为"Outetts"的虚拟环境

ini 复制代码
conda create -n OuteTTs python=3.10 -y

激活虚拟环境

复制代码
conda activate OuteTTs

4.下载模型

输入命令克隆OuteTTS项目

bash 复制代码
git clone https://github.com/edwko/OuteTTS.git
cd OuteTTS

5.安装pytorch环境

安装pytorch,选择合适的版本安装,建议python版本至少为3.9及以上

perl 复制代码
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

持续等待直至出现"successfully"开头的提示,则安装成功

6.下载依赖库

erlang 复制代码
pip install -e .

依赖库下载时间较长,直至出现"successfully"显示下载成功

7.存储模型运行命令

创建demo.py文件

复制代码
vim demo.py
bash 复制代码
cat demo.py

运行模型测试命令

复制代码
python demo.py

三、UI界面

下载其他缺失依赖包

复制代码
pip install gradio

访问界面

复制代码
python app.py

出现如上显示可通过项目实例的开放端口进行访问,输入需要生成语音的文本包括中文及英文即可合成

相关推荐
火山引擎开发者社区5 小时前
火山 DTS 正式支持 MySQL 同步到 Milvus , 解决业务库到向量库最后一公里
人工智能
火山引擎开发者社区6 小时前
@开发者,提前解锁 FORCE 原动力大会五大看点,限时赢取门票福利
人工智能
火山引擎开发者社区6 小时前
这个 Skill 让 Agent 从会理解到会执行,补齐移动 APP 执行最后一公里
人工智能
火山引擎开发者社区10 小时前
Agent Plan、Coding Plan限时优惠:2.5折畅享多模型!
人工智能
冬奇Lab11 小时前
AI Workflow 定义的四次演进:从 Markdown 到 JS 脚本,再到分布式多 Agent
javascript·人工智能·agent
冬奇Lab11 小时前
每日一个开源项目(第136篇):OpenMemory - 给 AI Agent 真正的认知记忆引擎
人工智能
黄啊码11 小时前
【黄啊码】微信 AI 把聊天功能和 Vibe Coding打通了,创业者:我又白干了
人工智能
IT_陈寒12 小时前
React的useState居然还有这种坑?我差点删库跑路
前端·人工智能·后端