6 亿参数玩转 20 + 语言!OuteTTS-1.0-0.6B本地部署教程,轻量模型也能 hold 住跨语言合成

一、模型介绍

OuteTTS-1.0-0.6B 是 OuteAI 于 2025 年 5 月发布的开源语音合成模型,基于 Qwen-2.5-0.5B 架构优化,参数规模 6 亿,专注于轻量级高性能语音合成。

该模型通过创新技术路径实现了多语言支持、声音克隆和低资源消耗的平衡,在边缘计算、移动应用等场景展现出独特优势。

技术特性:轻量化与多模态融合

模型采用 LLaMa 架构基础,结合 WavTokenizer 音频标记化技术,将连续音频波形转换为离散令牌序列,每秒处理 150 个令牌。通过 CTC 强制对齐技术,实现文本与音频的精确映射,无需预处理即可生成时间戳对齐的语音流。窗口化重复惩罚机制的引入,显著提升了语音输出的连贯性和自然度,尤其在长文本合成中表现稳定。

多语言支持是其核心亮点之一。模型直接支持英语、中文、阿拉伯语等 20 余种语言的文本输入,无需罗马化处理。训练数据覆盖高资源语言(如英语、中文)和中等资源语言(如葡萄牙语、波斯语),未训练语言也可生成语音但效果有限。

二、模型部署步骤

模型部署环境

ubuntu 22.04.4 LTS
cuda 12.4.1
python 3.10
NVIDIA Corporation RTX4090

1.更新基础的软件包

查看系统版本信息

bash 复制代码
#查看系统的版本信息,包括ID(如ubuntu、centos等)、版本号、名称、版本号ID等
cat /etc/os-release

配置国内源

csharp 复制代码
#更新软件列表
apt-get update

apt配置阿里源

bash 复制代码
vim  /etc/apt/sources.list

将以下内容粘贴进文件中

arduino 复制代码
deb http://mirrors.aliyun.com/debian/ bullseye main non-free contrib
deb-src http://mirrors.aliyun.com/debian/ bullseye main non-free contrib
deb http://mirrors.aliyun.com/debian-security/ bullseye-security main
deb-src http://mirrors.aliyun.com/debian-security/ bullseye-security main
deb http://mirrors.aliyun.com/debian/ bullseye-updates main non-free contrib
deb-src http://mirrors.aliyun.com/debian/ bullseye-updates main non-free contrib
deb http://mirrors.aliyun.com/debian/ bullseye-backports main non-free contrib
deb-src http://mirrors.aliyun.com/debian/ bullseye-backports main non-free contrib

2.基础Miniconda3环境

看系统是否有miniconda的环境

复制代码
conda -V

显示如上输出,即安装了相应环境,若没有miniconda的环境请安装

3.创建虚拟环境

创建名为"Outetts"的虚拟环境

ini 复制代码
conda create -n OuteTTs python=3.10 -y

激活虚拟环境

复制代码
conda activate OuteTTs

4.下载模型

输入命令克隆OuteTTS项目

bash 复制代码
git clone https://github.com/edwko/OuteTTS.git
cd OuteTTS

5.安装pytorch环境

安装pytorch,选择合适的版本安装,建议python版本至少为3.9及以上

perl 复制代码
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

持续等待直至出现"successfully"开头的提示,则安装成功

6.下载依赖库

erlang 复制代码
pip install -e .

依赖库下载时间较长,直至出现"successfully"显示下载成功

7.存储模型运行命令

创建demo.py文件

复制代码
vim demo.py
bash 复制代码
cat demo.py

运行模型测试命令

复制代码
python demo.py

三、UI界面

下载其他缺失依赖包

复制代码
pip install gradio

访问界面

复制代码
python app.py

出现如上显示可通过项目实例的开放端口进行访问,输入需要生成语音的文本包括中文及英文即可合成

相关推荐
AI规划师-南木3 分钟前
低代码开发医疗AI工具:5分钟搭建用药推荐系统,零基础也能落地
人工智能·深度学习·低代码·计算机视觉·推荐系统·rxjava·医疗ai
CareyWYR23 分钟前
每周AI论文速递(251020-251024)
人工智能
晚霞apple28 分钟前
Graph + Agents 融合架构:2025年七大创新路径
论文阅读·人工智能·深度学习·神经网络·机器学习
纪伊路上盛名在34 分钟前
如何批量获取蛋白质序列的所有结构域(domain)数据-2
数据库·人工智能·机器学习·统计·计算生物学·蛋白质
这张生成的图像能检测吗38 分钟前
(论文速读)InteractVLM: 基于2D基础模型的3D交互推理
人工智能·计算机视觉·交互·生成模型·图像生成·视觉语言模型·3d重建
浣熊-论文指导1 小时前
人工智能与生物医药融合六大创新思路
论文阅读·人工智能·深度学习·计算机网络·机器学习
文火冰糖的硅基工坊1 小时前
[人工智能-大模型-48]:模型层技术 - 大模型与大语言模型不是一回事
人工智能·语言模型·自然语言处理
居7然1 小时前
DeepSeek OCR:重新定义AI文档处理的“降本增效”新范式
人工智能·算法·语言模型·自然语言处理·大模型·ocr
xingxing_F1 小时前
Topaz Video AI for Mac AI视频无损放大 视频画质增强
人工智能·macos·音视频
普蓝机器人2 小时前
面向智慧农业的自主移动果蔬采摘机器人:融合视觉识别与自动驾驶的智能化农作系统研究
人工智能·学习·机器人·移动机器人·三维仿真导航