深度学习系列83:使用outetts

1. 介绍

模型采用 LLaMa 架构基础,结合 WavTokenizer 音频标记化技术,将连续音频波形转换为离散令牌序列,每秒处理 150 个令牌。v2版本通过 CTC 强制对齐技术,实现文本与音频的精确映射,无需预处理即可生成时间戳对齐的语音流;v3版本使用whisper进行文本对齐。窗口化重复惩罚机制的引入,显著提升了语音输出的连贯性和自然度,尤其在长文本合成中表现稳定。

多语言支持是其核心亮点之一。模型直接支持英语、中文、阿拉伯语等 20 余种语言的文本输入,无需罗马化处理。训练数据覆盖高资源语言(如英语、中文)和中等资源语言(如葡萄牙语、波斯语),未训练语言也可生成语音但效果有限。

2. 中文使用方式

目前outetts不支持中文,所以要做些特别处理:

  1. 首先安装whisper-timestamped:pip3 install whisper-timestamped
  2. 然后安装outetts:pip3 install outetts==0.4.4
  3. 打开site-package里面的outetts/whisper/transcribe.py,将第一行改为:
    import whisper_timestamped as whisper
    将第17行改为text = whisper.transcribe(model, audio_path, language='zh',initial_prompt='普通话')
  4. 打开site-package里面的outetts/version/v3/audio_processor.py,将第226行改为:
    words.extend([{'word': i['text'].strip(), 'start': float(i['start']), 'end': float(i['end'])} for i in s['words']])

3. 测试代码

首先出啊给你家爱你一个interface

复制代码
import outetts
interface = outetts.Interface(
    config=outetts.ModelConfig.auto_config(
        model=outetts.Models.VERSION_1_0_SIZE_1B,
        backend=outetts.Backend.LLAMACPP,
        quantization=outetts.LlamaCppQuantization.Q8_0,      
    )
)

如果没有speaker文件,则使用语音片段新建一个:

复制代码
speaker = interface.create_speaker("2.wav",whisper_model="base")
interface.save_speaker(speaker,path="zh.json")

然后生成语音:

复制代码
from outetts import GenerationConfig
output = interface.generate(
	config=GenerationConfig(
		text="要确保回答简洁明了,不使用复杂的术语。同时,保持语气友好,让用户感到舒适",
    		speaker= interface.load_speaker("zh.json")
    	)
)
output.save("output.wav")
相关推荐
木斯佳1 天前
HarmonyOS 6实战:AI Action富媒体卡片迭代——实现快照分享
人工智能·harmonyos·媒体
芝士爱知识a1 天前
2026高含金量写作类国际竞赛汇总与测评
大数据·人工智能·国际竞赛·写作类国际竞赛·写作类比赛推荐·cwa·国际写作比赛推荐
华农DrLai1 天前
什么是LLM做推荐的三种范式?Prompt-based、Embedding-based、Fine-tuning深度解析
人工智能·深度学习·prompt·transformer·知识图谱·embedding
东北洗浴王子讲AI1 天前
GPT-5.4辅助算法设计与优化:从理论到实践的系统方法
人工智能·gpt·算法·chatgpt
超低空1 天前
OpenClaw Windows 安装详细教程
人工智能·程序员·ai编程
恋猫de小郭1 天前
你的代理归我了:AI 大模型恶意中间人攻击,钱包都被转走了
前端·人工智能·ai编程
yongyoudayee1 天前
2026 AI CRM选型大比拼:四大架构路线实测对比
人工智能·架构
高洁011 天前
多模态AI模型融合难?核心问题与解决思路
人工智能·深度学习·机器学习·数据挖掘·transformer
碑 一1 天前
视频分割Video K-Net
人工智能·计算机视觉
renhongxia11 天前
ORACLE-SWE:量化Oracle 信息信号对SWE代理的贡献
人工智能·深度学习·学习·语言模型·分类