tts

xchenhao4 小时前
android·windows·flutter·macos·openai·tts·朗读器
基于 Flutter 的开源文本 TTS 朗读器(支持 Windows/macOS/Android)https://github.com/xchenhao/tts_readerhttps://github.com/xchenhao/tts_reader/releases/tag/v1.0.0
uncle_ll17 小时前
自然语言处理·nlp·语音识别·tts·语音变换
李宏毅NLP-9-语音转换语音转换(Voice Conversion, VC)的核心定义与本质,可从 输入输出、保留与改变的维度 解析:
ejinxian7 天前
tts·语音生成·语音技术
Kyutai TTS 低延迟流式文本转语音技术Kyutai Labs 宣布开源其最新文本转语音(TTS)技术 ——Kyutai TTS,实时的语音生成解决方案。
文浩(楠搏万)8 天前
大模型·音视频·tts·wav·obs·声音克隆·语音录制
用OBS Studio录制WAV音频,玩转语音克隆和文本转语音!随着AI技术的快速发展,语音克隆与文本生成语音技术越来越受欢迎。无论你想要制作个人虚拟主播,还是给自媒体视频配音,拥有高质量的原始音频都是关键。本文详细教你使用免费且功能强大的软件——OBS Studio,将语音以高质量的WAV格式录制下来,并为后续的语音克隆或文本转语音生成做好准备。
木亦汐丫1 个月前
强化学习·tts·grpo·wer·sim·文本到语音·nar
【TTS】基于GRPO的流匹配文本到语音改进:F5R-TTS论文地址:https://arxiv.org/abs/2504.02407v3我们提出了F5R-TTS,这是一种新颖的文本到语音(TTS)系统,它将群体相对策略优化(GRPO)集成到基于流匹配的架构中。 通过将流匹配TTS的确定性输出重新表述为概率高斯分布,我们的方法能够无缝集成强化学习算法。 在预训练期间,我们训练了一个基于概率重新表述的流匹配模型,该模型源自F5-TTS和一个开源数据集。 在随后的强化学习(RL)阶段,我们采用一个由GRPO驱动的增强阶段,该阶段利用双重奖励指标:通过自动语音识别计算的
shichaog2 个月前
语音合成·tts
语音合成之十二 TTS声学编解码器的演进语音合成(Text-to-Speech, TTS)技术的核心目标之一是生成高度自然、富有表现力且与真人无异的语音。在这一追求中,声码器(Vocoder),或更广义地说,声学编解码器(Acoustic Codec)/语音令牌化器(Speech Tokenizer),扮演着至关重要的角色。它的性能直接决定了合成语音的最终质量、自然度乃至可控性 。
shichaog3 个月前
spark·语音合成·tts·端到端
语音合成之一TTS技术发展史综述文本转语音(Text-to-Speech,TTS)技术是一种将书面文本自动转换为人类语音的技术。它是一门交叉学科,融合了语言学、声学、计算机科学和电子工程等多个领域的知识。TTS技术通过计算机合成逼真的语音,使得用户能够通过听觉获取信息,极大地扩展了人机交互的方式。从早期的机械发声装置到如今高度智能化的语音合成系统,TTS技术已经渗透到我们日常生活的方方面面,例如智能语音助手(亚马逊Alexa、豆包、苹果Siri等)、屏幕阅读器(为视力障碍人士和阅读障碍者)、教育软件、媒体与娱乐(播客、有声读物、视频/游
ZHW_AI课题组4 个月前
python·音视频·语音合成·通义千问·tts
调用通义千问实现语音合成并将合成的音频通过扬声器播放郭建东,男,西安工程大学电子信息学院,2024级研究生 研究方向:机器视觉与人工智能 电子邮件:1229963266@qq.com
背水4 个月前
人工智能·学习·多模态·tts
Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback论文学习借助人类反馈增强零样本文本到语音合成In recent years, text-to-speech (TTS) technology has witnessed impressive advancements, particularly with large-scale training datasets, showcasing human-level speech quality and impressive zero-shot capabilities on unseen speakers. Howe
天命小猪5 个月前
语音合成·tts
FishSpeech应用篇——专属朗读人
猪萌萌5 个月前
人工智能·ios·tts·文字转语音·sovits
使用iOS个人声音与SoVITS训练个人AI语音(10分钟快速上手)序言:最近在抖音上频繁看到曼波唱歌的视频和各种AI语音的搞笑短片,加上年后新购置的M2硬盘终于提供了足够的存储空间,让我有机会深入研究AI语音训练。24年年初我就想进行AI语音训练,但苦于语音素材难以获取,这次有了iOS收集素材就方便多了。在公司闲暇时,我摆弄着自己的iPhone 12,偶然发现了“个人声音”这一新功能,它允许用户在手机上训练一个基础的AI模型。我意识到可以将自己录制的150条语音导出,并通过查阅资料了解到可以利用SoVITS进行语音模型训练。因此,我撰写这篇教程,旨在记录并指导大家如何使
AI完全体5 个月前
人工智能·机器学习·edge·tts·文本转语音·chattts·ai 应用
【AI应用】免费的文本转语音工具:微软 Edge TTS 和 开源版 ChatTTS 对比【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】【AI应用】我试用了下Edge TTS,感觉还不错,不过它不支持克隆声音(比如自己的声音)
AI云极6 个月前
开源·tts·文字转语音
OpenAI-Edge-TTS:本地化 OpenAI 兼容的文本转语音 API,免费高效!文本转语音(TTS)技术已经成为人工智能领域的重要一环,无论是语音助手、教育内容生成,还是音频文章创作,TTS 工具都能显著提高效率。今天要为大家介绍的是 OpenAI-Edge-TTS,一款基于 Microsoft Edge 在线文本转语音服务的开源项目,它提供了一个与 OpenAI API 兼容的本地 TTS 端点,让你能够通过简单的配置轻松实现文本到语音的转换,而且完全免费!
MavenTalk6 个月前
ffmpeg·音视频·语音识别·tts
音频合成的常见问题使用了1年多的音频合成,有些常见的问题分享给大家 。一、音质问题噪声音频失真音质模糊二、音色问题音色不匹配
浩哥依然6 个月前
tts·语音生成·音频大模型·语音生成大模型·mega-tts2
【论文笔记之 Mega-TTS2】Boosting Prompting Mechanisms For Zero-Shot Speech Synthesis本文对 Ziyue Jiang 等人于 2024 年发表的论文进行简单地翻译。如有表述不当之处欢迎批评指正。欢迎任何形式的转载,但请务必注明出处。
Luke Ewin6 个月前
python·大模型·llm·语音识别·语音合成·tts·asr
解决安装pynini和WeTextProcessing报错问题点击这里,访问博客最近在给别人有偿部署ASR-LLM-TTS项目时遇到安装pynini和WeTextProcessing依赖报错的问题,报错信息如下:
MavenTalk7 个月前
人工智能·微信小程序·小程序·tts·ai语音合成
微信小程序TTS解决方案微信小程序原生语音合成 API(基础且简单)使用第三方TTS服务(功能丰富但可能涉及费用等情况)自行搭建TTS服务(技术难度高但高度定制化)
hawk2014bj8 个月前
tts
使用 F5 TTS 文字转音频F5 TTS 支持 ZeroShot 音频克隆,只有将需要音频传给模型,模型既可以生成以对应声音生成的音频,F5 最强大的地方就是可以使用定制的人声。F5 使用了 DIT 架构进行训练,结构如下:
刘悦的技术博客9 个月前
ai·tts·python3.11
MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音前几天,又一款非自回归的文字转语音的AI模型:MaskGCT,开放了源码,和同样非自回归的F5-TTS模型一样,MaskGCT模型也是基于10万小时数据集Emilia训练而来的,精通中英日韩法德6种语言的跨语种合成。数据集Emilia是全球最大且最为多样的高质量多语种语音数据集之一。
算家云9 个月前
人工智能·大模型·算力·tts·文本转语音·语音转换·音频生成
GPT-SOVIT模型部署指南强大的小样本语音转换和文本转语音 WebUI。具有以下特征:测试环境用户可以在这里下载所有这些模型。也可从modelscope下载: