技术栈
tts
猪萌萌
4 天前
人工智能
·
ios
·
tts
·
文字转语音
·
sovits
使用iOS个人声音与SoVITS训练个人AI语音(10分钟快速上手)
序言:最近在抖音上频繁看到曼波唱歌的视频和各种AI语音的搞笑短片,加上年后新购置的M2硬盘终于提供了足够的存储空间,让我有机会深入研究AI语音训练。24年年初我就想进行AI语音训练,但苦于语音素材难以获取,这次有了iOS收集素材就方便多了。在公司闲暇时,我摆弄着自己的iPhone 12,偶然发现了“个人声音”这一新功能,它允许用户在手机上训练一个基础的AI模型。我意识到可以将自己录制的150条语音导出,并通过查阅资料了解到可以利用SoVITS进行语音模型训练。因此,我撰写这篇教程,旨在记录并指导大家如何使
AI完全体
15 天前
人工智能
·
机器学习
·
edge
·
tts
·
文本转语音
·
chattts
·
ai 应用
【AI应用】免费的文本转语音工具:微软 Edge TTS 和 开源版 ChatTTS 对比
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】【AI应用】我试用了下Edge TTS,感觉还不错,不过它不支持克隆声音(比如自己的声音)
AI云极
1 个月前
开源
·
tts
·
文字转语音
OpenAI-Edge-TTS:本地化 OpenAI 兼容的文本转语音 API,免费高效!
文本转语音(TTS)技术已经成为人工智能领域的重要一环,无论是语音助手、教育内容生成,还是音频文章创作,TTS 工具都能显著提高效率。今天要为大家介绍的是 OpenAI-Edge-TTS,一款基于 Microsoft Edge 在线文本转语音服务的开源项目,它提供了一个与 OpenAI API 兼容的本地 TTS 端点,让你能够通过简单的配置轻松实现文本到语音的转换,而且完全免费!
MavenTalk
1 个月前
ffmpeg
·
音视频
·
语音识别
·
tts
音频合成的常见问题
使用了1年多的音频合成,有些常见的问题分享给大家 。一、音质问题噪声音频失真音质模糊二、音色问题音色不匹配
浩哥依然
2 个月前
tts
·
语音生成
·
音频大模型
·
语音生成大模型
·
mega-tts2
【论文笔记之 Mega-TTS2】Boosting Prompting Mechanisms For Zero-Shot Speech Synthesis
本文对 Ziyue Jiang 等人于 2024 年发表的论文进行简单地翻译。如有表述不当之处欢迎批评指正。欢迎任何形式的转载,但请务必注明出处。
Luke Ewin
2 个月前
python
·
大模型
·
llm
·
语音识别
·
语音合成
·
tts
·
asr
解决安装pynini和WeTextProcessing报错问题
点击这里,访问博客最近在给别人有偿部署ASR-LLM-TTS项目时遇到安装pynini和WeTextProcessing依赖报错的问题,报错信息如下:
MavenTalk
2 个月前
人工智能
·
微信小程序
·
小程序
·
tts
·
ai语音合成
微信小程序TTS解决方案
微信小程序原生语音合成 API(基础且简单)使用第三方TTS服务(功能丰富但可能涉及费用等情况)自行搭建TTS服务(技术难度高但高度定制化)
hawk2014bj
3 个月前
tts
使用 F5 TTS 文字转音频
F5 TTS 支持 ZeroShot 音频克隆,只有将需要音频传给模型,模型既可以生成以对应声音生成的音频,F5 最强大的地方就是可以使用定制的人声。F5 使用了 DIT 架构进行训练,结构如下:
刘悦的技术博客
4 个月前
ai
·
tts
·
python3.11
MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音
前几天,又一款非自回归的文字转语音的AI模型:MaskGCT,开放了源码,和同样非自回归的F5-TTS模型一样,MaskGCT模型也是基于10万小时数据集Emilia训练而来的,精通中英日韩法德6种语言的跨语种合成。数据集Emilia是全球最大且最为多样的高质量多语种语音数据集之一。
算家云
4 个月前
人工智能
·
大模型
·
算力
·
tts
·
文本转语音
·
语音转换
·
音频生成
GPT-SOVIT模型部署指南
强大的小样本语音转换和文本转语音 WebUI。具有以下特征:测试环境用户可以在这里下载所有这些模型。也可从modelscope下载:
七哥的AI日常
6 个月前
tts
探索前沿科技:在本地系统上安装和使用Style TTS2进行高质量语音合成
我们正处于一个令人激动的时代,有如此多的选择,不仅在大型语言模型方面,还有现在的文本到语音(TTS)模型。在这篇文章中,我将向您展示如何在本地系统上轻松安装这个非常出色的模型——Style TTS2,然后进行语音克隆,或者您可以进行多语音或单语音的文本到语音转换,操作非常简单、快捷,并且具有人类级别的语音质量。
伊织code
6 个月前
音频
·
markdown
·
提取
·
qwen
·
tts
·
funasr
·
audionotes
AudioNotes -将音频内容转 markdown
AudioNotes 能够快速提取音视频的内容,并且调用大模型进行整理,成为一份结构化的markdown笔记,方便快速阅读。基于 FunASR 和 Qwen2 构建。
代码讲故事
6 个月前
人工智能
·
ocr
·
语音识别
·
语音合成
·
tts
·
文本转语音
·
语种
AI文本转语音:Toucan TTS 支持 7000 多种语言的语音合成工具箱,突破性 OCR 技术:支持多种语言识别,媲美顶级云服务
AI文本转语音:Toucan TTS 支持 7000 多种语言的语音合成工具箱,突破性 OCR 技术:支持多种语言识别,媲美顶级云服务。
MavenTalk
6 个月前
人工智能
·
语音识别
·
tts
·
语音克隆
·
形象克隆
·
头像驱动
数字人的形象克隆与语音克隆是伪需求
形象克隆与语音克隆技术,在当前的环境上已经可以成熟的实现,但真的解决了痛点问题吗?普通人或者一般的公司克隆自己内部人的形象有必要吗?对外界而言,克隆的形象与虚拟的形象并无二致,本身并没有什么知名度,克隆后也不会有大的改观,除非你想立这个人设,所以,没有知名度的人物的形象克隆都是伪需求。
winfredzhang
6 个月前
数据库
·
python
·
tts
·
翻译
构建具有音频功能的中英翻译器:一个Python应用程序的旅程
在当今的全球化世界中,语言翻译工具变得越来越重要。作为一名软件开发者,我最近完成了一个有趣的项目:一个结合了翻译、文字转语音和数据管理功能的中英翻译器。在这篇博客中,我将分享这个应用程序的主要特性和开发过程中的一些见解。 C:\pythoncode\new\travlelanguage.py
伊织code
7 个月前
gpt
·
tts
·
克隆
·
语音
·
clone
·
gpt-sovits
·
音色
GPT-SoVITS - few shot 声音克隆
演示视频 :https://www.bilibili.com/video/BV12g4y1m7Uw未见过的说话者 few-shot 微调演示:
NLP工程化
7 个月前
tts
·
asr
·
dify
Dify中语音和文字间转换问题的一种暂时注释方式
本文主要解释了Dify中语音和文字间转换可能会遇到的问题,并给出了一种暂时注释的解决方案。本地部署文本转语音时,如果遇到如下问题,安装ffmpeg即可。但是如果安装后,重启系统还是遇到这个问题该如何办?
学术菜鸟小晨
7 个月前
工具
·
语音合成
·
tts
语音合成-TTS文字转语音(专业版)
语音合成-TTS文字转语音(专业版)*使用强大的智能AI语音库,合成独具特色接近真人语音的朗读音频。*使用极具表现力和类似人类的声音,使文本阅读器和已启用语音的助理等方案栩栩如生。
洛阳泰山
7 个月前
人工智能
·
python
·
tts
·
chattts
ChatTTS超强的真人AI语音助手下载使用教程
ChatTTS是专门为对话场景设计的文本转语音模型,支持多人同时对话,适用的场景非常丰富,比如LLM助手对话任务,视频配音、声音克隆等。同时支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练,功能非常的强大。 文本转语音(TTS)在生活中的应用非常的广泛,比如有声小说、语音导航,视频配音和智能家居控制等。 今天给大家推荐一个超强的TTS文本转语音应用,适用于自然、对话式文本转语音,特别适用于大型语言模型助手的对话任务,以及诸如对话式音频和视频配音等,并且可以免费使用。
陌上阳光
8 个月前
人工智能
·
深度学习
·
tts
学习TTS遇到的问题3
QAT是Quantization-Aware Training的缩写,即量化感知训练。它是一种在训练过程中考虑到量化影响的方法,目的是在模型最终量化到低精度(例如8位或更低)时,尽量减少精度损失。通过QAT,模型在训练过程中就会模拟量化的效果,从而在实际应用时能更好地适应量化后的环境。