语音生成

Panesle1 天前
人工智能·音视频·语音生成
月之暗面开源-音频理解、生成和对话生成模型:Kimi-Audio-7B-InstructKimi - Audio 是一个开源的音频基础模型,在音频理解、生成和对话等方面表现出色。其设计旨在作为一个通用的音频基础模型,能够在单一统一的框架内处理各种音频处理任务,如语音识别(ASR)、音频问答(AQA)、音频描述(AAC)、语音情感识别(SER)、声音事件 / 场景分类(SEC/ASC)以及端到端的语音对话等。并且在众多音频基准测试中取得了前沿的成果。
浩哥依然4 个月前
tts·语音生成·音频大模型·语音生成大模型·mega-tts2
【论文笔记之 Mega-TTS2】Boosting Prompting Mechanisms For Zero-Shot Speech Synthesis本文对 Ziyue Jiang 等人于 2024 年发表的论文进行简单地翻译。如有表述不当之处欢迎批评指正。欢迎任何形式的转载,但请务必注明出处。
崎山小鹿6 个月前
人工智能·神经网络·音视频·语音生成
训练自己的语音并生成音频fish.audioFish Speech 是一个致力于提供高质量、易用且功能强大的语音合成解决方案的开源项目。它融合了多项先进的语音合成技术,为研究者、开发者和普通用户提供了一个功能丰富的语音合成平台。 fish.audio开发团队是我们是公认的开源SVC / TTS 项目的开创者在GitHub上拥有超过70,000 星标。 Previous slide. rcell. So-VITS-SVC 创始人. GPT-SoVITS 创始人. Bert-VITS2 创始人 我们用雷总的声音生成了一段音频,然后用他的音频驱动一段视频