语音生成

告别「机械念经」：TADA-1b 让模型「说人话」用 AI 进行语音合成时，常遇到几种割裂感：开头自然，越往后越像「机器人念经」；音色对了，语气节奏却走样。这是因为以往的 TTS 要么文本先跑再后续配音，导致语义韵律脱节；要么暴力堆参，长文本后半段对齐失焦，断层、吞字、机械感频出。

HyperAI超神经

在线教程丨支持600+语言，小米开源OmniVoice：仅需3-10秒参考音频实现语音克隆随着 AI 语音技术快速发展，文本转语音（TTS）模型正从「能说话」迈向「像真人一样自然交流」，但在多语言覆盖、零样本语音克隆以及复杂口音与方言支持等方面，现有系统仍普遍面临生成链路复杂、训练成本高、跨语言泛化能力有限等问题。

教程上新丨微软开源VibeVoice，可实现90分钟4角色自然对话近年来，文本转语音（TTS）合成技术进展显著，已能够为单一说话者合成高保真、听觉自然的短话语。然而，在面对长格式、多说话人对话音频的可扩展合成时，仍存在重要挑战，限制了诸如播客与多角色有声书场景下的应用边界。

GPT-SoVITS初探GPT-SoVITS是一种语音合成模型，于2024年2月18日发布，它基于深度学习的语音合成框架，通过整合GPT（Generative Pre-trained Transformer）的自然语言理解能力与SoVITS（Soft Voice Isolation and Timbre Synthesis）的声纹特征建模技术，实现了「文本 – 语音」的高保真映射与个性化声音克隆。其核心优势在于：

也玩音频克隆IndexTTS以下两篇文章已经较好的介绍IndexTTS项目，本文基于这两篇文件对该项目安装实现的一些细节再做更详细的说明，也算对自己的折腾做下总结。

Kyutai TTS 低延迟流式文本转语音技术Kyutai Labs 宣布开源其最新文本转语音（TTS）技术 ——Kyutai TTS，实时的语音生成解决方案。

HyperAI超神经

在线教程丨刷新TTS模型SOTA，OpenAudio S1基于200万小时音频数据训练，深刻理解情感及语音细节近年来，TTS（Text-to-Speech，文本转语音）模型经历了从拼接式语音合成到统计参数合成，再到神经网络 TTS（Neural TTS）的迭代，在技术层面呈现出端到端、模块融合的趋势，在应用层面呈现出多语言、高自然度、丰富情感变化的效果升级。

月之暗面开源-音频理解、生成和对话生成模型：Kimi-Audio-7B-InstructKimi - Audio 是一个开源的音频基础模型，在音频理解、生成和对话等方面表现出色。其设计旨在作为一个通用的音频基础模型，能够在单一统一的框架内处理各种音频处理任务，如语音识别（ASR）、音频问答（AQA）、音频描述（AAC）、语音情感识别（SER）、声音事件 / 场景分类（SEC/ASC）以及端到端的语音对话等。并且在众多音频基准测试中取得了前沿的成果。

【论文笔记之 Mega-TTS2】Boosting Prompting Mechanisms For Zero-Shot Speech Synthesis本文对 Ziyue Jiang 等人于 2024 年发表的论文进行简单地翻译。如有表述不当之处欢迎批评指正。欢迎任何形式的转载，但请务必注明出处。

训练自己的语音并生成音频fish.audioFish Speech 是一个致力于提供高质量、易用且功能强大的语音合成解决方案的开源项目。它融合了多项先进的语音合成技术，为研究者、开发者和普通用户提供了一个功能丰富的语音合成平台。 fish.audio开发团队是我们是公认的开源SVC / TTS 项目的开创者在GitHub上拥有超过70,000 星标。 Previous slide. rcell. So-VITS-SVC 创始人. GPT-SoVITS 创始人. Bert-VITS2 创始人我们用雷总的声音生成了一段音频，然后用他的音频驱动一段视频

我是有底线的