语音合成

刺猬的温驯

Flow Matching 训练的输入分布问题：从 VAE Latent 统计性质到归一化工程实践——以 VoxFlash-TTS 为例摘要：本文从 OT-CFM 插值路径的统计性质出发，系统推导 Flow Matching 模型输入分布与输出速度场分布的均值和方差，分析 VAE KL 散度权重对 latent 点云分散程度的影响，并借鉴图像生成领域的 SNR 失配理论，从理论角度论证逐通道归一化对 Flow Matching 训练收敛的必要性。全文以 VoxFlash-TTS（9 Hz 超压缩 latent 空间）为贯穿案例，给出具体的工程建议。需要指出，文中部分结论属于理论推测，实际效果有赖于实验验证。

刺猬的温驯

语音克隆模型的难点之一：音素对齐及交叉注意力早期失效问题（兼论旋转位置编码）——F5-TTS、SupertonicTTS、VoxFlash-TTS 对比本文深入分析 TTS 扩散模型中音素对齐的核心难点，重点讨论交叉注意力在扩散早期时间步的失效问题，以及 F5-TTS、SupertonicTTS、VoxFlash-TTS 三个系统各自的解决思路。

基于 API Zero 平台集成 TTS 语音合成服务的技术实践在开发智能客服、有声读物、无障碍应用或物联网设备时，将文本信息转换为自然流畅的语音输出是一个常见需求。集成第三方 TTS（Text-to-Speech）服务可以避免自建语音合成模型的高昂成本和复杂性。本文旨在解析一个具体的 TTS 服务接口（基于 API Zero 平台），并提供从接口理解到工程落地的完整技术指南。

掩码扩散语音克隆：参考音频为什么会被噪声“污染“？掩码扩散（Masked Diffusion）是当前语音克隆中架构最简洁的参考音频注入方式之一，F5-TTS 和 VoiceBox 均采用了这个思路。但这个方案内部存在一个值得深入分析的结构性问题：在 DiT 的全局双向自注意力中，参考音频区域会被待生成区域（噪声）反向污染，这会如何影响音色提取质量？

扩散模型语音克隆：参考音频注入的五种方式语音克隆的核心是让模型"听懂"参考音频里的音色，并将其迁移到新的内容上。在扩散模型框架下，如何把参考音频的信息注入生成过程，是系统设计的关键选择之一。本文梳理当前主流的五种注入方式，分析各自的机制、优缺点和代表系统。

GitHub 开源项目解析：OpenBMB/VoxCPM —— Tokenizer-Free 多语言语音合成与声音克隆模型近年来，大语言模型与多模态模型快速发展，语音生成也从传统的拼接式、声学模型式 TTS，逐渐走向大模型驱动的高表现力语音合成。相比普通文本转语音系统，现代 TTS 不仅要求“能读出来”，还要求具备自然韵律、情绪表达、多语言支持、声音克隆、风格控制和实时流式输出能力。

语音克隆模型的难点之一：音素对齐及交叉注意力早期失效问题（兼论旋转位置编码）——F5-TTS、SupertonicTTS、VoxFlash-TTS 对比本文深入分析 TTS 扩散模型中音素对齐的核心难点，重点讨论交叉注意力在扩散早期时间步的失效问题，以及 F5-TTS、SupertonicTTS、VoxFlash-TTS 三个系统各自的解决思路。

北海有座岛

VibeVoice Pro声音矩阵：25种音色一键切换体验你有没有试过这样的情境：刚写完一段产品介绍文案，想立刻听听它读出来是什么效果？或者正在为短视频配音发愁——男声太沉闷、女声又不够专业，换一个音色要重新导出、再导入剪辑软件，反复折腾十几分钟？更别说多语种内容了：英语播客配完，还得切到日语版本，调参数、试效果、调节奏……整个流程像在调试一台老式收音机。

本地部署 TTS 方案横向对比：Fish Speech、CosyVoice 2、GPT-SoVITS 与 VoxFlash-TTS系列文章导航本文是「语音合成技术系列」第五篇，从工程选型角度横向对比当前主流的本地可部署 TTS 方案。

语音合成技术发展简史：从拼接合成到神经网络 TTS本文是「语音合成技术系列」第一篇，梳理语音合成技术从早期到现在的演进脉络。语音合成（Text-to-Speech，TTS）是让机器开口说话的技术。这件事听起来简单，实际上是一个横跨声学、语言学、信号处理和深度学习的复杂工程问题。

云声配音免费AI语音合成，300+真人音色、40+语种全开做短视频解说、知识口播、有声书、课程配音、跨境内容的小伙伴，大概率都被配音问题折磨过：付费工具会员贵、优质音色单独加价，免费工具音色机械生硬、自带水印杂音，好不容易找到能用的，语种不全、情绪死板，成片质感大打折扣。

希尔贝壳AISHELL

开源发布丨SMIIP-NV 语料库在追求语音合成自然度和情感表现力的道路上，一个长期存在的技术挑战在于：如何让机器生成的语音，像真人一样自然地发出笑声、哭声或咳嗽等非言语声音（Non-Verbal Sounds，NVs）。这些声音是传递情感、丰富交流的重要载体。然而，当前大多数高质量语音合成数据集都缺乏对这些非言语声音的精确标注，这直接导致了能够自然生成此类声音的语音合成系统寥寥无几。为了填补这一关键数据空白，希尔贝壳联合昆山杜克大学正式开源”SMIIP-NV 数据集”。这是目前已知规模最大的、开源的、包含非言语声音标注的情感语音合成数

OpenClaw TTS 语音合成详解：让 AI 助手开口说话语音交互是人机交互最自然的方式之一，而文本转语音（Text-to-Speech，TTS）技术则是实现语音交互的核心能力。OpenClaw 作为新一代 AI Agent 框架，内置了强大的 TTS 语音合成能力，支持 ElevenLabs、OpenAI、Microsoft 以及讯飞等多个语音引擎，让 AI 助手能够以自然流畅的语音与用户交流。本文将深入剖析 OpenClaw TTS 的架构设计、配置方法、多引擎支持、语音参数调优、多语言处理等核心技术，并通过丰富的代码示例和实战案例，帮助开发者全面掌握 Op

OddTTS更新：十年前老笔记本以纯CPU跑中英混合语音合成上个星期分别测试了一下两个轻量级的语音合成模型，分别是：其中Kokoro以更低的CPU要求，可完美达成我的小落同学项目的实时语音交互的需求，因此现在我已经将我的小落同学的主打语音合成在OddTTS上切到了kokoro v1.1。

韵母的一种可能的音位归纳这篇短文想讨论的，不是普通话韵母怎么拼写，而是如果把韵母重新整理成一套更紧的系统，能不能从中看出一种较为整齐的音位归纳。

按韵基分类的韵母分类法与汉语拼音方案关系说明这份说明只想说明一件事：我在整理现代通用汉语韵母时，做出了一张按“韵基”分类的韵母分类表。把这张表与《汉语拼音方案》的韵母系统进行对照后，我发现，两者在主体分类框架上是高度一致的。为了避免“韵母分类法”这个名称过于笼统，本文把这套方法明确称为“按韵基分类的韵母分类法”。

OddTTS：加入Kokoro语音合成支持，完全纯本地CPU跑语音合成前两天针对轻量级TTS引擎Kokoro做了一些测试（ https://mp.weixin.qq.com/s/xKBLfAkfImwHrjYIml0KuA ），测试下来发现效果居然挺好的，而且自带8种音色的支持，纯CPU跑，速度还快，测完了我就停不下来了，当时就想把它整合到我的OddTTS项目，今天周末终于有空，于是就简单搞了一下，现在已经在我的小落同学上用上了。

Qwen3-TTS-12Hz-1.7B-VoiceDesign在虚拟现实中的应用：沉浸式语音体验想象一下，你戴上虚拟现实头盔，进入一个奇幻世界。迎面走来的精灵向导开口说话，声音清脆悦耳，带着森林的灵动气息。你向左转，听到远处巨龙的低吼，声音低沉浑厚，仿佛从山洞深处传来。你开口询问，向导立刻回应，声音自然流畅，就像真人在你身边对话。

莽夫搞战术

【MOSS-TTS】一款适用于实际应用的TTS基础模型【ModelScope】【github】【huggingface】【Blog】MOSS‑TTS 家族是由 MOSI.AI 与 OpenMOSS 团队推出的开源语音与声音生成模型家族。 MOSS-TTS是一款新一代、适用于实际应用的TTS基础模型，专注于：

【MLLM】Qwen3-TTS语音生成模型ModerScope：https://www.modelscope.cn/collections/Qwen/Qwen3-TTS HuggingFace：https://huggingface.co/collections/Qwen/qwen3-tts Github:https://github.com/QwenLM/Qwen3-TTS