技术栈
语音合成
七夜zippoe
3 天前
人工智能
·
ai
·
语音合成
·
tts
·
openclaw
OpenClaw TTS 语音合成详解:让 AI 助手开口说话
语音交互是人机交互最自然的方式之一,而文本转语音(Text-to-Speech,TTS)技术则是实现语音交互的核心能力。OpenClaw 作为新一代 AI Agent 框架,内置了强大的 TTS 语音合成能力,支持 ElevenLabs、OpenAI、Microsoft 以及讯飞等多个语音引擎,让 AI 助手能够以自然流畅的语音与用户交流。本文将深入剖析 OpenClaw TTS 的架构设计、配置方法、多引擎支持、语音参数调优、多语言处理等核心技术,并通过丰富的代码示例和实战案例,帮助开发者全面掌握 Op
iwgh
5 天前
语音合成
·
oddtts
·
轻量级tts
OddTTS更新:十年前老笔记本以纯CPU跑中英混合语音合成
上个星期分别测试了一下两个轻量级的语音合成模型,分别是:其中Kokoro以更低的CPU要求,可完美达成我的小落同学项目的实时语音交互的需求,因此现在我已经将我的小落同学的主打语音合成在OddTTS上切到了kokoro v1.1。
音元系统
5 天前
语音识别
·
语音合成
·
输入法
·
语音分析
·
语音系统
韵母的一种可能的音位归纳
这篇短文想讨论的,不是普通话韵母怎么拼写,而是如果把韵母重新整理成一套更紧的系统,能不能从中看出一种较为整齐的音位归纳。
音元系统
5 天前
人工智能
·
分类
·
数据挖掘
·
语音识别
·
语音合成
·
语音分析
·
语音系统
按韵基分类的韵母分类法与汉语拼音方案关系说明
这份说明只想说明一件事:我在整理现代通用汉语韵母时,做出了一张按“韵基”分类的韵母分类表。把这张表与《汉语拼音方案》的韵母系统进行对照后,我发现,两者在主体分类框架上是高度一致的。为了避免“韵母分类法”这个名称过于笼统,本文把这套方法明确称为“按韵基分类的韵母分类法”。
iwgh
11 天前
语音合成
·
kokoro
·
oddtts
OddTTS:加入Kokoro语音合成支持,完全纯本地CPU跑语音合成
前两天针对轻量级TTS引擎Kokoro做了一些测试( https://mp.weixin.qq.com/s/xKBLfAkfImwHrjYIml0KuA ),测试下来发现效果居然挺好的,而且自带8种音色的支持,纯CPU跑,速度还快,测完了我就停不下来了,当时就想把它整合到我的OddTTS项目,今天周末终于有空,于是就简单搞了一下,现在已经在我的小落同学上用上了。
Rubix-Kai
1 个月前
虚拟现实
·
语音合成
·
ai应用
Qwen3-TTS-12Hz-1.7B-VoiceDesign在虚拟现实中的应用:沉浸式语音体验
想象一下,你戴上虚拟现实头盔,进入一个奇幻世界。迎面走来的精灵向导开口说话,声音清脆悦耳,带着森林的灵动气息。你向左转,听到远处巨龙的低吼,声音低沉浑厚,仿佛从山洞深处传来。你开口询问,向导立刻回应,声音自然流畅,就像真人在你身边对话。
莽夫搞战术
1 个月前
语音合成
·
tts
·
moss
【MOSS-TTS】一款适用于实际应用的TTS基础模型
【ModelScope】 【github】 【huggingface】 【Blog】MOSS‑TTS 家族是由 MOSI.AI 与 OpenMOSS 团队 推出的开源 语音与声音生成模型家族。 MOSS-TTS是一款新一代、适用于实际应用的TTS基础模型,专注于:
山顶夕景
3 个月前
大模型
·
语音合成
·
tts
·
tokenizer
【MLLM】Qwen3-TTS语音生成模型
ModerScope:https://www.modelscope.cn/collections/Qwen/Qwen3-TTS HuggingFace:https://huggingface.co/collections/Qwen/qwen3-tts Github:https://github.com/QwenLM/Qwen3-TTS
音元系统
4 个月前
语音识别
·
语音合成
·
输入法
·
语音分析
·
语音系统
现行析音法
节调质素分析法是把音节分析成由节调与节质构成的音节并且把节质切分成质素序列的方法。在经过节调质素分析后,音节由节调与节质构成,节质在不省略零声母的情况下由声母和韵母构成,韵母分成单质韵母、前长韵母、后长韵母和三质韵母四类。单质韵母由韵腹充当,是单纯音质韵母的简称。前长韵母由韵腹和韵尾构成,是前长二合音质韵母的简称。后长韵母由韵头和韵腹构成,是后长二合音质韵母的简称。三质韵母由韵头、韵腹和韵尾构成,是三合音质韵母的简称。单质韵母、前长韵母、后长韵母和三质韵母,一一对应,依序就是根据韵头有无和韵尾有无分类分出
音元系统
4 个月前
语音识别
·
语音合成
·
输入法
·
语音模型
·
语音分析
音元系统:首页
本库提供与音元系统有关的 Markdown 文件。读者可点击上方链接,浏览相关内容。 在阅读过程中,发现有不能显示的字符,请到代码库的 font 目录下载经过修改的字体 NotoSans-Regular.ttf 并在本机上安装且在浏览器中把标准字体设置成 Noto Sans,就能浏览。 欢迎提出建议和意见,以帮助改进和完善这套语音系统的文档内容。
音元系统
4 个月前
语言模型
·
语音识别
·
语音合成
·
输入法
·
语音分析
已有析音法
析音法是分析语音的方法。分析语音,就是对语音作分析,被简称为析音。因此,分析语音的方法被简称为析音法。在汉语中,在学术上,析音法过去通常被称呼为语音分析法或音节分析法。
OpenBayes
4 个月前
人工智能
·
深度学习
·
数据集
·
图像识别
·
语音合成
·
图像生成
·
视频生成
VibeVoice-Realtime TTS重构实时语音体验;覆盖9大真实场景,WenetSpeech-Chuan让模型听懂川话
公共资源速递5 个公共数据集:* VOccl3D 三维人体遮挡视频数据集* Spatial-SSRL-81k 空间感知自监督数据集
九章云极AladdinEdu
5 个月前
大语言模型
·
语音合成
·
零样本语音克隆
·
spark-tts
·
bicodec
·
属性控制
·
voxbox数据集
论文分享 |Spark-TTS:用解耦语音令牌实现高效可控的语音合成
Spark-TTS 是一项基于大语言模型的高效文本转语音系统,其核心创新在于提出了 BiCodec——一种将语音信号分解为语义令牌和全局令牌的单流语音编码器。这种解耦结构使得模型在保持高压缩率的同时,实现了对语音属性(如音高、语速、性别)的精细控制。结合预训练LLM(Qwen2.5)和思维链推理机制,Spark-TTS 不仅支持零样本语音克隆,还能根据属性标签生成全新语音,突破了传统TTS系统依赖参考音频的限制。
糖炒狗子
5 个月前
人工智能
·
ai
·
语音合成
·
openvino
基于 OpenVINO 实现 SpeechT5 语音合成模型本地部署加速
在AI语音合成领域,本地部署语音合成模型能有效保障隐私并降低网络以来。本文将详细介绍如何基于OpenVINO工具套件,在intel设备上完成Microsoft Speech T5系列语音合成模型的本地部署,适合有一定Python基础的开发者参考。
数据堂官方账号
6 个月前
人工智能
·
计算机视觉
·
大模型
·
数据集
·
语音识别
·
语音合成
·
多模态大模型
版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域
近日,数据堂发布全新数据产品,覆盖多语种大模型预训练、多模态大模型、语音识别及计算机视觉等多个前沿方向。所有数据集经严格标注与质量控制,提供商业级使用授权且已获得科研使用许可,知识产权归属清晰可溯,可为企业及研发团队提供大规模、多样化、合规可靠的数据资源,有效助力大模型与AI技术迭代升级,赋能全球应用场景创新。
CodeShare
8 个月前
transformer
·
语音合成
·
文本转语音
TTS-1技术报告:基于Transformer的文本转语音模型
我们介绍了Inworld TTS-1,这是一组两个基于Transformer的自回归文本转语音(TTS)模型。我们最大的模型TTS-1-Max拥有88亿参数,专为要求苛刻的应用场景提供最高质量和表现力。TTS-1是我们最高效的模型,具有16亿参数,专为实时语音合成和边缘设备用例而构建。
包达叔
10 个月前
人工智能
·
语音识别
·
语音合成
·
离线
超简单部署离线语音合成TTS和语音识别
一篇文章讲清楚超简单 离线语音合成TTS 和 离线语音识别 系统部署 本文只介绍两个轻量级的 语音合成用piper, 语音识别用vosk 部署简单,效果勉强
shichaog
1 年前
语音合成
·
tts
语音合成之十二 TTS声学编解码器的演进
语音合成(Text-to-Speech, TTS)技术的核心目标之一是生成高度自然、富有表现力且与真人无异的语音。在这一追求中,声码器(Vocoder),或更广义地说,声学编解码器(Acoustic Codec)/语音令牌化器(Speech Tokenizer),扮演着至关重要的角色。它的性能直接决定了合成语音的最终质量、自然度乃至可控性 。
shichaog
1 年前
spark
·
语音合成
·
tts
·
端到端
语音合成之一TTS技术发展史综述
文本转语音(Text-to-Speech,TTS)技术是一种将书面文本自动转换为人类语音的技术。它是一门交叉学科,融合了语言学、声学、计算机科学和电子工程等多个领域的知识。TTS技术通过计算机合成逼真的语音,使得用户能够通过听觉获取信息,极大地扩展了人机交互的方式。从早期的机械发声装置到如今高度智能化的语音合成系统,TTS技术已经渗透到我们日常生活的方方面面,例如智能语音助手(亚马逊Alexa、豆包、苹果Siri等)、屏幕阅读器(为视力障碍人士和阅读障碍者)、教育软件、媒体与娱乐(播客、有声读物、视频/游
ZHW_AI课题组
1 年前
python
·
音视频
·
语音合成
·
通义千问
·
tts
调用通义千问实现语音合成并将合成的音频通过扬声器播放
郭建东,男,西安工程大学电子信息学院,2024级研究生 研究方向:机器视觉与人工智能 电子邮件:1229963266@qq.com