技术栈
语音合成
音元系统
1 天前
语音识别
·
语音合成
·
输入法
·
语音分析
·
语音系统
现行析音法
节调质素分析法是把音节分析成由节调与节质构成的音节并且把节质切分成质素序列的方法。在经过节调质素分析后,音节由节调与节质构成,节质在不省略零声母的情况下由声母和韵母构成,韵母分成单质韵母、前长韵母、后长韵母和三质韵母四类。单质韵母由韵腹充当,是单纯音质韵母的简称。前长韵母由韵腹和韵尾构成,是前长二合音质韵母的简称。后长韵母由韵头和韵腹构成,是后长二合音质韵母的简称。三质韵母由韵头、韵腹和韵尾构成,是三合音质韵母的简称。单质韵母、前长韵母、后长韵母和三质韵母,一一对应,依序就是根据韵头有无和韵尾有无分类分出
音元系统
3 天前
语音识别
·
语音合成
·
输入法
·
语音模型
·
语音分析
音元系统:首页
本库提供与音元系统有关的 Markdown 文件。读者可点击上方链接,浏览相关内容。 在阅读过程中,发现有不能显示的字符,请到代码库的 font 目录下载经过修改的字体 NotoSans-Regular.ttf 并在本机上安装且在浏览器中把标准字体设置成 Noto Sans,就能浏览。 欢迎提出建议和意见,以帮助改进和完善这套语音系统的文档内容。
音元系统
4 天前
语言模型
·
语音识别
·
语音合成
·
输入法
·
语音分析
已有析音法
析音法是分析语音的方法。分析语音,就是对语音作分析,被简称为析音。因此,分析语音的方法被简称为析音法。在汉语中,在学术上,析音法过去通常被称呼为语音分析法或音节分析法。
OpenBayes
6 天前
人工智能
·
深度学习
·
数据集
·
图像识别
·
语音合成
·
图像生成
·
视频生成
VibeVoice-Realtime TTS重构实时语音体验;覆盖9大真实场景,WenetSpeech-Chuan让模型听懂川话
公共资源速递5 个公共数据集:* VOccl3D 三维人体遮挡视频数据集* Spatial-SSRL-81k 空间感知自监督数据集
九章云极AladdinEdu
1 个月前
大语言模型
·
语音合成
·
零样本语音克隆
·
spark-tts
·
bicodec
·
属性控制
·
voxbox数据集
论文分享 |Spark-TTS:用解耦语音令牌实现高效可控的语音合成
Spark-TTS 是一项基于大语言模型的高效文本转语音系统,其核心创新在于提出了 BiCodec——一种将语音信号分解为语义令牌和全局令牌的单流语音编码器。这种解耦结构使得模型在保持高压缩率的同时,实现了对语音属性(如音高、语速、性别)的精细控制。结合预训练LLM(Qwen2.5)和思维链推理机制,Spark-TTS 不仅支持零样本语音克隆,还能根据属性标签生成全新语音,突破了传统TTS系统依赖参考音频的限制。
糖炒狗子
1 个月前
人工智能
·
ai
·
语音合成
·
openvino
基于 OpenVINO 实现 SpeechT5 语音合成模型本地部署加速
在AI语音合成领域,本地部署语音合成模型能有效保障隐私并降低网络以来。本文将详细介绍如何基于OpenVINO工具套件,在intel设备上完成Microsoft Speech T5系列语音合成模型的本地部署,适合有一定Python基础的开发者参考。
数据堂官方账号
3 个月前
人工智能
·
计算机视觉
·
大模型
·
数据集
·
语音识别
·
语音合成
·
多模态大模型
版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域
近日,数据堂发布全新数据产品,覆盖多语种大模型预训练、多模态大模型、语音识别及计算机视觉等多个前沿方向。所有数据集经严格标注与质量控制,提供商业级使用授权且已获得科研使用许可,知识产权归属清晰可溯,可为企业及研发团队提供大规模、多样化、合规可靠的数据资源,有效助力大模型与AI技术迭代升级,赋能全球应用场景创新。
CodeShare
5 个月前
transformer
·
语音合成
·
文本转语音
TTS-1技术报告:基于Transformer的文本转语音模型
我们介绍了Inworld TTS-1,这是一组两个基于Transformer的自回归文本转语音(TTS)模型。我们最大的模型TTS-1-Max拥有88亿参数,专为要求苛刻的应用场景提供最高质量和表现力。TTS-1是我们最高效的模型,具有16亿参数,专为实时语音合成和边缘设备用例而构建。
包达叔
6 个月前
人工智能
·
语音识别
·
语音合成
·
离线
超简单部署离线语音合成TTS和语音识别
一篇文章讲清楚超简单 离线语音合成TTS 和 离线语音识别 系统部署 本文只介绍两个轻量级的 语音合成用piper, 语音识别用vosk 部署简单,效果勉强
shichaog
7 个月前
语音合成
·
tts
语音合成之十二 TTS声学编解码器的演进
语音合成(Text-to-Speech, TTS)技术的核心目标之一是生成高度自然、富有表现力且与真人无异的语音。在这一追求中,声码器(Vocoder),或更广义地说,声学编解码器(Acoustic Codec)/语音令牌化器(Speech Tokenizer),扮演着至关重要的角色。它的性能直接决定了合成语音的最终质量、自然度乃至可控性 。
shichaog
8 个月前
spark
·
语音合成
·
tts
·
端到端
语音合成之一TTS技术发展史综述
文本转语音(Text-to-Speech,TTS)技术是一种将书面文本自动转换为人类语音的技术。它是一门交叉学科,融合了语言学、声学、计算机科学和电子工程等多个领域的知识。TTS技术通过计算机合成逼真的语音,使得用户能够通过听觉获取信息,极大地扩展了人机交互的方式。从早期的机械发声装置到如今高度智能化的语音合成系统,TTS技术已经渗透到我们日常生活的方方面面,例如智能语音助手(亚马逊Alexa、豆包、苹果Siri等)、屏幕阅读器(为视力障碍人士和阅读障碍者)、教育软件、媒体与娱乐(播客、有声读物、视频/游
ZHW_AI课题组
9 个月前
python
·
音视频
·
语音合成
·
通义千问
·
tts
调用通义千问实现语音合成并将合成的音频通过扬声器播放
郭建东,男,西安工程大学电子信息学院,2024级研究生 研究方向:机器视觉与人工智能 电子邮件:1229963266@qq.com
天命小猪
10 个月前
语音合成
·
tts
FishSpeech应用篇——专属朗读人
shichaog
1 年前
人工智能
·
深度学习
·
神经网络
·
语音合成
·
声码器
第四章 神经网络声码器
WaveNet 是DeepMind 提出的一种深度学习声码器,2016 年 9 月的一篇论文中进行了概述[1],旨在能够直接从原始音频数据生成语音。WaveNet 最初是为了改进传统的文本到语音(TTS)系统的语音质量提出的,其采用卷积神经网络生成音频波形,实现了比传统方法更自然的声音。WaveNet 的主要挑战在于需求巨大的计算资源,这使得它在实际应用中受到了限制。
Luke Ewin
1 年前
python
·
大模型
·
llm
·
语音识别
·
语音合成
·
tts
·
asr
解决安装pynini和WeTextProcessing报错问题
点击这里,访问博客最近在给别人有偿部署ASR-LLM-TTS项目时遇到安装pynini和WeTextProcessing依赖报错的问题,报错信息如下:
MTB2012
1 年前
语音识别
·
语音合成
·
web speech api
基于 Web Speech API 实现网页上的语音合成和语音识别功能
Web Speech API 是 W3C 推出的 JavaScript API,为网页赋予语音交互能力。
shichaog
1 年前
人工智能
·
语音合成
大模型之三十二-语音合成TTS(coqui) 之二 fine-tune
在 大模型之三十-语音合成TTS(coqui)[shichaog @CSDN]中提到了xttsv2的fine-tune。
芭拉拉小魔仙
1 年前
前端
·
百度
·
语音识别
·
html5
·
语音合成
·
speech
实现语音合成的三种方法:HTML5 Web Speech 、speak-tts、百度语音合成
window.speechSynthesis 是HTML5 Web Speech API的一部分,是浏览器原生提供的文本转语音功能。它允许开发者在网页上通过JavaScript调用,将文本转换为语音进行播放。 https://developer.mozilla.org/zh-CN/docs/Web/API/Web_Speech_API
王者鳜錸
1 年前
人工智能
·
音视频
·
语音合成
SPIRNGBOOT+VUE实现浏览器播放音频流并合成音频
一、语音合成支持流式返回,通过WS可以实时拿到音频流,那么我们如何在VUE项目中实现合成功能呢。语音合成应用非常广泛,如商家广告合成、驾校声音合成、新闻播报、在线听书等等场景都会用到语音合成。
代码讲故事
1 年前
人工智能
·
ocr
·
语音识别
·
语音合成
·
tts
·
文本转语音
·
语种
AI文本转语音:Toucan TTS 支持 7000 多种语言的语音合成工具箱,突破性 OCR 技术:支持多种语言识别,媲美顶级云服务
AI文本转语音:Toucan TTS 支持 7000 多种语言的语音合成工具箱,突破性 OCR 技术:支持多种语言识别,媲美顶级云服务。