tts

花千树-0103 小时前
人工智能·深度学习·ai·语音识别·tts
IndexTTS2 推理性能分析IndexTTS2 是典型的自回归模型(逐 token 生成),对 GPU 性能特别敏感。➡️ 使用显卡能提升 8 倍 ~ 80 倍 (取决于 GPU 型号、批量、FP16 支持等)
七夜zippoe2 天前
人工智能·ai·语音合成·tts·openclaw
OpenClaw TTS 语音合成详解:让 AI 助手开口说话语音交互是人机交互最自然的方式之一,而文本转语音(Text-to-Speech,TTS)技术则是实现语音交互的核心能力。OpenClaw 作为新一代 AI Agent 框架,内置了强大的 TTS 语音合成能力,支持 ElevenLabs、OpenAI、Microsoft 以及讯飞等多个语音引擎,让 AI 助手能够以自然流畅的语音与用户交流。本文将深入剖析 OpenClaw TTS 的架构设计、配置方法、多引擎支持、语音参数调优、多语言处理等核心技术,并通过丰富的代码示例和实战案例,帮助开发者全面掌握 Op
aosky5 天前
人工智能·tts
OmniVoice:支持 600+ 语言的零样本语音克隆 TTS 系统OmniVoice:支持 600+ 语言的零样本语音克隆 TTS 系统k2-fsa 团队在 GitHub 上开源了 OmniVoice 项目,这是一个基于扩散语言模型架构的多语言文本转语音(TTS)系统,具备零样本语音克隆能力,支持 600 多种语言的高质量语音生成。
桑榆肖物8 天前
数据库·edge·音视频·tts
有字幕,没配音?用浏览器自带语音能力,让网页视频直接“开口说话”本文介绍如何利用浏览器自带的语音能力,为网页视频快速添加配音。在很多视频内容场景中,虽然已经有了字幕,但缺乏配音会让用户体验大打折扣。通过浏览器的语音合成功能,我们可以轻松实现“字幕转语音”,让视频内容更生动。
贾宝玉的玉宝贾10 天前
voip·freeswitch·tts·ippbx·pbx·sip通信·kokoro
FreeSWITCH 简单图形化界面59 - 拨号应用speak,使用纯CPU的kokoro-tts播放文字如果您想通过图形化界面管理 FreeSWITCH 的场景,可直接访问以下 Web 配置界面。若需自行部署 FreeSWITCH 图形化界面,包含 Docker、脚本、ISO 镜像三种安装方式,适配不同系统环境:
带娃的IT创业者14 天前
前端·tts·ai智能体·openclaw·weclaw
WeClaw-TTS 语音合成实战:pyttsx3 本地引擎与 Edge-TTS 云服务的混合架构.md作者: WeClaw 开发团队 日期: 2026-03-25 版本: v1.0 标签: TTS、语音合成、pyttsx3、Edge-TTS、Windows COM、qasync
带娃的IT创业者18 天前
缓存·tts·异步编程·pyttsx3·qasync·windows sapi5·com 线程模型
TTS静默之谜:pyttsx3 全局缓存陷阱与qasync环境四轮诊断实战第二季系列文章第 1 篇(总第 18 篇) - Windows TTS · pyttsx3 · qasync · COM 线程模型 · 第三方库全局状态
莽夫搞战术1 个月前
语音合成·tts·moss
【MOSS-TTS】一款适用于实际应用的TTS基础模型【ModelScope】 【github】 【huggingface】 【Blog】MOSS‑TTS 家族是由 MOSI.AI 与 OpenMOSS 团队 推出的开源 语音与声音生成模型家族。 MOSS-TTS是一款新一代、适用于实际应用的TTS基础模型,专注于:
云蝠呼叫大模型联络中心2 个月前
系统架构·tts·asr·外呼系统·ai外呼·大模型呼叫·voiceagent
深度解析|云蝠智能大模型呼叫系统架构:神鹤双擎 + 暴风引擎,低延迟高并发解锁呼叫中心降本增效新路径云蝠智能大模型呼叫系统是一款 AI 原生的大模型语音智能体,采用全栈自研的分层架构设计,区别于传统 "AI + 呼叫中心" 的简单叠加方案云蝠智能。核心架构分为五层协同架构(业务逻辑视角)与六层技术架构(技术实现视角),通过神鹤大模型双擎驱动与暴风引擎并行计算,实现毫秒级响应与复杂语义理解,构建端到端智能呼叫赋能体系。
J ..2 个月前
rk3588·tts·melo
MeloTTS 生成 RKNN 模型方案概述 🚀 本方案基于RK3588平台,通过RKNN(Rockchip Neural Network)工具链实现高效的语音生成功能。RK3588作为瑞芯微推出的高性能AIoT处理器,内置NPU(神经网络处理单元),配合RKNN工具链可高效完成端侧语音合成(TTS)任务。
山顶夕景2 个月前
大模型·语音合成·tts·tokenizer
【MLLM】Qwen3-TTS语音生成模型ModerScope:https://www.modelscope.cn/collections/Qwen/Qwen3-TTS HuggingFace:https://huggingface.co/collections/Qwen/qwen3-tts Github:https://github.com/QwenLM/Qwen3-TTS
张成AI3 个月前
tts
Qwen3-TTS:2026年开源语音克隆与AI语音生成完全指南Qwen3-TTS是由阿里云Qwen团队开发的先进多语言文本转语音(TTS)模型家族。Qwen3-TTS于2026年1月发布,代表了开源语音生成技术的重大突破,提供了以往仅在封闭商业系统中可用的功能。
未来之窗软件服务3 个月前
tts·仙盟创梦ide·东方仙盟
幽冥大陆(七十六) piper.exe 文字朗读TTS——东方仙盟练气期境准备、核心使用方法、命令行示例、文件调用细节等方面逐步说明,确保你能顺利操作:plaintextpiper.exe 配合 zh_CN-huayan-medium 的核心是通过命令行指定音库路径,支持「直接输出语音」和「读取文本文件合成语音」两种场景。
带电的小王3 个月前
tts·wavenet·tacotron·transformer tts·deep voice
TTS:论文--文本转语音系统及媒体应用概述更多内容:XiaoJ的知识星球文本到语音(TTS)技术利用深度学习生成逼真合成语音,已成为交互式媒体的关键创新。典型TTS系统包含文本分析、声学建模和声码器三大模块。本文综述了代表性深度学习TTS系统(如Tacotron 2、Transformer TTS、WaveNet 和 FastSpeech 1),并从骨干架构、输入类型、转换方式、声码器及主观评估(MOS)等方面进行对比。最后,针对实际应用提出了TTS系统开发建议。
带电的小王4 个月前
apk·tts·sherpa-onnx
sherpa-onnx:构建SherpaOnnxTts APK -- 文本转语音大模型更多内容:XiaoJ的知识星球.(1)安装你的Android Studio,请参阅 https://developer.android.com/studio
带电的小王4 个月前
tts·matcha-tts
Matcha-TTS:论文阅读 -- 文本转语音大模型更多内容:XiaoJ的知识星球Matcha-TTS是一种用于快速TTS声学建模的新型编码-解码器架构,采用最优传输条件流匹配(OT-CFM)训练。
不老刘4 个月前
harmonyos·鸿蒙·tts·sherpa
Sherpa-onnx 离线 TTS 集成解决 openharmony 下语音播报完整方案进行鸿蒙开发(基于openharmony)常常会遇到没有集成 CoreSpeechKit的情况,无法实现语音功能。
skywalk81634 个月前
tts·voice
VibeVoice轻量级实时文本转语音模型VibeVoice-Realtime-0.5B(暂不支持中文)VibeVoice-Realtime 是一个轻量级实时文本转语音模型,支持流式文本输入和强大的长篇语音生成。它可以用于构建实时TTS服务、叙述实时数据流,并让不同的大型语言模型从它们的第一个令牌开始说话(插入您首选的模型),远早于生成完整答案之前。它在大约300毫秒内产生初始可听语音(硬件依赖)。
paopao_wu4 个月前
人工智能·ai·tts
声音克隆与情感合成:Dify接入IndexTTS2《声音克隆与情感合成:IndexTTS2让AI语音会“演戏”》中,已经在本地部署了模型,可以通过它提供的web页面使用语音合成。
OpenBayes4 个月前
人工智能·深度学习·机器学习·大语言模型·tts·对话生成·语音生成
教程上新丨微软开源VibeVoice,可实现90分钟4角色自然对话近年来,文本转语音(TTS)合成技术进展显著,已能够为单一说话者合成高保真、听觉自然的短话语。然而,在面对长格式、多说话人对话音频的可扩展合成时,仍存在重要挑战,限制了诸如播客与多角色有声书场景下的应用边界。