技术栈
tts
Apple_羊先森
6 天前
ai
·
tts
·
moss-tts-nano
MOSS-TTS-Nano 教程 01:快速上手与整体认识
这篇教程的目标不是把所有细节一次讲完,而是先把 MOSS-TTS-Nano 的整体结构看明白。只要这层想通,后面看 CLI、Web Demo 和源码都会轻松很多。
互联网散修
8 天前
华为
·
harmonyos
·
tts
·
语音播报
鸿蒙实战:运动健康类应用核心组件——语音播报模块设计与实现
完整源码:SportTrackDemo-SpeechManager.ts在运动健康类应用中,用户跑步或骑行时往往不方便一直盯着手机屏幕。语音播报能够将运动数据、状态提醒、安全预警等信息实时“读”出来,让用户专注于运动本身。本文分享一个可扩展的语音播报系统设计,支持优先级队列、打断策略、防重复冷却等特性。
神州数码云基地
13 天前
人工智能
·
ai
·
语音识别
·
前端开发
·
tts
·
ai语音
AI助手语音交互:从技术到体验
在人工智能技术飞速发展的今天,AI 助手已从 “文字框里的应答者” 进化为 “能听会说的智能伙伴”。无论是手机端的 Siri、小爱同学,还是 Web 端的智能客服、教育 AI 助手,语音交互都成为其核心竞争力 —— 用户无需手动输入,只需开口提问,AI 助手就能用自然的语音回应。
antzou
14 天前
tts
·
文本转语音
·
matcha
·
有声书
文本转语音(TTS)
支持 Matcha-TTS,长文本自然合成音频文件。基于 Eclipse RCP 技术框架开发,企业级应用的技术。 核心组件
今夕资源网
15 天前
音视频
·
tts
·
最新版
·
indextts
·
语音软件
·
文字转声音
·
字幕转音频
IndexTTS2今夕版最新版本号2026-04-12再次更新 新添加功能SRT字幕文件生成音频 以及生成音频同时生成SRT 字幕文件
IndexTTS2今夕版最新版本号2026-04-12再次更新 新添加功能SRT字幕文件生成音频 以及生成音频同时生成SRT 字幕文件 本项目基于 `IndexTTS2` 搭建,提供本地化的零样本文本转语音能力。 它可以通过一段参考音频克隆音色,并结合文本内容生成对应语音;同时支持情感控制、术语读音管理、 示例管理和 WebUI 交互操作,适合用于配音、角色语音生成、短句播报、内容创作和本地测试。
antzou
15 天前
onnx
·
tts
·
asr
·
vad
·
paraformer
字幕视频合成
音频 + 背景图 + 字幕合成硬/软字幕 MP4 视频。基于 Eclipse RCP 技术框架开发,企业级应用的技术。 核心组件
花千树-010
18 天前
人工智能
·
aigc
·
ai编程
·
tts
基于 IndexTTS2 的数字人语音生成 Pipeline 设计
IndexTTS2 是目前情感控制与时长控制能力最强的开源自回归 TTS 模型,非常适合作为数字人系统的「语音生成核心模块」。
花千树-010
20 天前
人工智能
·
深度学习
·
ai
·
语音识别
·
tts
IndexTTS2 推理性能分析
IndexTTS2 是典型的自回归模型(逐 token 生成),对 GPU 性能特别敏感。➡️ 使用显卡能提升 8 倍 ~ 80 倍 (取决于 GPU 型号、批量、FP16 支持等)
七夜zippoe
22 天前
人工智能
·
ai
·
语音合成
·
tts
·
openclaw
OpenClaw TTS 语音合成详解:让 AI 助手开口说话
语音交互是人机交互最自然的方式之一,而文本转语音(Text-to-Speech,TTS)技术则是实现语音交互的核心能力。OpenClaw 作为新一代 AI Agent 框架,内置了强大的 TTS 语音合成能力,支持 ElevenLabs、OpenAI、Microsoft 以及讯飞等多个语音引擎,让 AI 助手能够以自然流畅的语音与用户交流。本文将深入剖析 OpenClaw TTS 的架构设计、配置方法、多引擎支持、语音参数调优、多语言处理等核心技术,并通过丰富的代码示例和实战案例,帮助开发者全面掌握 Op
aosky
25 天前
人工智能
·
tts
OmniVoice:支持 600+ 语言的零样本语音克隆 TTS 系统
OmniVoice:支持 600+ 语言的零样本语音克隆 TTS 系统k2-fsa 团队在 GitHub 上开源了 OmniVoice 项目,这是一个基于扩散语言模型架构的多语言文本转语音(TTS)系统,具备零样本语音克隆能力,支持 600 多种语言的高质量语音生成。
桑榆肖物
1 个月前
数据库
·
edge
·
音视频
·
tts
有字幕,没配音?用浏览器自带语音能力,让网页视频直接“开口说话”
本文介绍如何利用浏览器自带的语音能力,为网页视频快速添加配音。在很多视频内容场景中,虽然已经有了字幕,但缺乏配音会让用户体验大打折扣。通过浏览器的语音合成功能,我们可以轻松实现“字幕转语音”,让视频内容更生动。
贾宝玉的玉宝贾
1 个月前
voip
·
freeswitch
·
tts
·
ippbx
·
pbx
·
sip通信
·
kokoro
FreeSWITCH 简单图形化界面59 - 拨号应用speak,使用纯CPU的kokoro-tts播放文字
如果您想通过图形化界面管理 FreeSWITCH 的场景,可直接访问以下 Web 配置界面。若需自行部署 FreeSWITCH 图形化界面,包含 Docker、脚本、ISO 镜像三种安装方式,适配不同系统环境:
带娃的IT创业者
1 个月前
前端
·
tts
·
ai智能体
·
openclaw
·
weclaw
WeClaw-TTS 语音合成实战:pyttsx3 本地引擎与 Edge-TTS 云服务的混合架构.md
作者: WeClaw 开发团队 日期: 2026-03-25 版本: v1.0 标签: TTS、语音合成、pyttsx3、Edge-TTS、Windows COM、qasync
带娃的IT创业者
1 个月前
缓存
·
tts
·
异步编程
·
pyttsx3
·
qasync
·
windows sapi5
·
com 线程模型
TTS静默之谜:pyttsx3 全局缓存陷阱与qasync环境四轮诊断实战
第二季系列文章第 1 篇(总第 18 篇) - Windows TTS · pyttsx3 · qasync · COM 线程模型 · 第三方库全局状态
莽夫搞战术
2 个月前
语音合成
·
tts
·
moss
【MOSS-TTS】一款适用于实际应用的TTS基础模型
【ModelScope】 【github】 【huggingface】 【Blog】MOSS‑TTS 家族是由 MOSI.AI 与 OpenMOSS 团队 推出的开源 语音与声音生成模型家族。 MOSS-TTS是一款新一代、适用于实际应用的TTS基础模型,专注于:
云蝠呼叫大模型联络中心
3 个月前
系统架构
·
tts
·
asr
·
外呼系统
·
ai外呼
·
大模型呼叫
·
voiceagent
深度解析|云蝠智能大模型呼叫系统架构:神鹤双擎 + 暴风引擎,低延迟高并发解锁呼叫中心降本增效新路径
云蝠智能大模型呼叫系统是一款 AI 原生的大模型语音智能体,采用全栈自研的分层架构设计,区别于传统 "AI + 呼叫中心" 的简单叠加方案云蝠智能。核心架构分为五层协同架构(业务逻辑视角)与六层技术架构(技术实现视角),通过神鹤大模型双擎驱动与暴风引擎并行计算,实现毫秒级响应与复杂语义理解,构建端到端智能呼叫赋能体系。
J ..
3 个月前
rk3588
·
tts
·
melo
MeloTTS 生成 RKNN 模型
方案概述 🚀 本方案基于RK3588平台,通过RKNN(Rockchip Neural Network)工具链实现高效的语音生成功能。RK3588作为瑞芯微推出的高性能AIoT处理器,内置NPU(神经网络处理单元),配合RKNN工具链可高效完成端侧语音合成(TTS)任务。
山顶夕景
3 个月前
大模型
·
语音合成
·
tts
·
tokenizer
【MLLM】Qwen3-TTS语音生成模型
ModerScope:https://www.modelscope.cn/collections/Qwen/Qwen3-TTS HuggingFace:https://huggingface.co/collections/Qwen/qwen3-tts Github:https://github.com/QwenLM/Qwen3-TTS
张成AI
3 个月前
tts
Qwen3-TTS:2026年开源语音克隆与AI语音生成完全指南
Qwen3-TTS是由阿里云Qwen团队开发的先进多语言文本转语音(TTS)模型家族。Qwen3-TTS于2026年1月发布,代表了开源语音生成技术的重大突破,提供了以往仅在封闭商业系统中可用的功能。
未来之窗软件服务
4 个月前
tts
·
仙盟创梦ide
·
东方仙盟
幽冥大陆(七十六) piper.exe 文字朗读TTS——东方仙盟练气期
境准备、核心使用方法、命令行示例、文件调用细节等方面逐步说明,确保你能顺利操作:plaintextpiper.exe 配合 zh_CN-huayan-medium 的核心是通过命令行指定音库路径,支持「直接输出语音」和「读取文本文件合成语音」两种场景。