tts

学编程的小程1 天前
tts
花小钱搭了个私有TTS服务,方便多了想把自己攒的小说转成有声书在通勤路上听,试过几个在线 TTS 平台,结论是:要么收费、要么每天有字数上限、要么生成速度快得让人崩溃。买会员吧,一年下来也是一笔开销,而且数据还得经过别人的服务器。
黑贝是条狗8 天前
tts
HadaTTS藏语文本转语言技术最近有个粉丝想要藏语的tts,不清楚他是开发还是想怎么实现,于是从py移植了一个藏语模型我叫他哈达TTS
CV-deeplearning11 天前
llm·tts·自动剪辑·narratoai·ai影视解说
太强了!NarratoAI:一键 AI 影视解说+自动剪辑,10分钟视频成本仅0.1元💡 你是否还在手动写解说文案、逐帧剪辑视频、一条一条加字幕?今天介绍一个 GitHub 爆款开源项目,它用大模型+自动化剪辑,把影视解说从几小时压缩到几分钟!
ai_coder_ai16 天前
tts·autojs·自动化脚本·冰狐智能辅助·easyclick
在自动化脚本中如何实现文本转语音?在自动化脚本开发中,语音合成(文本转语音 TTS) 是提升交互体验、实现实时播报、状态反馈、任务提醒的核心能力。本文从基础原理、API 详解、环境准备、多场景 Demo 源码、调试优化、常见问题全流程讲解,助力开发者快速落地 TTS 功能。
shao91851620 天前
语音识别·tts·语音克隆·elevenlabs·stt·变声器·音乐api
第11章 Streaming(中):高级音频应用(1)——项目六:语音克隆、变声器与文本转录器本章是音频的高级应用,首先介绍专业语音大模型ElevenLabs,并与Gradio结合实现语音克隆、语音变声器与文本转录器。然后介绍Python实时通信库FastRTC,内容包括WebRTC协议、FastRTC的内置功能与自定义路由、核心特性Stream的构造参数及运行方式、配置连接TURN服务器等。接着介绍如何通过Twilio连接TURN服务器,内容包括STUN、ICE与Twillo关系、Twilio的网络穿透服务。最后通过实现AI通话——通过Twilio接入Stream拨打和接听智能电话,内容主要有通
Apple_羊先森1 个月前
ai·tts·moss-tts-nano
MOSS-TTS-Nano 教程 01:快速上手与整体认识这篇教程的目标不是把所有细节一次讲完,而是先把 MOSS-TTS-Nano 的整体结构看明白。只要这层想通,后面看 CLI、Web Demo 和源码都会轻松很多。
互联网散修1 个月前
华为·harmonyos·tts·语音播报
鸿蒙实战:运动健康类应用核心组件——语音播报模块设计与实现完整源码:SportTrackDemo-SpeechManager.ts在运动健康类应用中,用户跑步或骑行时往往不方便一直盯着手机屏幕。语音播报能够将运动数据、状态提醒、安全预警等信息实时“读”出来,让用户专注于运动本身。本文分享一个可扩展的语音播报系统设计,支持优先级队列、打断策略、防重复冷却等特性。
神州数码云基地1 个月前
人工智能·ai·语音识别·前端开发·tts·ai语音
AI助手语音交互:从技术到体验在人工智能技术飞速发展的今天,AI 助手已从 “文字框里的应答者” 进化为 “能听会说的智能伙伴”。无论是手机端的 Siri、小爱同学,还是 Web 端的智能客服、教育 AI 助手,语音交互都成为其核心竞争力 —— 用户无需手动输入,只需开口提问,AI 助手就能用自然的语音回应。
antzou1 个月前
tts·文本转语音·matcha·有声书
文本转语音(TTS)支持 Matcha-TTS,长文本自然合成音频文件。基于 Eclipse RCP 技术框架开发,企业级应用的技术。 核心组件
今夕资源网1 个月前
音视频·tts·最新版·indextts·语音软件·文字转声音·字幕转音频
IndexTTS2今夕版最新版本号2026-04-12再次更新 新添加功能SRT字幕文件生成音频 以及生成音频同时生成SRT 字幕文件IndexTTS2今夕版最新版本号2026-04-12再次更新 新添加功能SRT字幕文件生成音频 以及生成音频同时生成SRT 字幕文件 本项目基于 `IndexTTS2` 搭建,提供本地化的零样本文本转语音能力。 它可以通过一段参考音频克隆音色,并结合文本内容生成对应语音;同时支持情感控制、术语读音管理、 示例管理和 WebUI 交互操作,适合用于配音、角色语音生成、短句播报、内容创作和本地测试。
antzou1 个月前
onnx·tts·asr·vad·paraformer
字幕视频合成音频 + 背景图 + 字幕合成硬/软字幕 MP4 视频。基于 Eclipse RCP 技术框架开发,企业级应用的技术。 核心组件
花千树-0101 个月前
人工智能·aigc·ai编程·tts
基于 IndexTTS2 的数字人语音生成 Pipeline 设计IndexTTS2 是目前情感控制与时长控制能力最强的开源自回归 TTS 模型,非常适合作为数字人系统的「语音生成核心模块」。
花千树-0101 个月前
人工智能·深度学习·ai·语音识别·tts
IndexTTS2 推理性能分析IndexTTS2 是典型的自回归模型(逐 token 生成),对 GPU 性能特别敏感。➡️ 使用显卡能提升 8 倍 ~ 80 倍 (取决于 GPU 型号、批量、FP16 支持等)
七夜zippoe1 个月前
人工智能·ai·语音合成·tts·openclaw
OpenClaw TTS 语音合成详解:让 AI 助手开口说话语音交互是人机交互最自然的方式之一,而文本转语音(Text-to-Speech,TTS)技术则是实现语音交互的核心能力。OpenClaw 作为新一代 AI Agent 框架,内置了强大的 TTS 语音合成能力,支持 ElevenLabs、OpenAI、Microsoft 以及讯飞等多个语音引擎,让 AI 助手能够以自然流畅的语音与用户交流。本文将深入剖析 OpenClaw TTS 的架构设计、配置方法、多引擎支持、语音参数调优、多语言处理等核心技术,并通过丰富的代码示例和实战案例,帮助开发者全面掌握 Op
aosky2 个月前
人工智能·tts
OmniVoice:支持 600+ 语言的零样本语音克隆 TTS 系统OmniVoice:支持 600+ 语言的零样本语音克隆 TTS 系统k2-fsa 团队在 GitHub 上开源了 OmniVoice 项目,这是一个基于扩散语言模型架构的多语言文本转语音(TTS)系统,具备零样本语音克隆能力,支持 600 多种语言的高质量语音生成。
桑榆肖物2 个月前
数据库·edge·音视频·tts
有字幕,没配音?用浏览器自带语音能力,让网页视频直接“开口说话”本文介绍如何利用浏览器自带的语音能力,为网页视频快速添加配音。在很多视频内容场景中,虽然已经有了字幕,但缺乏配音会让用户体验大打折扣。通过浏览器的语音合成功能,我们可以轻松实现“字幕转语音”,让视频内容更生动。
贾宝玉的玉宝贾2 个月前
voip·freeswitch·tts·ippbx·pbx·sip通信·kokoro
FreeSWITCH 简单图形化界面59 - 拨号应用speak,使用纯CPU的kokoro-tts播放文字如果您想通过图形化界面管理 FreeSWITCH 的场景,可直接访问以下 Web 配置界面。若需自行部署 FreeSWITCH 图形化界面,包含 Docker、脚本、ISO 镜像三种安装方式,适配不同系统环境:
带娃的IT创业者2 个月前
前端·tts·ai智能体·openclaw·weclaw
WeClaw-TTS 语音合成实战:pyttsx3 本地引擎与 Edge-TTS 云服务的混合架构.md作者: WeClaw 开发团队 日期: 2026-03-25 版本: v1.0 标签: TTS、语音合成、pyttsx3、Edge-TTS、Windows COM、qasync
带娃的IT创业者2 个月前
缓存·tts·异步编程·pyttsx3·qasync·windows sapi5·com 线程模型
TTS静默之谜:pyttsx3 全局缓存陷阱与qasync环境四轮诊断实战第二季系列文章第 1 篇(总第 18 篇) - Windows TTS · pyttsx3 · qasync · COM 线程模型 · 第三方库全局状态
莽夫搞战术2 个月前
语音合成·tts·moss
【MOSS-TTS】一款适用于实际应用的TTS基础模型【ModelScope】 【github】 【huggingface】 【Blog】MOSS‑TTS 家族是由 MOSI.AI 与 OpenMOSS 团队 推出的开源 语音与声音生成模型家族。 MOSS-TTS是一款新一代、适用于实际应用的TTS基础模型,专注于: