python edge-tts实现tts文本转语音、音频

文章目录

实现tts有多种方式,这里用的是微软edge(浏览器那个公司)的edge-tts。
因为非页面版不支持ssml,所以精确的控制做不到,但是可以实现基本的文本转云因。

edge-tts实现

这里用的是edge-tts来实现的。

通用部分-安装依赖

复制代码
pip install edge_tts
pip install asyncio

生成不使用标签的音频

代码:

py 复制代码
import asyncio
import edge_tts


# 定义文本转语音的异步函数
async def text_to_speech(text, output_file="output.mp3", voice="zh-CN-XiaoyiNeural", rate="+0%", volume="+0%"):
    """
    将文本转为语音并保存为 MP3 文件
    :param text: 要转换的文本内容
    :param output_file: 输出音频文件路径
    :param voice: 语音音色(支持的音色列表可通过 edge-tts --list-voices 命令查看)
    :param rate: 语速(+0% 为默认,+50% 加快,-50% 减慢)
    :param volume: 音量(+0% 为默认,范围 -100% 到 +100%)
    """
    try:
        # 创建 TTS 通信对象
        communicate = edge_tts.Communicate(
            text=text,
            voice=voice,
            rate=rate,
            volume=volume
        )
        # 将语音流保存到文件
        await communicate.save(output_file)
        print(f"语音文件已保存至:{output_file}")
    except Exception as e:
        print(f"转换失败:{e}")


# 主函数
if __name__ == "__main__":
    # 要转换的文本内容
    text_content = "你好,这是使用 edge_tts 实现的文本转语音示例,支持自定义音色和语速。"

    # 调用异步函数
    asyncio.run(text_to_speech(
        text=text_content,
        output_file="my_voice.mp3",
        voice="zh-CN-YunxiNeural",  # 云希(男),也可换为 zh-CN-XiaoyiNeural(晓伊,女)
        rate="+10%",  # 语速加快 10%
        volume="+0%"  # 音量默认
    ))

实测没问题,生成了mp3且播放没问题。

生成使用标签的音频(有问题 todo)

代码:

csharp 复制代码
import asyncio
import edge_tts

async def text_to_speech_with_rhythm(output_file="rhythm_voice.mp3"):
    """
    Win11 适配版:带抑扬顿挫的文本转语音(修复 SSML 解析问题)
    """
    # 精简 SSML 格式(移除多余换行/空格,确保 Win11 下解析正常)
    ssml_text = """
    <speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="zh-CN">
        <prosody rate="+5%" pitch="0Hz" volume="0%">你好,</prosody>
        <break time="100ms"/>
        <prosody rate="-10%" pitch="+8Hz" volume="+5%">这是使用 edge_tts 实现的</prosody>
        <break time="80ms"/>
        <prosody rate="-15%" pitch="+12Hz" volume="+8%">抑扬顿挫的语音示例,</prosody>
        <break time="150ms"/>
        <prosody rate="0%" pitch="-2Hz" volume="0%">支持自定义音色、语速和音调。</prosody>
    </speak>
    """
    # 去除 SSML 文本中的多余空格和换行(关键:避免 Win11 下解析异常)
    ssml_text = "".join([line.strip() for line in ssml_text.splitlines() if line.strip()])

    try:
        # Win11 下强制指定编码和协议,提升兼容性
        communicate = edge_tts.Communicate(
            text=ssml_text,
            voice="zh-CN-XiaoyiNeural",  # Win11 自带的晓伊音色,兼容性最好
            proxy=None  # Win11 无需代理,避免干扰
        )
        # 保存音频(Win11 下指定绝对路径更稳定,示例用相对路径)
        await communicate.save(output_file)
        print(f"✅ 语音生成成功!文件路径:{output_file}")
        print(f"📌 可直接在 Win11 中双击 {output_file} 播放")
    except Exception as e:
        print(f"❌ 转换失败:{e}")
        # Win11 下常见错误提示
        if "Connection" in str(e):
            print("💡 建议:检查网络,Win11 需联网调用微软 TTS 服务")
        if "Invalid" in str(e):
            print("💡 建议:确认 SSML 格式无误,或更换音色(如 zh-CN-YunxiNeural)")

if __name__ == "__main__":
    # Win11 下异步运行(兼容 Python 3.8+)
    asyncio.run(text_to_speech_with_rhythm())

实测有问题,会连speak标签一起读出来,期待的效果是不读speak标签,只读标签里面的内容。

相关推荐
A__tao2 小时前
Elasticsearch Mapping 一键生成 Java 实体类(支持嵌套 + 自动过滤注释)
java·python·elasticsearch
研究点啥好呢2 小时前
Github热门项目推荐 | 创建你的像素风格!
c++·python·node.js·github·开源软件
KevinCyao2 小时前
java视频短信接口怎么调用?SpringBoot集成视频短信及回调处理Demo
java·spring boot·音视频
科技小花2 小时前
数据治理平台架构演进观察:AI原生设计如何重构企业数据管理范式
数据库·重构·架构·数据治理·ai-native·ai原生
一江寒逸2 小时前
零基础从入门到精通MySQL(中篇):进阶篇——吃透多表查询、事务核心与高级特性,搞定复杂业务SQL
数据库·sql·mysql
D4c-lovetrain2 小时前
linux个人心得22 (mysql)
数据库·mysql
迷藏4942 小时前
**发散创新:基于Rust实现的开源合规权限管理框架设计与实践**在现代软件架构中,**权限控制(RBAC)** 已成为保障
java·开发语言·python·rust·开源
明日清晨3 小时前
python扫码登录dy
开发语言·python
阿里小阿希3 小时前
CentOS7 PostgreSQL 9.2 升级到 15 完整教程
数据库·postgresql
荒川之神3 小时前
Oracle 数据仓库雪花模型设计(完整实战方案)
数据库·数据仓库·oracle