OpenAI-Edge-TTS:本地化 OpenAI 兼容的文本转语音 API,免费高效!

文本转语音(TTS)技术已经成为人工智能领域的重要一环,无论是语音助手、教育内容生成,还是音频文章创作,TTS 工具都能显著提高效率。今天要为大家介绍的是 OpenAI-Edge-TTS,一款基于 Microsoft Edge 在线文本转语音服务的开源项目,它提供了一个与 OpenAI API 兼容的本地 TTS 端点,让你能够通过简单的配置轻松实现文本到语音的转换,而且完全免费!


一、什么是 OpenAI-Edge-TTS?

OpenAI-Edge-TTS 是一个模拟 OpenAI TTS 端点(/v1/audio/speech)的本地服务,使用 Microsoft Edge 在线 TTS 服务来生成语音。通过这款工具,用户无需访问 OpenAI 的官方 API,只需通过本地服务器即可实现文本转语音的功能,同时还支持多种语音和音频格式选项。

项目地址:https://github.com/travisvn/openai-edge-tts

核心特点
  1. OpenAI 兼容 API
    提供 /v1/audio/speech 端点,与 OpenAI API 端点结构一致,方便用户无缝切换到本地化服务。
  2. 支持丰富的语音类型
    将 OpenAI 的语音选项(如 alloy、echo、fable 等)映射到 Edge-TTS 的等效语音,同时支持直接指定任何 Microsoft Edge-TTS 语音。
  3. 多种音频格式支持
    支持输出多种音频格式,包括 mp3、opus、aac、flac、wav 和 pcm,适配不同使用场景。
  4. 灵活调整播放速度
    支持 0.25 倍到 4.0 倍的播放速度调整,满足特殊场景需求。
  5. 免费使用
    依赖 Microsoft Edge 的在线 TTS 服务,完全免费,降低使用门槛。
  6. 多语言支持
    除英语外,还支持其他语言和地区的语音生成,如日语、中文等。

二、OpenAI-Edge-TTS 的主要应用场景

1. 音频内容创作

快速将文本内容转换为自然流畅的语音,适用于音频文章、播客脚本或教育视频的音频配音。

2. 开发与测试环境

为需要 OpenAI TTS 的开发者提供本地替代方案,便于开发和测试,节省调用官方 API 的成本。

3. 多语言语音输出

支持多语言生成,无论是创建本地化内容,还是测试跨语言功能,OpenAI-Edge-TTS 都能满足需求。

4. 定制化服务

通过可调的播放速度和语音类型,提供更加灵活的语音定制能力,适配特定的项目需求。


三、快速上手 OpenAI-Edge-TTS

1. 环境准备

推荐使用 Docker 部署

  • 安装 Docker 和 Docker Compose,确保运行环境就绪。

可选使用 Python 本地运行

  • 需要 Python 3.8+ 和 FFMPEG(如果需要进行音频格式转换)。

2. 部署服务

(1)使用 Docker 一键部署

  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/travisvn/openai-edge-tts.git
    cd openai-edge-tts
  2. 配置环境变量:

    在根目录创建 .env 文件,填写以下内容:

    bash 复制代码
    API_KEY=your_api_key_here
    PORT=5050
    DEFAULT_VOICE=en-US-AvaNeural
    DEFAULT_RESPONSE_FORMAT=mp3
    DEFAULT_SPEED=1.0
    DEFAULT_LANGUAGE=en-US
    REQUIRE_API_KEY=True
    REMOVE_FILTER=False
    EXPAND_API=True

    或者直接复制默认配置:

    bash 复制代码
    cp .env.example .env
  3. 启动服务:

    使用 Docker Compose 启动服务:

    bash 复制代码
    docker compose up --build

    在后台运行服务:

    bash 复制代码
    docker compose up -d

(2)使用 Python 本地运行

  1. 克隆项目并进入目录:

    bash 复制代码
    git clone https://github.com/travisvn/openai-edge-tts.git
    cd openai-edge-tts
  2. 创建虚拟环境并安装依赖:

    bash 复制代码
    python3 -m venv venv
    source venv/bin/activate  # macOS/Linux
    # 或者
    venv\Scripts\activate  # Windows
    
    pip install -r requirements.txt
  3. 配置环境变量(参考 .env 文件)。

  4. 启动服务:

    bash 复制代码
    python app/server.py

3. 测试 API

服务启动后,访问 API 端点:

bash 复制代码
http://localhost:5050/v1/audio/speech
示例请求

使用 curl 将文本转化为语音并保存为 MP3 文件:

bash 复制代码
curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "Hello, I am your AI assistant!",
    "voice": "alloy",
    "response_format": "mp3",
    "speed": 1.1
  }' \
  --output speech.mp3

支持其他语言:

bash 复制代码
curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "こんにちは、私はAIアシスタントです。",
    "voice": "ja-JP-KeitaNeural"
  }' \
  --output speech.mp3

四、与官方 OpenAI TTS 的对比

功能维度 OpenAI-Edge-TTS OpenAI TTS API
成本 完全免费 需按调用量付费
多语音支持 支持 Edge-TTS 全部语音 支持官方指定语音
兼容性 模拟 OpenAI API 端点 官方支持
扩展能力 可自行扩展语音类型与功能 功能固定
部署方式 本地化运行,支持 Docker 部署 依赖云端

五、总结:文本转语音的本地化高效方案

OpenAI-Edge-TTS 通过模拟 OpenAI TTS API,结合 Microsoft Edge 在线 TTS 服务,为开发者提供了一款免费、高效且功能丰富的文本转语音解决方案。无论是用于本地开发、测试,还是构建音频内容创作平台,这款工具都能极大降低使用成本,同时提供出色的扩展能力。

相关推荐
Tao____10 小时前
JAVA开源物联网平台
java·物联网·mqtt·开源·ruoyi
Yeats_Liao12 小时前
开源生态资源:昇腾社区ModelZoo与DeepSeek的最佳实践路径
python·深度学习·神经网络·架构·开源
yuguo.im12 小时前
我开源了一个 GrapesJS 插件
前端·javascript·开源·grapesjs
Tao____18 小时前
适合中小企业的物联网平台
java·物联网·mqtt·低代码·开源
2501_9061505620 小时前
拥有自己的问卷调研系统:调问开源问卷系统,让数据主动权握在手中
开源
lbb 小魔仙20 小时前
【Harmonyos】开源鸿蒙跨平台训练营DAY3:为开源鸿蒙跨平台工程集成网络请求能力,实现数据清单列表的完整构建与开源鸿蒙设备运行验证(及常见问题与方法)
windows·开源·harmonyos·鸿蒙·开源鸿蒙·鸿蒙开平台应用
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2026-01-21)
ai·开源·大模型·github·ai教程
IT陈图图1 天前
基于 Flutter × OpenHarmony 音乐播放器应用 —— 构建搜索栏
flutter·开源·鸿蒙·openharmony
修己xj1 天前
Vikunja:开源自托管的待办事项管理平台,重新定义你的任务管理体验
开源
学习3人组1 天前
Apache Superset开源现代化数据BI工具
开源·apache