OpenAI-Edge-TTS：本地化 OpenAI 兼容的文本转语音 API，免费高效！

文本转语音（TTS）技术已经成为人工智能领域的重要一环，无论是语音助手、教育内容生成，还是音频文章创作，TTS 工具都能显著提高效率。今天要为大家介绍的是 OpenAI-Edge-TTS，一款基于 Microsoft Edge 在线文本转语音服务的开源项目，它提供了一个与 OpenAI API 兼容的本地 TTS 端点，让你能够通过简单的配置轻松实现文本到语音的转换，而且完全免费！

一、什么是 OpenAI-Edge-TTS？

OpenAI-Edge-TTS 是一个模拟 OpenAI TTS 端点（/v1/audio/speech）的本地服务，使用 Microsoft Edge 在线 TTS 服务来生成语音。通过这款工具，用户无需访问 OpenAI 的官方 API，只需通过本地服务器即可实现文本转语音的功能，同时还支持多种语音和音频格式选项。

项目地址：https://github.com/travisvn/openai-edge-tts

核心特点

OpenAI 兼容 API
提供 /v1/audio/speech 端点，与 OpenAI API 端点结构一致，方便用户无缝切换到本地化服务。
支持丰富的语音类型
将 OpenAI 的语音选项（如 alloy、echo、fable 等）映射到 Edge-TTS 的等效语音，同时支持直接指定任何 Microsoft Edge-TTS 语音。
多种音频格式支持
支持输出多种音频格式，包括 mp3、opus、aac、flac、wav 和 pcm，适配不同使用场景。
灵活调整播放速度
支持 0.25 倍到 4.0 倍的播放速度调整，满足特殊场景需求。
免费使用
依赖 Microsoft Edge 的在线 TTS 服务，完全免费，降低使用门槛。
多语言支持
除英语外，还支持其他语言和地区的语音生成，如日语、中文等。

二、OpenAI-Edge-TTS 的主要应用场景

1. 音频内容创作

快速将文本内容转换为自然流畅的语音，适用于音频文章、播客脚本或教育视频的音频配音。

2. 开发与测试环境

为需要 OpenAI TTS 的开发者提供本地替代方案，便于开发和测试，节省调用官方 API 的成本。

3. 多语言语音输出

支持多语言生成，无论是创建本地化内容，还是测试跨语言功能，OpenAI-Edge-TTS 都能满足需求。

4. 定制化服务

通过可调的播放速度和语音类型，提供更加灵活的语音定制能力，适配特定的项目需求。

三、快速上手 OpenAI-Edge-TTS

1. 环境准备

推荐使用 Docker 部署

安装 Docker 和 Docker Compose，确保运行环境就绪。

可选使用 Python 本地运行

需要 Python 3.8+ 和 FFMPEG（如果需要进行音频格式转换）。

2. 部署服务

（1）使用 Docker 一键部署

克隆项目：

bash 复制代码

git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts

配置环境变量：

在根目录创建 .env 文件，填写以下内容：

bash 复制代码

API_KEY=your_api_key_here
PORT=5050
DEFAULT_VOICE=en-US-AvaNeural
DEFAULT_RESPONSE_FORMAT=mp3
DEFAULT_SPEED=1.0
DEFAULT_LANGUAGE=en-US
REQUIRE_API_KEY=True
REMOVE_FILTER=False
EXPAND_API=True

或者直接复制默认配置：

bash 复制代码

cp .env.example .env

启动服务：

使用 Docker Compose 启动服务：
bash 复制代码
```
docker compose up --build
```
在后台运行服务：
bash 复制代码
```
docker compose up -d
```

（2）使用 Python 本地运行

克隆项目并进入目录：

bash 复制代码

git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts

创建虚拟环境并安装依赖：

bash 复制代码

python3 -m venv venv
source venv/bin/activate  # macOS/Linux
# 或者
venv\Scripts\activate  # Windows

pip install -r requirements.txt

配置环境变量（参考 .env 文件）。
启动服务：
bash 复制代码
```
python app/server.py
```

3. 测试 API

服务启动后，访问 API 端点：

bash 复制代码

http://localhost:5050/v1/audio/speech

示例请求

使用 curl 将文本转化为语音并保存为 MP3 文件：

bash 复制代码

curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "Hello, I am your AI assistant!",
    "voice": "alloy",
    "response_format": "mp3",
    "speed": 1.1
  }' \
  --output speech.mp3

支持其他语言：

bash 复制代码

curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "こんにちは、私はAIアシスタントです。",
    "voice": "ja-JP-KeitaNeural"
  }' \
  --output speech.mp3

四、与官方 OpenAI TTS 的对比

功能维度	OpenAI-Edge-TTS	OpenAI TTS API
成本	完全免费	需按调用量付费
多语音支持	支持 Edge-TTS 全部语音	支持官方指定语音
兼容性	模拟 OpenAI API 端点	官方支持
扩展能力	可自行扩展语音类型与功能	功能固定
部署方式	本地化运行，支持 Docker 部署	依赖云端

五、总结：文本转语音的本地化高效方案

OpenAI-Edge-TTS 通过模拟 OpenAI TTS API，结合 Microsoft Edge 在线 TTS 服务，为开发者提供了一款免费、高效且功能丰富的文本转语音解决方案。无论是用于本地开发、测试，还是构建音频内容创作平台，这款工具都能极大降低使用成本，同时提供出色的扩展能力。