OpenAI-Edge-TTS:本地化 OpenAI 兼容的文本转语音 API,免费高效!

文本转语音(TTS)技术已经成为人工智能领域的重要一环,无论是语音助手、教育内容生成,还是音频文章创作,TTS 工具都能显著提高效率。今天要为大家介绍的是 OpenAI-Edge-TTS,一款基于 Microsoft Edge 在线文本转语音服务的开源项目,它提供了一个与 OpenAI API 兼容的本地 TTS 端点,让你能够通过简单的配置轻松实现文本到语音的转换,而且完全免费!


一、什么是 OpenAI-Edge-TTS?

OpenAI-Edge-TTS 是一个模拟 OpenAI TTS 端点(/v1/audio/speech)的本地服务,使用 Microsoft Edge 在线 TTS 服务来生成语音。通过这款工具,用户无需访问 OpenAI 的官方 API,只需通过本地服务器即可实现文本转语音的功能,同时还支持多种语音和音频格式选项。

项目地址:https://github.com/travisvn/openai-edge-tts

核心特点
  1. OpenAI 兼容 API
    提供 /v1/audio/speech 端点,与 OpenAI API 端点结构一致,方便用户无缝切换到本地化服务。
  2. 支持丰富的语音类型
    将 OpenAI 的语音选项(如 alloy、echo、fable 等)映射到 Edge-TTS 的等效语音,同时支持直接指定任何 Microsoft Edge-TTS 语音。
  3. 多种音频格式支持
    支持输出多种音频格式,包括 mp3、opus、aac、flac、wav 和 pcm,适配不同使用场景。
  4. 灵活调整播放速度
    支持 0.25 倍到 4.0 倍的播放速度调整,满足特殊场景需求。
  5. 免费使用
    依赖 Microsoft Edge 的在线 TTS 服务,完全免费,降低使用门槛。
  6. 多语言支持
    除英语外,还支持其他语言和地区的语音生成,如日语、中文等。

二、OpenAI-Edge-TTS 的主要应用场景

1. 音频内容创作

快速将文本内容转换为自然流畅的语音,适用于音频文章、播客脚本或教育视频的音频配音。

2. 开发与测试环境

为需要 OpenAI TTS 的开发者提供本地替代方案,便于开发和测试,节省调用官方 API 的成本。

3. 多语言语音输出

支持多语言生成,无论是创建本地化内容,还是测试跨语言功能,OpenAI-Edge-TTS 都能满足需求。

4. 定制化服务

通过可调的播放速度和语音类型,提供更加灵活的语音定制能力,适配特定的项目需求。


三、快速上手 OpenAI-Edge-TTS

1. 环境准备

推荐使用 Docker 部署

  • 安装 Docker 和 Docker Compose,确保运行环境就绪。

可选使用 Python 本地运行

  • 需要 Python 3.8+ 和 FFMPEG(如果需要进行音频格式转换)。

2. 部署服务

(1)使用 Docker 一键部署

  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/travisvn/openai-edge-tts.git
    cd openai-edge-tts
  2. 配置环境变量:

    在根目录创建 .env 文件,填写以下内容:

    bash 复制代码
    API_KEY=your_api_key_here
    PORT=5050
    DEFAULT_VOICE=en-US-AvaNeural
    DEFAULT_RESPONSE_FORMAT=mp3
    DEFAULT_SPEED=1.0
    DEFAULT_LANGUAGE=en-US
    REQUIRE_API_KEY=True
    REMOVE_FILTER=False
    EXPAND_API=True

    或者直接复制默认配置:

    bash 复制代码
    cp .env.example .env
  3. 启动服务:

    使用 Docker Compose 启动服务:

    bash 复制代码
    docker compose up --build

    在后台运行服务:

    bash 复制代码
    docker compose up -d

(2)使用 Python 本地运行

  1. 克隆项目并进入目录:

    bash 复制代码
    git clone https://github.com/travisvn/openai-edge-tts.git
    cd openai-edge-tts
  2. 创建虚拟环境并安装依赖:

    bash 复制代码
    python3 -m venv venv
    source venv/bin/activate  # macOS/Linux
    # 或者
    venv\Scripts\activate  # Windows
    
    pip install -r requirements.txt
  3. 配置环境变量(参考 .env 文件)。

  4. 启动服务:

    bash 复制代码
    python app/server.py

3. 测试 API

服务启动后,访问 API 端点:

bash 复制代码
http://localhost:5050/v1/audio/speech
示例请求

使用 curl 将文本转化为语音并保存为 MP3 文件:

bash 复制代码
curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "Hello, I am your AI assistant!",
    "voice": "alloy",
    "response_format": "mp3",
    "speed": 1.1
  }' \
  --output speech.mp3

支持其他语言:

bash 复制代码
curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "こんにちは、私はAIアシスタントです。",
    "voice": "ja-JP-KeitaNeural"
  }' \
  --output speech.mp3

四、与官方 OpenAI TTS 的对比

功能维度 OpenAI-Edge-TTS OpenAI TTS API
成本 完全免费 需按调用量付费
多语音支持 支持 Edge-TTS 全部语音 支持官方指定语音
兼容性 模拟 OpenAI API 端点 官方支持
扩展能力 可自行扩展语音类型与功能 功能固定
部署方式 本地化运行,支持 Docker 部署 依赖云端

五、总结:文本转语音的本地化高效方案

OpenAI-Edge-TTS 通过模拟 OpenAI TTS API,结合 Microsoft Edge 在线 TTS 服务,为开发者提供了一款免费、高效且功能丰富的文本转语音解决方案。无论是用于本地开发、测试,还是构建音频内容创作平台,这款工具都能极大降低使用成本,同时提供出色的扩展能力。

相关推荐
亿坊电商4 小时前
可以称之为“yyds”的物联网开源框架有哪几个?
物联网·开源
customer0812 小时前
【开源免费】基于SpringBoot+Vue.JS校园失物招领系统(JAVA毕业设计)
java·vue.js·spring boot·后端·开源
FIT2CLOUD飞致云14 小时前
案例研究丨浪潮云洲通过DataEase推进多维度数据可视化建设
数据分析·开源·数据可视化·dataease·数据大屏
这我可不懂15 小时前
低代码开发中的开源与闭源之争
低代码·开源
说私域17 小时前
互联网产品品牌形象构建与开源AI智能名片S2B2C商城小程序的应用研究
人工智能·小程序·开源
伊玛目的门徒21 小时前
文明6mod发布并开源:更多的蛮族营地扫荡收益mod
开源·文明6·mod制作·野蛮氏族·扫荡
XianxinMao21 小时前
开源大模型:从单一竞争迈向多元生态时代
开源
Trouvaille ~1 天前
【Linux】命令为桥,存在为岸,穿越虚拟世界的哲学之道
linux·学习·开源·操作系统·编程·命令行·基础入门
路溪非溪1 天前
curl简介与libcurl开源库的使用总结
linux·开源