OpenAI-Edge-TTS:本地化 OpenAI 兼容的文本转语音 API,免费高效!

文本转语音(TTS)技术已经成为人工智能领域的重要一环,无论是语音助手、教育内容生成,还是音频文章创作,TTS 工具都能显著提高效率。今天要为大家介绍的是 OpenAI-Edge-TTS,一款基于 Microsoft Edge 在线文本转语音服务的开源项目,它提供了一个与 OpenAI API 兼容的本地 TTS 端点,让你能够通过简单的配置轻松实现文本到语音的转换,而且完全免费!


一、什么是 OpenAI-Edge-TTS?

OpenAI-Edge-TTS 是一个模拟 OpenAI TTS 端点(/v1/audio/speech)的本地服务,使用 Microsoft Edge 在线 TTS 服务来生成语音。通过这款工具,用户无需访问 OpenAI 的官方 API,只需通过本地服务器即可实现文本转语音的功能,同时还支持多种语音和音频格式选项。

项目地址:https://github.com/travisvn/openai-edge-tts

核心特点
  1. OpenAI 兼容 API
    提供 /v1/audio/speech 端点,与 OpenAI API 端点结构一致,方便用户无缝切换到本地化服务。
  2. 支持丰富的语音类型
    将 OpenAI 的语音选项(如 alloy、echo、fable 等)映射到 Edge-TTS 的等效语音,同时支持直接指定任何 Microsoft Edge-TTS 语音。
  3. 多种音频格式支持
    支持输出多种音频格式,包括 mp3、opus、aac、flac、wav 和 pcm,适配不同使用场景。
  4. 灵活调整播放速度
    支持 0.25 倍到 4.0 倍的播放速度调整,满足特殊场景需求。
  5. 免费使用
    依赖 Microsoft Edge 的在线 TTS 服务,完全免费,降低使用门槛。
  6. 多语言支持
    除英语外,还支持其他语言和地区的语音生成,如日语、中文等。

二、OpenAI-Edge-TTS 的主要应用场景

1. 音频内容创作

快速将文本内容转换为自然流畅的语音,适用于音频文章、播客脚本或教育视频的音频配音。

2. 开发与测试环境

为需要 OpenAI TTS 的开发者提供本地替代方案,便于开发和测试,节省调用官方 API 的成本。

3. 多语言语音输出

支持多语言生成,无论是创建本地化内容,还是测试跨语言功能,OpenAI-Edge-TTS 都能满足需求。

4. 定制化服务

通过可调的播放速度和语音类型,提供更加灵活的语音定制能力,适配特定的项目需求。


三、快速上手 OpenAI-Edge-TTS

1. 环境准备

推荐使用 Docker 部署

  • 安装 Docker 和 Docker Compose,确保运行环境就绪。

可选使用 Python 本地运行

  • 需要 Python 3.8+ 和 FFMPEG(如果需要进行音频格式转换)。

2. 部署服务

(1)使用 Docker 一键部署

  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/travisvn/openai-edge-tts.git
    cd openai-edge-tts
  2. 配置环境变量:

    在根目录创建 .env 文件,填写以下内容:

    bash 复制代码
    API_KEY=your_api_key_here
    PORT=5050
    DEFAULT_VOICE=en-US-AvaNeural
    DEFAULT_RESPONSE_FORMAT=mp3
    DEFAULT_SPEED=1.0
    DEFAULT_LANGUAGE=en-US
    REQUIRE_API_KEY=True
    REMOVE_FILTER=False
    EXPAND_API=True

    或者直接复制默认配置:

    bash 复制代码
    cp .env.example .env
  3. 启动服务:

    使用 Docker Compose 启动服务:

    bash 复制代码
    docker compose up --build

    在后台运行服务:

    bash 复制代码
    docker compose up -d

(2)使用 Python 本地运行

  1. 克隆项目并进入目录:

    bash 复制代码
    git clone https://github.com/travisvn/openai-edge-tts.git
    cd openai-edge-tts
  2. 创建虚拟环境并安装依赖:

    bash 复制代码
    python3 -m venv venv
    source venv/bin/activate  # macOS/Linux
    # 或者
    venv\Scripts\activate  # Windows
    
    pip install -r requirements.txt
  3. 配置环境变量(参考 .env 文件)。

  4. 启动服务:

    bash 复制代码
    python app/server.py

3. 测试 API

服务启动后,访问 API 端点:

bash 复制代码
http://localhost:5050/v1/audio/speech
示例请求

使用 curl 将文本转化为语音并保存为 MP3 文件:

bash 复制代码
curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "Hello, I am your AI assistant!",
    "voice": "alloy",
    "response_format": "mp3",
    "speed": 1.1
  }' \
  --output speech.mp3

支持其他语言:

bash 复制代码
curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "こんにちは、私はAIアシスタントです。",
    "voice": "ja-JP-KeitaNeural"
  }' \
  --output speech.mp3

四、与官方 OpenAI TTS 的对比

功能维度 OpenAI-Edge-TTS OpenAI TTS API
成本 完全免费 需按调用量付费
多语音支持 支持 Edge-TTS 全部语音 支持官方指定语音
兼容性 模拟 OpenAI API 端点 官方支持
扩展能力 可自行扩展语音类型与功能 功能固定
部署方式 本地化运行,支持 Docker 部署 依赖云端

五、总结:文本转语音的本地化高效方案

OpenAI-Edge-TTS 通过模拟 OpenAI TTS API,结合 Microsoft Edge 在线 TTS 服务,为开发者提供了一款免费、高效且功能丰富的文本转语音解决方案。无论是用于本地开发、测试,还是构建音频内容创作平台,这款工具都能极大降低使用成本,同时提供出色的扩展能力。

相关推荐
三无推导1 小时前
OpenHuman 开源项目详解:个人 AI 助手架构与核心技术拆解
人工智能·性能优化·架构·开源·ai助手
薛定猫AI1 小时前
【深度解析】Hermes Agent 与 Hermes Desktop:长期记忆、技能沉淀与多端网关的开源 AI Agent 实战
人工智能·开源
AITOP1002 小时前
高德联合千问开源AGenUI:让Agent UI同时跑在iOS、安卓和鸿蒙上
ui·ios·开源
Hommy883 小时前
【开源剪映小助手】图片信息生成接口
开源·github·视频剪辑自动化·剪映api
一直会游泳的小猫3 小时前
CloakBrowser
开源·puppeteer·playwright·隐形 chromium 浏览器
亥时科技4 小时前
一套流媒体架构,如何打通 Web、移动端和指挥大屏?
开源·无人机·ai巡检
a1117764 小时前
细胞结构实验室(react 开源)
前端·javascript·开源·html
容器魔方5 小时前
Kthena Router ScorePlugin 架构与基准测试分析
人工智能·云原生·容器·架构·开源
xmdy58665 小时前
Flutter+开源鸿蒙实战|企业级工具APP Day2 全局网络封装与 Dio 拦截器实战(鸿蒙兼容版)
flutter·开源·harmonyos
xmdy58665 小时前
Flutter+开源鸿蒙实战:企业级工具类APP开发教程(含第三方库适配)
flutter·开源·harmonyos