ElevenLabs：用一个 API 让 AI 开口说话

做过有声内容的人都懂传统 TTS 的尴尬：声音平得像念稿，断句随缘，中英混排直接翻车。前几年那批"AI 配音"工具火过一阵，但大多停留在玩具水平。ElevenLabs 是个例外。它从浏览器里的一个文本转语音小工具起家，如今被称为互联网的"音频层"，产品覆盖语音合成、转录、配音、音乐和对话式 AI。读完这篇你会知道：v3 模型凭什么被称为最有表现力的 TTS，怎么用几行代码接入，以及免费额度到底够不够折腾。

Eleven v3：给文字标注情绪，而不只是读出来

传统 TTS 的核心问题是"读字不读戏"。Eleven v3 的解法是 audio tags：直接在文本里内联情绪与动作指令，模型照着演。

text 复制代码

[whispers] 我只跟你说一次。
[excited] 部署成功了，全绿！
[sighs] 又是周一。 [laughs]

效果是模型真的会耳语、会笑、会叹气，而不是换个音调糊弄你。v3 支持 70 多种语言，对上下文的理解也明显强于上一代：同一个"行吧"，在不同语境里能读出敷衍和欣然两种味道。

配套的 Text to Dialogue API 更进一步：传入一组带说话人标记的文本，直接输出一段衔接自然、有来有回的多角色对话音频。做播客、广播剧、游戏 NPC 配音，工作流直接换代。

三行代码，让你的应用开口说话

先装官方 SDK：

bash 复制代码

pip install elevenlabs

最小可用示例如下，填上 API key 就能跑：

python 复制代码

from elevenlabs.client import ElevenLabs
from elevenlabs import play

client = ElevenLabs(api_key="YOUR_API_KEY")

audio = client.text_to_speech.convert(
    text="构建成功，已部署到生产环境。",
    voice_id="JBFqnCBsd6RMkjVDRZzb",  # 官方预置声音
    model_id="eleven_flash_v2_5",     # 低延迟模型
    output_format="mp3_44100_128",
)
play(audio)

选模型有讲究：追求质量用 eleven_multilingual_v2 或 v3；追求速度用 eleven_flash_v2_5，延迟约 75ms，适合实时对话场景，而且按 0.5 credit/字符计费，成本只有标准模型的一半。需要边生成边播放的场景，WebSocket 流式接口也是现成的。

v2 还是 v3：一张表看懂怎么选

eleven_multilingual_v2 和 eleven_v3 是最容易选错的两个模型，详细对比如下。

维度	eleven_multilingual_v2	eleven_v3
定位	最稳定的拟真模型，长文本首选	最具表现力的旗舰模型，戏剧化演绎
语言	29 种	70 多种（含中文 cmn）
单次请求字符上限	10,000	5,000（网页工具内 3,000）
情绪控制	靠文本上下文推断	audio tags 显式控制
多角色对话	不支持	原生支持，配套 Text to Dialogue API
延迟	较高，非实时场景	更高，官方明确不面向实时应用
长文本稳定性	官方标注"最稳定"	长文需切块，存在拼接不连贯问题
专业声音克隆（PVC）	完全支持	尚未完全优化，建议用 Instant Clone 或预置声音
计费	1 credit / 字符	1 credit / 字符

计费上两者完全相同，都是 1 credit 一个字符，所以选择不影响成本，只影响效果。两个细节要注意：v3 的 audio tags 也计入字符数；v3 单次上限只有 5,000 字符，同样一篇长文要拆成 2 到 4 次请求，credit 总消耗一样，但工程上要自己处理切块和拼接。

选型结论：有声书、企业配音这类求稳的长文本用 v2；需要情绪爆发力、多角色对话、或 v2 不支持的语种时用 v3；实时对话两个都别用，直接上 eleven_flash_v2_5。

不只是 TTS：转录、克隆、配音、音乐全都要

ElevenLabs 早就不是单一功能工具，2026 年的产品线值得逐个点名。

Scribe 是它的语音转文字模型，v2 版本主打实时低延迟转录，多语言准确率在公开评测里常年第一梯队，专为现场会议和语音 Agent 这类"听错一个词就翻车"的场景设计。

声音克隆分两档：Instant Cloning 用一分钟录音就能复刻一个能用的声音；Professional Cloning 需要更多素材，但产出的声音几乎无法分辨真假。配套的 Dubbing 能把视频翻译成几十种语言，同时保留原说话人的音色和情绪。

Eleven Music 负责音乐生成，产出的是工作室级的完整歌曲。2026 年 1 月官方发布了 The Eleven Album，与 Liza Minnelli、Art Garfunkel 等艺术家合作，整张专辑由 Eleven Music 参与制作。另外还有按次计费的音效生成，给视频补个环境音不用再翻素材库。

ElevenAgents：能听、会说、还能干活的对话 AI

如果说上面是单点能力，ElevenAgents 就是把它们串起来的平台：Scribe 负责听，LLM 负责想，TTS 负责说，整条管线做到了打电话级别的低延迟。你只需要配置系统提示词、挂上知识库和工具调用，就能把一个语音 Agent 部署到电话线、网页或 App 里。客服热线、订餐电话、语音助手，都是它的典型场景。

目前整个公司的产品就组织成三大支柱：ElevenAgents（对话式 AI 平台）、ElevenCreative（创作工作室）和 ElevenAPI（开发者接口层）。无论你是想做产品还是写脚本自动化，入口都很清晰。

免费额度与定价：先白嫖再说

个人订阅从免费档起步，每月送 1 万 credits，按标准模型 1 credit 一个字符算，够你把所有功能玩一遍；付费档从每月几美元的 Starter 到面向创作者的 Creator 档逐级往上。API 侧单独有 Free、Pro（ $99/月）和 Scale（$ 330/月）等计划。

计费逻辑很直白：TTS 按字符，转录按音频分钟，音乐和音效按次生成。值得一提的是 2026 年 5 月官方大幅降价：TTS 最高降 55%，转录最高降 45%，Agents 降 20%，还引入了按量付费。对开发者来说，现在是接入成本最低的时候。

ElevenLabs 的故事说明一件事：把一个"早已解决"的问题重新做到极致，本身就是巨大的机会。TTS 存在了几十年，但直到声音有了情绪，它才真正成为产品级的基础设施。

当语音合成的成本趋近于零，会说话的软件才刚刚开始。

去注册个免费账号，把你的构建通知接上语音播报，比看日志有意思多了。

我是 Yuguo，软件设计师，正在用 AI 重构自己的开发工作流。

踩过的坑、跑通的方案、省下来的时间，都记在绿泡泡 Feed中。一起把 AI 真正用起来。