做过有声内容的人都懂传统 TTS 的尴尬:声音平得像念稿,断句随缘,中英混排直接翻车。前几年那批"AI 配音"工具火过一阵,但大多停留在玩具水平。ElevenLabs 是个例外。它从浏览器里的一个文本转语音小工具起家,如今被称为互联网的"音频层",产品覆盖语音合成、转录、配音、音乐和对话式 AI。读完这篇你会知道:v3 模型凭什么被称为最有表现力的 TTS,怎么用几行代码接入,以及免费额度到底够不够折腾。
Eleven v3:给文字标注情绪,而不只是读出来
传统 TTS 的核心问题是"读字不读戏"。Eleven v3 的解法是 audio tags:直接在文本里内联情绪与动作指令,模型照着演。
text
[whispers] 我只跟你说一次。
[excited] 部署成功了,全绿!
[sighs] 又是周一。 [laughs]
效果是模型真的会耳语、会笑、会叹气,而不是换个音调糊弄你。v3 支持 70 多种语言,对上下文的理解也明显强于上一代:同一个"行吧",在不同语境里能读出敷衍和欣然两种味道。
配套的 Text to Dialogue API 更进一步:传入一组带说话人标记的文本,直接输出一段衔接自然、有来有回的多角色对话音频。做播客、广播剧、游戏 NPC 配音,工作流直接换代。
三行代码,让你的应用开口说话
先装官方 SDK:
bash
pip install elevenlabs
最小可用示例如下,填上 API key 就能跑:
python
from elevenlabs.client import ElevenLabs
from elevenlabs import play
client = ElevenLabs(api_key="YOUR_API_KEY")
audio = client.text_to_speech.convert(
text="构建成功,已部署到生产环境。",
voice_id="JBFqnCBsd6RMkjVDRZzb", # 官方预置声音
model_id="eleven_flash_v2_5", # 低延迟模型
output_format="mp3_44100_128",
)
play(audio)
选模型有讲究:追求质量用 eleven_multilingual_v2 或 v3;追求速度用 eleven_flash_v2_5,延迟约 75ms,适合实时对话场景,而且按 0.5 credit/字符计费,成本只有标准模型的一半。需要边生成边播放的场景,WebSocket 流式接口也是现成的。
v2 还是 v3:一张表看懂怎么选
eleven_multilingual_v2 和 eleven_v3 是最容易选错的两个模型,详细对比如下。
| 维度 | eleven_multilingual_v2 | eleven_v3 |
|---|---|---|
| 定位 | 最稳定的拟真模型,长文本首选 | 最具表现力的旗舰模型,戏剧化演绎 |
| 语言 | 29 种 | 70 多种(含中文 cmn) |
| 单次请求字符上限 | 10,000 | 5,000(网页工具内 3,000) |
| 情绪控制 | 靠文本上下文推断 | audio tags 显式控制 |
| 多角色对话 | 不支持 | 原生支持,配套 Text to Dialogue API |
| 延迟 | 较高,非实时场景 | 更高,官方明确不面向实时应用 |
| 长文本稳定性 | 官方标注"最稳定" | 长文需切块,存在拼接不连贯问题 |
| 专业声音克隆(PVC) | 完全支持 | 尚未完全优化,建议用 Instant Clone 或预置声音 |
| 计费 | 1 credit / 字符 | 1 credit / 字符 |
计费上两者完全相同,都是 1 credit 一个字符,所以选择不影响成本,只影响效果。两个细节要注意:v3 的 audio tags 也计入字符数;v3 单次上限只有 5,000 字符,同样一篇长文要拆成 2 到 4 次请求,credit 总消耗一样,但工程上要自己处理切块和拼接。
选型结论:有声书、企业配音这类求稳的长文本用 v2;需要情绪爆发力、多角色对话、或 v2 不支持的语种时用 v3;实时对话两个都别用,直接上 eleven_flash_v2_5。
不只是 TTS:转录、克隆、配音、音乐全都要
ElevenLabs 早就不是单一功能工具,2026 年的产品线值得逐个点名。
Scribe 是它的语音转文字模型,v2 版本主打实时低延迟转录,多语言准确率在公开评测里常年第一梯队,专为现场会议和语音 Agent 这类"听错一个词就翻车"的场景设计。
声音克隆分两档:Instant Cloning 用一分钟录音就能复刻一个能用的声音;Professional Cloning 需要更多素材,但产出的声音几乎无法分辨真假。配套的 Dubbing 能把视频翻译成几十种语言,同时保留原说话人的音色和情绪。
Eleven Music 负责音乐生成,产出的是工作室级的完整歌曲。2026 年 1 月官方发布了 The Eleven Album,与 Liza Minnelli、Art Garfunkel 等艺术家合作,整张专辑由 Eleven Music 参与制作。另外还有按次计费的音效生成,给视频补个环境音不用再翻素材库。
ElevenAgents:能听、会说、还能干活的对话 AI
如果说上面是单点能力,ElevenAgents 就是把它们串起来的平台:Scribe 负责听,LLM 负责想,TTS 负责说,整条管线做到了打电话级别的低延迟。你只需要配置系统提示词、挂上知识库和工具调用,就能把一个语音 Agent 部署到电话线、网页或 App 里。客服热线、订餐电话、语音助手,都是它的典型场景。
目前整个公司的产品就组织成三大支柱:ElevenAgents(对话式 AI 平台)、ElevenCreative(创作工作室)和 ElevenAPI(开发者接口层)。无论你是想做产品还是写脚本自动化,入口都很清晰。
免费额度与定价:先白嫖再说
个人订阅从免费档起步,每月送 1 万 credits,按标准模型 1 credit 一个字符算,够你把所有功能玩一遍;付费档从每月几美元的 Starter 到面向创作者的 Creator 档逐级往上。API 侧单独有 Free、Pro(99/月)和 Scale(330/月)等计划。
计费逻辑很直白:TTS 按字符,转录按音频分钟,音乐和音效按次生成。值得一提的是 2026 年 5 月官方大幅降价:TTS 最高降 55%,转录最高降 45%,Agents 降 20%,还引入了按量付费。对开发者来说,现在是接入成本最低的时候。
ElevenLabs 的故事说明一件事:把一个"早已解决"的问题重新做到极致,本身就是巨大的机会。TTS 存在了几十年,但直到声音有了情绪,它才真正成为产品级的基础设施。
当语音合成的成本趋近于零,会说话的软件才刚刚开始。
去注册个免费账号,把你的构建通知接上语音播报,比看日志有意思多了。
我是 Yuguo,软件设计师,正在用 AI 重构自己的开发工作流。
踩过的坑、跑通的方案、省下来的时间,都记在绿泡泡 Feed中。 一起把 AI 真正用起来。