3月21日,OpenAI推出了一系列创新的语音模型,包括语音转文本(STT)和文本转语音(TTS)两大领域,使得开发者能够更加便捷地构建智能语音助手。本次更新带来了以下三款新模型:
-
gpt-4o-transcribe(语音转文本模型):识别准确度得到进一步提升,单词错误率(WER)降低,在多项测试中超越了Whisper模型。
-
gpt-4o-mini-transcribe(精简版STT模型):在保持识别质量的同时,处理速度更快,资源消耗更少。
-
gpt-4o-mini-tts(文本转语音模型):支持"可引导性",开发者不仅能够控制AI说话的内容,还能控制其说话的方式。 这次升级意味着AI语音交互在迈向更加自然、类人的目标上又前进了一大步。
语音识别更强,适应各种复杂场景
gpt-4o-transcribe 采用了更丰富的高质量音频数据进行训练,能够更精准地捕捉语音细节,减少错误识别,在嘈杂环境不同口音甚至快语速情况下都能稳定转录,适用于多个实际场景,比如:
客服中心 ,面对来自全球的用户咨询时,能够精准理解不同口音,减少人工处理成本。
会议记录,即使多人同时交谈,也能清晰转录,不再需要手动整理笔记。
而 gpt-4o-mini-transcribe 则更偏向于资源有限但仍需要高质量语音识别的场景。虽然比完整版稍逊一筹,但整体表现依然优于 Whisper 模型,在多语言测试中也表现出色,尤其是英语和西班牙语等语言。
#文本转语音的进化,不再是"电子音"
这次推出的 gpt-4o-mini-tts,让 AI朗读文本的方式发生了质的变化。以往的语音合成听起来生硬、毫无情感,而这次,开发者可以直接控制 AI说话的风格,比如:
·正式、专业的客服语气
·轻松愉快的年轻人聊天风格.
·充满激情的演讲风格
·甚至是模仿中世纪骑士的古典腔调
你还可以给 AI设定更具体的语气,比如"像一位温暖而富有同情心的医生一样说话"让 AI 以更贴合情境的方式表达内容。
价格方面
gpt-4o-transcribe:每分钟 0.006 美元,与原来的 Whisper 模型价格一致。
gpt-4o-mini-transcribe:更便宜,每分钟 0.003 美元。
gpt-4o-mini-tts:每分钟 0.015 美元,进一步降低了高质量语音合成的门槛。
国内想使用 OpenAl的开发者或者团队,都会遇到充值的难题,国内的信用卡和银行卡都不行,作者在这里推荐使用海外虚拟卡,作者使用两年多啦,比较方便,支付宝直接充值使用,随充随到,冲多了可以秒提现到支付宝账号。
虚拟卡链接:bewildcard.com/i/AA1988 (邀请码:AA1988 有优惠哦)
语音 AI 的两种实现方式
OpenAl 在直播中演示了 AI 语音助手的实际应用,还介绍了两种主流的语音 AI 处理方式:
1.语音到语音的端到端模型
系统直接将用户语音输入转换成语音回复,中间不经过文本转换。这种方式反应更快,已经应用在ChatGPT的高级语音模式中,适合需要即时响应的场景,比如智能语音助手、实时翻译等。
2.链式方法
这也是 OpenAl 重点介绍的方案。这种方法将语音交互拆解为三个步骤:
1.语音转文本(STT),先把用户说的话转成文字。
2.文本处理(LLM),AI理解文本内容并生成回应。
3.文本转语音(TTS),最终再用 A| 语音朗读生成的回复
相比端到端模型,这种方法的好处是更稳定、可控,同时也更容易集成到现有的 A系统中。开发者可以基于已有的文本处理能力,快速扩展语音功能,而不需要重新训练语音模型。
值得一提的是,OpenA!还举办了一个广播比赛。 用户可以在 0penAI.fm巳 制作音频,接着使用 OpenAl.fm 上的[分享】按钮生成链接,然后在X平台分享。最具创意的前三名将各获一台限量版 Teenage Engineering OB-4。音频时长建议控制在 30 秒左右,可在语音、表达、发音或剧本语调变化上尽情发挥创意。
语音 AI 的未来:更自然,更有"人味"
今年 AI 领域的一个新趋势是强调情感价值,不再只是冷冰冰的工具,而是向着更拟人化的方向发展。GPT-4.5、Grok3 都在强调"更有个性、更有情绪",而语音 AI作为最接近人类沟通方式的技术,正在变得越来越像真人。
最近在砖谷爆火的 Sesame Al就是一个典型例子,它能实时感知用户情绪,并做出更具共鸣的回应。与此同时,OpenAl这次的语音升级、以及即将发布的 Meta Llama 4,也都在向更自然的语音交互靠拢。
AI 需要更"有人味"吗?很多聊天机器人都会声明自己"没有情感",但用户依然会在与 A! 的对话中找到情绪价值,甚至不自觉地与 AI 建立某种情感连接。或许,这就是人类天生的沟通需求--即使对方是 AI,我们依然希望被理解,被倾听。
未来的 AI,不只是能听懂你的话,而是能真正理解你的情绪,这才是语音 AI进化的终极方向
参考原文 :OpenAI再创新高:推出全新语音模型,真正实现善解人意! - AI闪电侠