OpenAI再创新高:推出全新语音模型,真正实现善解人意!

3月21日,OpenAI推出了一系列创新的语音模型,包括语音转文本(STT)和文本转语音(TTS)两大领域,使得开发者能够更加便捷地构建智能语音助手。本次更新带来了以下三款新模型:

  • gpt-4o-transcribe(语音转文本模型):识别准确度得到进一步提升,单词错误率(WER)降低,在多项测试中超越了Whisper模型。

  • gpt-4o-mini-transcribe(精简版STT模型):在保持识别质量的同时,处理速度更快,资源消耗更少。

  • gpt-4o-mini-tts(文本转语音模型):支持"可引导性",开发者不仅能够控制AI说话的内容,还能控制其说话的方式。 这次升级意味着AI语音交互在迈向更加自然、类人的目标上又前进了一大步。

    语音识别更强,适应各种复杂场景

gpt-4o-transcribe 采用了更丰富的高质量音频数据进行训练,能够更精准地捕捉语音细节,减少错误识别,在嘈杂环境不同口音甚至快语速情况下都能稳定转录,适用于多个实际场景,比如:

客服中心 ,面对来自全球的用户咨询时,能够精准理解不同口音,减少人工处理成本。
会议记录,即使多人同时交谈,也能清晰转录,不再需要手动整理笔记。

而 gpt-4o-mini-transcribe 则更偏向于资源有限但仍需要高质量语音识别的场景。虽然比完整版稍逊一筹,但整体表现依然优于 Whisper 模型,在多语言测试中也表现出色,尤其是英语和西班牙语等语言。

#文本转语音的进化,不再是"电子音"

这次推出的 gpt-4o-mini-tts,让 AI朗读文本的方式发生了质的变化。以往的语音合成听起来生硬、毫无情感,而这次,开发者可以直接控制 AI说话的风格,比如:

·正式、专业的客服语气

·轻松愉快的年轻人聊天风格.

·充满激情的演讲风格

·甚至是模仿中世纪骑士的古典腔调

你还可以给 AI设定更具体的语气,比如"像一位温暖而富有同情心的医生一样说话"让 AI 以更贴合情境的方式表达内容。

价格方面

gpt-4o-transcribe:每分钟 0.006 美元,与原来的 Whisper 模型价格一致。

gpt-4o-mini-transcribe:更便宜,每分钟 0.003 美元。

gpt-4o-mini-tts:每分钟 0.015 美元,进一步降低了高质量语音合成的门槛。

国内想使用 OpenAl的开发者或者团队,都会遇到充值的难题,国内的信用卡和银行卡都不行,作者在这里推荐使用海外虚拟卡,作者使用两年多啦,比较方便,支付宝直接充值使用,随充随到,冲多了可以秒提现到支付宝账号。

虚拟卡链接:bewildcard.com/i/AA1988 (邀请码:AA1988 有优惠哦)

语音 AI 的两种实现方式

OpenAl 在直播中演示了 AI 语音助手的实际应用,还介绍了两种主流的语音 AI 处理方式:

1.语音到语音的端到端模型

系统直接将用户语音输入转换成语音回复,中间不经过文本转换。这种方式反应更快,已经应用在ChatGPT的高级语音模式中,适合需要即时响应的场景,比如智能语音助手、实时翻译等。

2.链式方法

这也是 OpenAl 重点介绍的方案。这种方法将语音交互拆解为三个步骤:

1.语音转文本(STT),先把用户说的话转成文字。

2.文本处理(LLM),AI理解文本内容并生成回应。

3.文本转语音(TTS),最终再用 A| 语音朗读生成的回复

相比端到端模型,这种方法的好处是更稳定、可控,同时也更容易集成到现有的 A系统中。开发者可以基于已有的文本处理能力,快速扩展语音功能,而不需要重新训练语音模型。

值得一提的是,OpenA!还举办了一个广播比赛。 用户可以在 0penAI.fm巳 制作音频,接着使用 OpenAl.fm 上的[分享】按钮生成链接,然后在X平台分享。最具创意的前三名将各获一台限量版 Teenage Engineering OB-4。音频时长建议控制在 30 秒左右,可在语音、表达、发音或剧本语调变化上尽情发挥创意。

语音 AI 的未来:更自然,更有"人味"

今年 AI 领域的一个新趋势是强调情感价值,不再只是冷冰冰的工具,而是向着更拟人化的方向发展。GPT-4.5、Grok3 都在强调"更有个性、更有情绪",而语音 AI作为最接近人类沟通方式的技术,正在变得越来越像真人。

最近在砖谷爆火的 Sesame Al就是一个典型例子,它能实时感知用户情绪,并做出更具共鸣的回应。与此同时,OpenAl这次的语音升级、以及即将发布的 Meta Llama 4,也都在向更自然的语音交互靠拢。

AI 需要更"有人味"吗?很多聊天机器人都会声明自己"没有情感",但用户依然会在与 A! 的对话中找到情绪价值,甚至不自觉地与 AI 建立某种情感连接。或许,这就是人类天生的沟通需求--即使对方是 AI,我们依然希望被理解,被倾听。

未来的 AI,不只是能听懂你的话,而是能真正理解你的情绪,这才是语音 AI进化的终极方向

参考原文OpenAI再创新高:推出全新语音模型,真正实现善解人意! - AI闪电侠

相关推荐
x-cmd2 天前
[250516] OpenAI 升级 ChatGPT:GPT-4.1 及 Mini 版上线!
人工智能·chatgpt·openai·gpt-4.1
我在北国不背锅5 天前
解决LangChain4j报错HTTP/1.1 header parser received no bytes
openai·langchain4j
碣石潇湘无限路10 天前
【AI】基于生活案例的LLM强化学习(入门帖)
人工智能·经验分享·笔记·生活·openai·强化学习
TGITCIC11 天前
深夜突发:OpenAI紧急修复GPT-4o“献媚”问题
人工智能·gpt·大模型·openai·agi·gpt4o·人工智能趋势
老马啸西风15 天前
敏感词 v0.25.0 新特性之 wordCheck 策略支持用户自定义
人工智能·ai·nlp·中文分词·openai·deepseek·mcp
win4r19 天前
🚀企业级最强开源大模型Qwen3震撼发布!本地部署+全面客观测评!Qwen3-235B-A22B+Qwen3-32B+Qwen3-14B谁是王者?ollama
llm·aigc·openai
掉鱼的猫19 天前
qwen3 惊喜发布,用 ollama + solon ai (java) 尝个鲜
java·openai·deepseek
康斯坦丁师傅19 天前
深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1
aigc·openai
新智元20 天前
52 页 PPT,谷歌 Gemini 预训练负责人首次揭秘!扩展定律最优解
人工智能·openai
新智元20 天前
深夜突袭,阿里 Qwen3 登顶全球开源王座!暴击 DeepSeek-R1,2 小时狂揽 17k 星
人工智能·openai