OpenAI发布最新的人工智能模型GPT-4o:可实时语言、图像交互

OpenAI 在周一宣布了一款新的旗舰生成式 AI 模型,他们将其称为 GPT-4o --- 这里的 "o" 意指 "全方位",指的是该模型处理文本、语音和视频的能力。GPT-4o 将会在接下来的几周逐步在公司的开发者和消费者产品中推出。

OpenAI 首席技术官米拉·穆拉蒂表示,GPT-4o 提供了 "GPT-4 级别" 的智能,但在多种形式和媒体上改进了 GPT-4 的能力。

"GPT-4o 可以跨语音、文本和视觉进行推理。" 穆拉蒂在周一在旧金山 OpenAI 办公室举行的直播中说道。"这非常重要,因为我们正在探索我们与机器之间的互动的未来。"

OpenAI 之前的 "领先的"、"最先进的" 模型 GPT-4 Turbo 是在图像和文本的组合上进行训练的,能够分析图像和文本以完成任务,比如从图像中提取文本,甚至描述这些图像的内容。但 GPT-4o 则加入了语音。

这带来了什么?多种可能性。

GPT-4o 极大地改善了 OpenAI AI 驱动的聊天机器人 ChatGPT 的体验。该平台长期以来一直提供着一种语音模式,可以使用文本转语音模型转录聊天机器人的回复,但 GPT-4o 则将其超级加速,使用户可以更像与助手交互一样与 ChatGPT 进行交互。

例如,用户可以向 GPT-4o 动力的 ChatGPT 提问,并在 ChatGPT 回答时打断。OpenAI 表示,该模型提供了 "实时" 的响应能力,甚至可以捕捉到用户语音中的细微差异,以 "一系列不同情绪风格的" 声音回应(包括唱歌)。

GPT-4o 还提升了 ChatGPT 的视觉能力。给定一张照片 --- 或者是桌面屏幕 --- ChatGPT 现在可以快速回答相关问题,从 "这段软件代码发生了什么?" 到 "这个人穿的是什么牌子的衬衫?" 各种主题都能应对。

穆拉蒂表示,这些功能将在未来进一步发展。虽然今天 GPT-4o 可以查看一张菜单的图片并翻译它,但在未来,该模型可能允许 ChatGPT "观看" 一场现场体育比赛并向你解释规则。

"我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、简单,让你完全不用关注 UI,只需专注于与 ChatGPT 的合作。" 穆拉蒂说道。"在过去的几年里,我们一直在专注于提高这些模型的智能......但这是我们第一次在易用性方面迈出了巨大的一步。"

OpenAI 声称,GPT-4o 在多语言方面也更加多样化,性能提升了约 50 种语言。在 OpenAI 的 API 和微软的 Azure OpenAI 服务中,GPT-4o 的速度是 GPT-4 Turbo 的两倍,价格是其一半,限制率也更高。

目前,语音并不是 GPT-4o API 的一部分,供所有客户使用。OpenAI 提到,由于滥用的风险,他们计划首先向 "一小部分受信任的合作伙伴" 推出对 GPT-4o 新音频功能的支持,这将在未来几周内实现。

从今天开始,GPT-4o 可以在 ChatGPT 的免费版中使用,也可供 OpenAI 的高级 ChatGPT Plus 和 Team 订阅计划用户使用,这些计划有 "5 倍更高"的消息限制。(OpenAI 指出,当用户达到速率限制时,ChatGPT 将自动切换到 GPT-3.5,这是一个更旧、能力更低的模型。)基于 GPT-4o 的改进 ChatGPT 语音体验将在接下来的一个月左右向 Plus 用户推出 alpha 版本,与此同时,还将推出面向企业的选项。

此外,OpenAI 还宣布,他们正在网页上发布一个更新的 ChatGPT 用户界面,带有一个新的 "更加对话式"的主页和消息布局,并为 macOS 推出了 ChatGPT 的桌面版,允许用户通过键盘快捷方式提问或拍摄并讨论屏幕截图。ChatGPT Plus 用户将首先获得对该应用的访问权限,从今天开始,而 Windows 版本将在今年晚些时候推出。

另外,OpenAI 的 ChatGPT 应用商店,这是 OpenAI 基于其 AI 模型构建的第三方聊天机器人的库和创作工具,现在可供 ChatGPT 免费版用户使用。免费用户可以利用以前需要付费的 ChatGPT 功能,比如 "记忆功能",允许 ChatGPT "记住" 未来交互的偏好,上传文件和照片,并搜索网络以回答及时问题。

相关推荐
财经资讯数据_灵砚智能1 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月20日
人工智能·python·信息可视化·自然语言处理·ai编程
j_xxx404_3 分钟前
【AI大模型入门(二)】提示词工程进阶
人工智能·ai·prompt
程序员cxuan11 分钟前
vibe coding 凉了,wish coding 来了
人工智能·后端·程序员
传说故事17 分钟前
【论文阅读】ViVa: A Video-Generative Value Model for Robot Reinforcement Learning
论文阅读·人工智能·强化学习·具身智能
C、空白格20 分钟前
Java集成Vosk实现离线语音识别
java·开发语言·语音识别
keineahnung234527 分钟前
PyTorch 張量尺寸為 1 時,步長為何不具語意?
人工智能·pytorch·python·深度学习
小t说说33 分钟前
2026年PPT生成工具评测及使用体验
大数据·前端·人工智能
NineData34 分钟前
NineData 将亮相 2026 德国汉诺威工业博览会
数据库·人工智能·数据库管理工具·ninedata·数据库迁移工具·玖章算术
AI人工智能+35 分钟前
文档抽取系统结合OCR技术与大语言模型,有效解决档案数字化与知识化利用之间的矛盾
人工智能·计算机视觉·ocr·文档抽取