OpenAI发布最新的人工智能模型GPT-4o:可实时语言、图像交互

OpenAI 在周一宣布了一款新的旗舰生成式 AI 模型,他们将其称为 GPT-4o --- 这里的 "o" 意指 "全方位",指的是该模型处理文本、语音和视频的能力。GPT-4o 将会在接下来的几周逐步在公司的开发者和消费者产品中推出。

OpenAI 首席技术官米拉·穆拉蒂表示,GPT-4o 提供了 "GPT-4 级别" 的智能,但在多种形式和媒体上改进了 GPT-4 的能力。

"GPT-4o 可以跨语音、文本和视觉进行推理。" 穆拉蒂在周一在旧金山 OpenAI 办公室举行的直播中说道。"这非常重要,因为我们正在探索我们与机器之间的互动的未来。"

OpenAI 之前的 "领先的"、"最先进的" 模型 GPT-4 Turbo 是在图像和文本的组合上进行训练的,能够分析图像和文本以完成任务,比如从图像中提取文本,甚至描述这些图像的内容。但 GPT-4o 则加入了语音。

这带来了什么?多种可能性。

GPT-4o 极大地改善了 OpenAI AI 驱动的聊天机器人 ChatGPT 的体验。该平台长期以来一直提供着一种语音模式,可以使用文本转语音模型转录聊天机器人的回复,但 GPT-4o 则将其超级加速,使用户可以更像与助手交互一样与 ChatGPT 进行交互。

例如,用户可以向 GPT-4o 动力的 ChatGPT 提问,并在 ChatGPT 回答时打断。OpenAI 表示,该模型提供了 "实时" 的响应能力,甚至可以捕捉到用户语音中的细微差异,以 "一系列不同情绪风格的" 声音回应(包括唱歌)。

GPT-4o 还提升了 ChatGPT 的视觉能力。给定一张照片 --- 或者是桌面屏幕 --- ChatGPT 现在可以快速回答相关问题,从 "这段软件代码发生了什么?" 到 "这个人穿的是什么牌子的衬衫?" 各种主题都能应对。

穆拉蒂表示,这些功能将在未来进一步发展。虽然今天 GPT-4o 可以查看一张菜单的图片并翻译它,但在未来,该模型可能允许 ChatGPT "观看" 一场现场体育比赛并向你解释规则。

"我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、简单,让你完全不用关注 UI,只需专注于与 ChatGPT 的合作。" 穆拉蒂说道。"在过去的几年里,我们一直在专注于提高这些模型的智能......但这是我们第一次在易用性方面迈出了巨大的一步。"

OpenAI 声称,GPT-4o 在多语言方面也更加多样化,性能提升了约 50 种语言。在 OpenAI 的 API 和微软的 Azure OpenAI 服务中,GPT-4o 的速度是 GPT-4 Turbo 的两倍,价格是其一半,限制率也更高。

目前,语音并不是 GPT-4o API 的一部分,供所有客户使用。OpenAI 提到,由于滥用的风险,他们计划首先向 "一小部分受信任的合作伙伴" 推出对 GPT-4o 新音频功能的支持,这将在未来几周内实现。

从今天开始,GPT-4o 可以在 ChatGPT 的免费版中使用,也可供 OpenAI 的高级 ChatGPT Plus 和 Team 订阅计划用户使用,这些计划有 "5 倍更高"的消息限制。(OpenAI 指出,当用户达到速率限制时,ChatGPT 将自动切换到 GPT-3.5,这是一个更旧、能力更低的模型。)基于 GPT-4o 的改进 ChatGPT 语音体验将在接下来的一个月左右向 Plus 用户推出 alpha 版本,与此同时,还将推出面向企业的选项。

此外,OpenAI 还宣布,他们正在网页上发布一个更新的 ChatGPT 用户界面,带有一个新的 "更加对话式"的主页和消息布局,并为 macOS 推出了 ChatGPT 的桌面版,允许用户通过键盘快捷方式提问或拍摄并讨论屏幕截图。ChatGPT Plus 用户将首先获得对该应用的访问权限,从今天开始,而 Windows 版本将在今年晚些时候推出。

另外,OpenAI 的 ChatGPT 应用商店,这是 OpenAI 基于其 AI 模型构建的第三方聊天机器人的库和创作工具,现在可供 ChatGPT 免费版用户使用。免费用户可以利用以前需要付费的 ChatGPT 功能,比如 "记忆功能",允许 ChatGPT "记住" 未来交互的偏好,上传文件和照片,并搜索网络以回答及时问题。

相关推荐
SecPulse5 分钟前
AI开源竞赛与硬件革命:2025年3月科技热点全景解读——阿里、腾讯领跑开源,英特尔、台积电重塑算力格局
人工智能·科技·opencv·自然语言处理·开源·语音识别
云端源想8 分钟前
浅谈大语言模型(LLM)的微调与部署
人工智能·语言模型·自然语言处理
瑶光守护者1 小时前
并行计算编程模型的发展方向与RISC-V的机遇
人工智能·笔记·学习·架构·risc-v
初心丨哈士奇1 小时前
基于大模型的GitLab CodeReview 技术调研
前端·人工智能·node.js
Luis Li 的猫猫2 小时前
基于MATLAB的冰块变化仿真
开发语言·图像处理·人工智能·算法·matlab
xiatian_win1232 小时前
本地部署 OpenManus 保姆级教程(Windows 版)
人工智能·windows
蹦蹦跳跳真可爱5892 小时前
Python----计算机视觉处理(opencv:像素,RGB颜色,图像的存储,opencv安装,代码展示)
人工智能·python·opencv·计算机视觉
BIT_Legend2 小时前
Torch 模型 model => .onnx => .trt 及利用 TensorTR 在 C++ 下的模型部署教程
c++·人工智能·python·深度学习
蹦蹦跳跳真可爱5893 小时前
Python----计算机视觉处理(Opencv:自适应二值化,取均值,加权求和(高斯定理))
人工智能·python·opencv·计算机视觉
轻松Ai享生活3 小时前
从代码粘贴侠到优雅的Coder? - 3个大神教我的脱坑不传之秘
人工智能·面试·程序员