OpenAI发布最新的人工智能模型GPT-4o:可实时语言、图像交互

OpenAI 在周一宣布了一款新的旗舰生成式 AI 模型,他们将其称为 GPT-4o --- 这里的 "o" 意指 "全方位",指的是该模型处理文本、语音和视频的能力。GPT-4o 将会在接下来的几周逐步在公司的开发者和消费者产品中推出。

OpenAI 首席技术官米拉·穆拉蒂表示,GPT-4o 提供了 "GPT-4 级别" 的智能,但在多种形式和媒体上改进了 GPT-4 的能力。

"GPT-4o 可以跨语音、文本和视觉进行推理。" 穆拉蒂在周一在旧金山 OpenAI 办公室举行的直播中说道。"这非常重要,因为我们正在探索我们与机器之间的互动的未来。"

OpenAI 之前的 "领先的"、"最先进的" 模型 GPT-4 Turbo 是在图像和文本的组合上进行训练的,能够分析图像和文本以完成任务,比如从图像中提取文本,甚至描述这些图像的内容。但 GPT-4o 则加入了语音。

这带来了什么?多种可能性。

GPT-4o 极大地改善了 OpenAI AI 驱动的聊天机器人 ChatGPT 的体验。该平台长期以来一直提供着一种语音模式,可以使用文本转语音模型转录聊天机器人的回复,但 GPT-4o 则将其超级加速,使用户可以更像与助手交互一样与 ChatGPT 进行交互。

例如,用户可以向 GPT-4o 动力的 ChatGPT 提问,并在 ChatGPT 回答时打断。OpenAI 表示,该模型提供了 "实时" 的响应能力,甚至可以捕捉到用户语音中的细微差异,以 "一系列不同情绪风格的" 声音回应(包括唱歌)。

GPT-4o 还提升了 ChatGPT 的视觉能力。给定一张照片 --- 或者是桌面屏幕 --- ChatGPT 现在可以快速回答相关问题,从 "这段软件代码发生了什么?" 到 "这个人穿的是什么牌子的衬衫?" 各种主题都能应对。

穆拉蒂表示,这些功能将在未来进一步发展。虽然今天 GPT-4o 可以查看一张菜单的图片并翻译它,但在未来,该模型可能允许 ChatGPT "观看" 一场现场体育比赛并向你解释规则。

"我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、简单,让你完全不用关注 UI,只需专注于与 ChatGPT 的合作。" 穆拉蒂说道。"在过去的几年里,我们一直在专注于提高这些模型的智能......但这是我们第一次在易用性方面迈出了巨大的一步。"

OpenAI 声称,GPT-4o 在多语言方面也更加多样化,性能提升了约 50 种语言。在 OpenAI 的 API 和微软的 Azure OpenAI 服务中,GPT-4o 的速度是 GPT-4 Turbo 的两倍,价格是其一半,限制率也更高。

目前,语音并不是 GPT-4o API 的一部分,供所有客户使用。OpenAI 提到,由于滥用的风险,他们计划首先向 "一小部分受信任的合作伙伴" 推出对 GPT-4o 新音频功能的支持,这将在未来几周内实现。

从今天开始,GPT-4o 可以在 ChatGPT 的免费版中使用,也可供 OpenAI 的高级 ChatGPT Plus 和 Team 订阅计划用户使用,这些计划有 "5 倍更高"的消息限制。(OpenAI 指出,当用户达到速率限制时,ChatGPT 将自动切换到 GPT-3.5,这是一个更旧、能力更低的模型。)基于 GPT-4o 的改进 ChatGPT 语音体验将在接下来的一个月左右向 Plus 用户推出 alpha 版本,与此同时,还将推出面向企业的选项。

此外,OpenAI 还宣布,他们正在网页上发布一个更新的 ChatGPT 用户界面,带有一个新的 "更加对话式"的主页和消息布局,并为 macOS 推出了 ChatGPT 的桌面版,允许用户通过键盘快捷方式提问或拍摄并讨论屏幕截图。ChatGPT Plus 用户将首先获得对该应用的访问权限,从今天开始,而 Windows 版本将在今年晚些时候推出。

另外,OpenAI 的 ChatGPT 应用商店,这是 OpenAI 基于其 AI 模型构建的第三方聊天机器人的库和创作工具,现在可供 ChatGPT 免费版用户使用。免费用户可以利用以前需要付费的 ChatGPT 功能,比如 "记忆功能",允许 ChatGPT "记住" 未来交互的偏好,上传文件和照片,并搜索网络以回答及时问题。

相关推荐
鼠鼠龙年发大财1 分钟前
【鼠鼠学AI代码合集#7】概率
人工智能
龙的爹233310 分钟前
论文 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust
人工智能·gpt·深度学习·语言模型·自然语言处理·prompt
工业机器视觉设计和实现23 分钟前
cnn突破四(生成卷积核与固定核对比)
人工智能·深度学习·cnn
我算是程序猿1 小时前
用AI做电子萌宠,快速涨粉变现
人工智能·stable diffusion·aigc
萱仔学习自我记录1 小时前
微调大语言模型——超详细步骤
人工智能·深度学习·机器学习
湘大小菜鸡2 小时前
NLP进阶(一)
人工智能·自然语言处理
XiaoLiuLB2 小时前
最佳语音识别 Whisper-large-v3-turbo 上线,速度更快(本地安装 )
人工智能·whisper·语音识别
哪 吒2 小时前
吊打ChatGPT4o!大学生如何用上原版O1辅助论文写作(附论文教程)
人工智能·ai·自然语言处理·chatgpt·aigc
Eric.Lee20212 小时前
音频文件重采样 - python 实现
人工智能·python·深度学习·算法·audio·音频重采样
爱喝白开水a2 小时前
关于大模型在企业生产环境中的独立部署问题
人工智能·深度学习·llm·大语言模型·ai大模型·计算机技术·本地部署大模型