OpenAI发布最新的人工智能模型GPT-4o:可实时语言、图像交互

OpenAI 在周一宣布了一款新的旗舰生成式 AI 模型,他们将其称为 GPT-4o --- 这里的 "o" 意指 "全方位",指的是该模型处理文本、语音和视频的能力。GPT-4o 将会在接下来的几周逐步在公司的开发者和消费者产品中推出。

OpenAI 首席技术官米拉·穆拉蒂表示,GPT-4o 提供了 "GPT-4 级别" 的智能,但在多种形式和媒体上改进了 GPT-4 的能力。

"GPT-4o 可以跨语音、文本和视觉进行推理。" 穆拉蒂在周一在旧金山 OpenAI 办公室举行的直播中说道。"这非常重要,因为我们正在探索我们与机器之间的互动的未来。"

OpenAI 之前的 "领先的"、"最先进的" 模型 GPT-4 Turbo 是在图像和文本的组合上进行训练的,能够分析图像和文本以完成任务,比如从图像中提取文本,甚至描述这些图像的内容。但 GPT-4o 则加入了语音。

这带来了什么?多种可能性。

GPT-4o 极大地改善了 OpenAI AI 驱动的聊天机器人 ChatGPT 的体验。该平台长期以来一直提供着一种语音模式,可以使用文本转语音模型转录聊天机器人的回复,但 GPT-4o 则将其超级加速,使用户可以更像与助手交互一样与 ChatGPT 进行交互。

例如,用户可以向 GPT-4o 动力的 ChatGPT 提问,并在 ChatGPT 回答时打断。OpenAI 表示,该模型提供了 "实时" 的响应能力,甚至可以捕捉到用户语音中的细微差异,以 "一系列不同情绪风格的" 声音回应(包括唱歌)。

GPT-4o 还提升了 ChatGPT 的视觉能力。给定一张照片 --- 或者是桌面屏幕 --- ChatGPT 现在可以快速回答相关问题,从 "这段软件代码发生了什么?" 到 "这个人穿的是什么牌子的衬衫?" 各种主题都能应对。

穆拉蒂表示,这些功能将在未来进一步发展。虽然今天 GPT-4o 可以查看一张菜单的图片并翻译它,但在未来,该模型可能允许 ChatGPT "观看" 一场现场体育比赛并向你解释规则。

"我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、简单,让你完全不用关注 UI,只需专注于与 ChatGPT 的合作。" 穆拉蒂说道。"在过去的几年里,我们一直在专注于提高这些模型的智能......但这是我们第一次在易用性方面迈出了巨大的一步。"

OpenAI 声称,GPT-4o 在多语言方面也更加多样化,性能提升了约 50 种语言。在 OpenAI 的 API 和微软的 Azure OpenAI 服务中,GPT-4o 的速度是 GPT-4 Turbo 的两倍,价格是其一半,限制率也更高。

目前,语音并不是 GPT-4o API 的一部分,供所有客户使用。OpenAI 提到,由于滥用的风险,他们计划首先向 "一小部分受信任的合作伙伴" 推出对 GPT-4o 新音频功能的支持,这将在未来几周内实现。

从今天开始,GPT-4o 可以在 ChatGPT 的免费版中使用,也可供 OpenAI 的高级 ChatGPT Plus 和 Team 订阅计划用户使用,这些计划有 "5 倍更高"的消息限制。(OpenAI 指出,当用户达到速率限制时,ChatGPT 将自动切换到 GPT-3.5,这是一个更旧、能力更低的模型。)基于 GPT-4o 的改进 ChatGPT 语音体验将在接下来的一个月左右向 Plus 用户推出 alpha 版本,与此同时,还将推出面向企业的选项。

此外,OpenAI 还宣布,他们正在网页上发布一个更新的 ChatGPT 用户界面,带有一个新的 "更加对话式"的主页和消息布局,并为 macOS 推出了 ChatGPT 的桌面版,允许用户通过键盘快捷方式提问或拍摄并讨论屏幕截图。ChatGPT Plus 用户将首先获得对该应用的访问权限,从今天开始,而 Windows 版本将在今年晚些时候推出。

另外,OpenAI 的 ChatGPT 应用商店,这是 OpenAI 基于其 AI 模型构建的第三方聊天机器人的库和创作工具,现在可供 ChatGPT 免费版用户使用。免费用户可以利用以前需要付费的 ChatGPT 功能,比如 "记忆功能",允许 ChatGPT "记住" 未来交互的偏好,上传文件和照片,并搜索网络以回答及时问题。

相关推荐
Hello123网站8 分钟前
探迹SalesGPT
人工智能·ai工具
摘星星的屋顶10 分钟前
论文阅读记录之《VelocityGPT 》
论文阅读·人工智能·深度学习·学习
格林威25 分钟前
工业相机如何通过光度立体成像技术实现高效精准的2.5D缺陷检测
人工智能·深度学习·数码相机·yolo·计算机视觉
MarkHD30 分钟前
大语言模型入门指南:从原理到实践应用
人工智能·语言模型·自然语言处理
A尘埃31 分钟前
NLP(自然语言处理, Natural Language Processing)
人工智能·自然语言处理·nlp
dlraba80231 分钟前
机器学习实战(二):Pandas 特征工程与模型协同进阶
人工智能·机器学习·pandas
一碗白开水一34 分钟前
【第19话:定位建图】SLAM点云配准之3D-3D ICP(Iterative Closest Point)方法详解
人工智能·算法
mit6.82435 分钟前
[rStar] 策略与奖励大语言模型
人工智能·语言模型
CV-杨帆42 分钟前
论文阅读:arxiv 2023 Large Language Models are Not Stable Recommender Systems
论文阅读·人工智能·语言模型
羊羊小栈1 小时前
基于「YOLO目标检测 + 多模态AI分析」的植物病害检测分析系统(vue+flask+数据集+模型训练)
人工智能·yolo·目标检测·毕业设计·创业创新·大作业