OpenAI发布最新的人工智能模型GPT-4o：可实时语言、图像交互

OpenAI 在周一宣布了一款新的旗舰生成式 AI 模型，他们将其称为 GPT-4o --- 这里的 "o" 意指 "全方位"，指的是该模型处理文本、语音和视频的能力。GPT-4o 将会在接下来的几周逐步在公司的开发者和消费者产品中推出。

OpenAI 首席技术官米拉·穆拉蒂表示，GPT-4o 提供了 "GPT-4 级别" 的智能，但在多种形式和媒体上改进了 GPT-4 的能力。

"GPT-4o 可以跨语音、文本和视觉进行推理。" 穆拉蒂在周一在旧金山 OpenAI 办公室举行的直播中说道。"这非常重要，因为我们正在探索我们与机器之间的互动的未来。"

OpenAI 之前的 "领先的"、"最先进的" 模型 GPT-4 Turbo 是在图像和文本的组合上进行训练的，能够分析图像和文本以完成任务，比如从图像中提取文本，甚至描述这些图像的内容。但 GPT-4o 则加入了语音。

这带来了什么？多种可能性。

GPT-4o 极大地改善了 OpenAI AI 驱动的聊天机器人 ChatGPT 的体验。该平台长期以来一直提供着一种语音模式，可以使用文本转语音模型转录聊天机器人的回复，但 GPT-4o 则将其超级加速，使用户可以更像与助手交互一样与 ChatGPT 进行交互。

例如，用户可以向 GPT-4o 动力的 ChatGPT 提问，并在 ChatGPT 回答时打断。OpenAI 表示，该模型提供了 "实时" 的响应能力，甚至可以捕捉到用户语音中的细微差异，以 "一系列不同情绪风格的" 声音回应（包括唱歌）。

GPT-4o 还提升了 ChatGPT 的视觉能力。给定一张照片 --- 或者是桌面屏幕 --- ChatGPT 现在可以快速回答相关问题，从 "这段软件代码发生了什么？" 到 "这个人穿的是什么牌子的衬衫？" 各种主题都能应对。

穆拉蒂表示，这些功能将在未来进一步发展。虽然今天 GPT-4o 可以查看一张菜单的图片并翻译它，但在未来，该模型可能允许 ChatGPT "观看" 一场现场体育比赛并向你解释规则。

"我们知道这些模型变得越来越复杂，但我们希望交互体验实际上变得更加自然、简单，让你完全不用关注 UI，只需专注于与 ChatGPT 的合作。" 穆拉蒂说道。"在过去的几年里，我们一直在专注于提高这些模型的智能......但这是我们第一次在易用性方面迈出了巨大的一步。"

OpenAI 声称，GPT-4o 在多语言方面也更加多样化，性能提升了约 50 种语言。在 OpenAI 的 API 和微软的 Azure OpenAI 服务中，GPT-4o 的速度是 GPT-4 Turbo 的两倍，价格是其一半，限制率也更高。

目前，语音并不是 GPT-4o API 的一部分，供所有客户使用。OpenAI 提到，由于滥用的风险，他们计划首先向 "一小部分受信任的合作伙伴" 推出对 GPT-4o 新音频功能的支持，这将在未来几周内实现。

从今天开始，GPT-4o 可以在 ChatGPT 的免费版中使用，也可供 OpenAI 的高级 ChatGPT Plus 和 Team 订阅计划用户使用，这些计划有 "5 倍更高"的消息限制。（OpenAI 指出，当用户达到速率限制时，ChatGPT 将自动切换到 GPT-3.5，这是一个更旧、能力更低的模型。）基于 GPT-4o 的改进 ChatGPT 语音体验将在接下来的一个月左右向 Plus 用户推出 alpha 版本，与此同时，还将推出面向企业的选项。

此外，OpenAI 还宣布，他们正在网页上发布一个更新的 ChatGPT 用户界面，带有一个新的 "更加对话式"的主页和消息布局，并为 macOS 推出了 ChatGPT 的桌面版，允许用户通过键盘快捷方式提问或拍摄并讨论屏幕截图。ChatGPT Plus 用户将首先获得对该应用的访问权限，从今天开始，而 Windows 版本将在今年晚些时候推出。

另外，OpenAI 的 ChatGPT 应用商店，这是 OpenAI 基于其 AI 模型构建的第三方聊天机器人的库和创作工具，现在可供 ChatGPT 免费版用户使用。免费用户可以利用以前需要付费的 ChatGPT 功能，比如 "记忆功能"，允许 ChatGPT "记住" 未来交互的偏好，上传文件和照片，并搜索网络以回答及时问题。