2024年OpenAI DevDay发布实时 API、提示缓存等新功能

就在几天前，一些重要人物如前 CTO Mira Murati 离开了 OpenAI。因此，看到 Sam Altman 在 DevDay 上登台，讨论开发者的新产品，感觉有点奇怪。

随着公司内部的这些变化，你不禁会想：我们还应该信任他吗？

但这不是重点。让我们先把这些戏剧性事件放在一边，看看 Dev Day 的真正主题------OpenAI 刚刚为开发者宣布的新工具。

尽管领导层的变动令人担忧，但显然公司仍在向前推进。事实上，这次活动中有许多值得细细探讨的进展。

如果你错过了去年的 DevDay 2023，这里是自那时以来的一些最新进展：

从 GPT-4 到 4o mini，每个 token 的成本下降了 98%
系统中的 token 处理量增加了 50 倍
显著的模型智能进展

实时 API（Realtime API）

DevDay 2024 的亮点无疑是实时 API。

这个 API 使开发者能够在其应用程序中构建低延迟、多模态的对话功能，支持文本、音频以及函数调用。

以下是一个调用 API 的 javascript 示例代码。

plain 复制代码

const event = {
  type: 'conversation.item.create',
  item: {
    type: 'message',
    role: 'user',
    content: [
      {
        type: 'input_text',
        text: 'Hey, how are you doing?'
      }
    ]
  }
};
ws.send(JSON.stringify(event));
ws.send(JSON.stringify({type: 'response.create'}));

那么，为什么开发者应该关心这个呢？

原生语音到语音： 不经过文本中介，意味着低延迟和更细腻的输出。
自然且可引导的语音： 模型具有自然的语调，能表现出笑声、低语等，并能遵循语气指引。
同时输出多模态： 文本对内容审核有用，而比实时更快的音频确保了稳定的播放。

现在，数千名开发者可以将这一功能集成到他们的应用中，开启了语音驱动应用的新潮流。

看看一些有机会提前体验实时 API 的开发者分享的产品示例：

"结果是，我们的学习者体验更加个性化和有帮助！今天，我们宣布推出 Live Roleplays，这是一种结合实时 API 和我们的学习引擎的新 Speak 体验，能够在各种角色扮演场景中提供沉浸式的口语练习。" ---Andrew Hsu

以下是实时 API 的定价信息：

文本输入：每 100 万个 token 5 美元
文本输出：每 100 万个 token 20 美元
音频输入：每 100 万个 token 100 美元（约每分钟 0.06 美元）
音频输出：每 100 万个 token 200 美元（约每分钟 0.24 美元）

提示缓存（Prompt Caching）

接下来介绍的是提示缓存，这项功能显著减少了处理重复提示所需的成本和时间。

OpenAI 现在将把 API 请求路由到最近处理过相同或相似提示的服务器，这意味着你可以跳过重复的计算。对于处理长提示或复杂提示且经常重复使用的开发者来说，这项功能特别有用。

此功能可将长提示的延迟减少多达 80%，成本降低 50%。

提示缓存并不是一个全新的概念。事实上，Anthropic 不久前推出了一个类似功能，允许开发者缓存经常使用的上下文，最多可减少 90% 的成本。

OpenAI 的提示缓存适用于以下模型：

gpt-4o
gpt-4o-mini
o1-preview
o1-mini

当你发出 API 请求时，流程如下：

缓存查找：系统检查你的提示的初始部分（前缀）是否已被缓存。
缓存命中：如果找到了匹配的前缀，系统将使用缓存结果。这显著减少了延迟并降低了成本。
缓存未命中：如果没有匹配的前缀，系统将处理你的完整提示。处理完成后，提示的前缀会被缓存以备将来使用。

这些缓存的前缀最多可以存储 10 分钟。但在非高峰期，缓存可能会持续长达一小时。

提示缓存的定价如下：

视觉微调（Vision Fine-Tuning）

DevDay 上另一个重要的新功能是视觉微调。

此功能允许用户在 JSONL 文件中使用图像和文本来微调模型。这为不仅依赖文本输入，还可以利用视觉数据训练模型提供了可能性。

以下是 JSONL 文件中一行图像消息的示例。为了方便阅读，JSON 对象已展开，但通常情况下该 JSON 会出现在数据文件的单行中：

plain 复制代码

{
  "messages": [
    { "role": "system", "content": "You are an assistant that identifies uncommon cheeses." },
    { "role": "user", "content": "What is this cheese?" },
    { "role": "user", "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/3/36/Danbo_Cheese.jpg"
          }
        }
      ] 
    },
    { "role": "assistant", "content": "Danbo" }
  ]
}

那么，这有什么用呢？

OpenAI 与Grab 等领先科技公司合作，展示了视觉微调 在现实应用中的强大功能。Grab 是一家主要的食品配送和网约车服务公司，使用此功能提升了其GrabMaps平台的性能。该平台依赖于从司机收集的街道级图像来支持东南亚的运营。

通过使用 100 个样例微调GPT-4o ，Grab 提升了识别交通标志和车道分隔线的能力。

结果是车道计数准确性提高了 20%，速度限制标志定位精度提高了 13%，简化了其地图绘制流程，减少了人工干预的需求。

*注意：您的训练图像不得包含人物、面部、验证码或违反我们使用条款的图像。*包含这些图像的数据集将被自动拒绝。

关于定价问题，OpenAI 目前提供每天 100 万个训练 token 的免费额度，时间截止到 2024 年 10 月 31 日，以用于通过图像微调 GPT-4o。

2024 年 10 月 31 日之后，GPT-4o 微调训练的费用为每 100 万个 token 25 美元，推理费用为每 100 万个输入 token 3.75 美元，每 100 万个输出 token 15 美元。

图像输入首先根据图像大小进行 token 化，然后按照与文本输入相同的 token 费率定价。

谈谈安全问题

尽管这些新功能很酷，但它们确实带来了安全隐患，尤其是实时 API。

我们正接近一个假电话可能与真实电话难以区分的世界。想象一下，你接到了一个听起来完全像你的老板或家人的电话，结果却发现那是 AI 的冒充。

不难想象恶意分子如何滥用这项技术。

事实上，几天前，联邦通信委员会罚款一名政治顾问 600 万美元，原因是他今年早些时候使用 AI 模拟乔·拜登总统的声音进行自动电话。

为了避免滥用，OpenAI 的 API 不能直接拨打餐馆或商店的电话。然而，AI 没有公开声明自己不是人类，因此很难确定你是否在与 AI 对话。目前，似乎开发者有责任添加某种类型的声明。

OpenAI 尝试缓解这些风险。对于语音交互，OpenAI 使用了一种音频安全基础设施，已被证明在最小化潜在滥用方面非常有效，尤其是防止被用于欺骗性目的，如误导电话或声音操纵。

关于视觉微调，微调后的模型完全由用户控制，确保了商业数据的完全所有权。OpenAI 不会在未经明确许可的情况下使用任何用于微调的输入或输出来训练模型，确保数据保持私密和安全。

最终思考

今天宣布了很多内容，但让我印象最深刻的是实时 API。

本质上，这是 ChatGPT 高级语音模式的 API 版本，我预计在未来几周内会有数百款基于该语音 API 的应用程序出现。

据 OpenAI 称，目前已有超过 300 万开发者正在利用其技术构建新应用和功能。

这些新宣布的产品，尤其是实时语音 API，可能有助于扩大这一关键用户群体并增加 OpenAI 的收入。

目前尚不清楚这些 API 在现实应用中有多直观或多具成本效益。

我计划构建一些概念验证（PoC）应用程序来测试它们，并将在后续帖子中分享我的发现。在此之前，我很想听听你对今年 DevDay 的看法。

哪一项产品发布让你最兴奋？请在评论中告诉我！