OpenAI Realtime API 升级，集成 WebRTC 且降价 60%；豆包发布视觉理解模型，实时语音模型也将上线

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、OpenAI Realtime API 升级，集成 WebRTC 且降价 60%

在 OpenAI 第九场发布会上，其焦点主要放在 API 和开发者服务的全新升级上，并宣布向 API 使用等级 5 级的开发者开放 OpenAI o1 API 的访问权限。据官方介绍，现已正式上线的 o1 具备多项关键功能，可支持实际应用场景如下：

函数调用：无缝连接 o1 与外部数据和 API。
结构化输出：生成可靠地遵循自定义 JSON 模式的响应。
开发者指令：为模型指定指令或上下文，例如定义语气、风格以及其他行为指导。
视觉能力：推理图像，开启更多科学、制造或编程领域的应用，特别是在视觉输入至关重要的场景中。
更低延迟：与 o1-preview 相比，o1 在处理相同请求时，推理 token 使用量平均减少 60%。

OpenAI 对 Realtime API 也进行了全面升级。新版本特别适合开发语音助手、实时翻译工具等应用场景。同时，Realtime API 能够集成到智能眼镜等可穿戴设备中，或者轻松接入各类摄像头和麦克风系统。Realtime API 此次更新重点包括 WebRTC 直接集成、价格调整以及更精细的响应控制。

据介绍，WebRTC 可自动处理音频编码、流媒体传输、降噪和拥塞控制等关键功能，即使在网络条件不稳定的情况下也能保证流畅的用户体验。Realtime API 还新增了多项实用功能：

后台任务，如内容审核或分类，可以在不干扰用户语音互动的情况下进行。
允许自定义输入上下文，指定哪些对话内容作为模型的输入。
控制响应时机，利用服务器端语音活动检测（VAD），但不自动触发回应。
延长最大会话时长，将原本 15 分钟的会话时长增加到 30 分钟。

在定价方面，OpenAI 大幅下调了相关服务费用：gpt-4o-realtime-preview-2024-12-17 音频 token 价格下调 60%，降至每百万输入 token 40 美元，每百万输出 token 80 美元；音频输入缓存费用仅需每百万 token 2.50 美元，大幅下降 87.5%；同时推出的 GPT-4o mini 为开发者提供了更具性价比的选择，在保持体验的同时，将音频价格设定为每百万输入 token 10 美元，每百万输出 token 20 美元，文本 token 则分别为 0.60 美元和 2.40 美元。(@ APPSO)

2、谷歌推出全新 AI 工具 Whisk 无需提示词，可多张图片混合生成新风格图像

谷歌发布了一款名为 Whisk 的新 AI 工具，它颠覆了传统的图像生成模式，允许用户使用图片作为提示词，而非冗长的文字描述。

通过 Whisk，你可以上传图片来指定 AI 生成图像的主题、场景和风格，并且可以为这三者分别使用多张图片。

如果手头没有合适的图片，也可以让谷歌自动填充一些图片作为提示（这些图片似乎也是 AI 生成的）。

Whisk 还为每张生成的图片提供了文字提示。如果对结果满意，用户可以收藏或下载图像；如果想要进一步优化，可以在文本框中添加更多文字，或直接点击图像编辑文字提示。

谷歌在博客文章中强调，Whisk 旨在进行「快速的视觉探索，而非像素级的精确编辑」。该公司还表示，Whisk 可能会「跑偏」，因此允许用户编辑底层的提示词。

谷歌表示，Whisk 使用了最新版本的 Imagen3 图像生成模型。谷歌还同时发布了新一代视频生成模型 Veo2，据说它能够理解「电影的独特语言」，并且「更少」出现诸如多余手指之类的幻觉。Veo2 将首先在谷歌的 VideoFX 中推出，用户可以通过谷歌实验室的候补名单申请体验，并计划在明年扩展到 YouTube Shorts 和其他产品。（@AIbase 基地）

3、OpenAI 称目前尚无推出视频生成模型 Sora API 的计划

OpenAI 今日表示，目前没有推出其视频生成模型 Sora 的应用程序接口（API）的计划，该模型可基于文本、图像生成视频。

在 OpenAI 开发团队成员的在线问答活动中，OpenAI 开发者体验负责人 Romain Huet 明确指出：「我们目前还没有推出 Sora API 的计划。」

此前，由于访问量远超预期，OpenAI 此前不得不紧急关闭了基于 Sora 的视频创作和编辑套件的申请通道。OpenAI 首席执行官 Sam Altman 为此在社交平台 X 上公开道歉，承认「严重低估了对 Sora 的需求」，并表示「需要一段时间才能让所有人都能使用，正在努力寻找尽快实现的方法！」值得一提的是，OpenAI 已于数日前重新开放了 Sora 的注册申请。

OpenAI 暂缓推出 Sora API 的策略，或使其在与主要竞争对手的角逐中处于不利地位。其主要竞争对手谷歌已于 12 月初推出了其视频生成模型 Veo 的有限访问 API。谷歌本周还宣布，因其高质量输出而在网络上迅速走红的 Veo 的升级版 Veo 2，也将在 2025 年的某个时候推出 API。（@IT 之家）

4、视觉 AI 迎来「厘时代」！豆包视觉理解模型正式发布，比行业价格便宜 85%！

在 12 月 18 日举办的火山引擎 Force 大会上，字节跳动正式发布豆包视觉理解模型，该模型千 tokens 输入价格仅为 0.003 元，一元钱可处理 284 张 720P 图片，比行业价格便宜 85%。

豆包视觉理解模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可完成分析图表、处理代码、解答学科问题等复杂任务。

目前，豆包大模型已覆盖约 3 亿台智能终端设备，日均 tokens 使用量超过 4 万亿，较七个月前增长 33 倍。

此次大会上，字节跳动还发布了豆包 3D 生成模型，并宣布 2025 年春季将推出具备更长视频生成能力的豆包视频生成模型 1.5 版，豆包端到端实时语音模型也将很快上线。（@硬 AI）

02 有亮点的产品

1、语音 AI 初创公司 Kardome 获得 1,000 万美元融资，并宣布在韩国设立地区总部

位于特拉维夫的语音人工智能公司 Kardome 已获得 1000 万美元的 A 轮融资，由 Korea Investment Partners 领投。主要投资者还包括现代汽车集团、Next Gear Ventures 和 Techstars。

这笔资金旨在加速开发 Kardome 的空间听觉人工智能（Spatial Hearing AI），该技术通过让设备更自然地隔离和响应声音来增强语音交互，就像人类的听觉一样。从汽车到 AR 眼镜，Kardome 的技术正在重塑语音指令的工作方式。

作为扩张战略的一部分，Kardome 正在韩国首尔设立地区总部。此举旨在提升公司在亚洲的影响力，尤其是在汽车和消费电子市场。

「Kardome 的技术与基于 LLM 的语音解决方案相结合，将彻底改变汽车、智能家居、AR/VR 和机器人领域的通信方式，」Korea Investment Partners 董事总经理 Min-Q Kim 说。「这种协同效应使 Kardome 站在了快速增长市场的前沿。

Kardome 的空间听觉人工智能已经应用于超过 100 万台设备。通过开设首尔办事处，该公司旨在利用韩国先进的技术生态系统，加深与现代汽车等汽车巨头的联系，现代汽车也是该公司的投资者之一。

有了这笔新资金，Kardome 希望将环境音频转变为真正的响应式、情境感知体验。想象一下人工智能在您的汽车或家中的应用，它能适应您周围的环境，实现自然、无缝的交互------这就是 Kardome 正在构建的世界。(@ maginative)

2、Cresta Virtual Agent：AI 驱动虚拟代理解决方案

Cresta Virtual Agent 是一款 AI 驱动虚拟代理解决方案。这款虚拟代理能够在没有人力参与的情况下提供 24/7 的服务，不仅减少了依赖人类代理的时间限制，还提升了客户对企业响应速度的期待。通过自然语言处理（NLP）和情感分析，Cresta Virtual Agent 能够捕捉客户语言中的情绪信号，并根据语境调整语气和语言，营造类似人类的互动体验。

除了回答简单问题，Cresta Virtual Agent 还能执行复杂操作，如预订、取消订单、升级套餐等。它通过分析客户历史数据和行为识别增销和交叉销售机会。虚拟代理内置明确的护栏和权限管理，确保其行动范围在企业设定的规则内，避免过度授权或非预期行为。这一功能特别适用于金融、医疗等高合规行业，确保数据安全性和操作透明度。

Cresta Virtual Agent 还能够理解上下文，处理会话中断，并根据客户的情绪动态调整对话节奏。通过持续学习最佳对话实践，Cresta Virtual Agent 能够自动化更多具有复杂决策和结果导向的任务，不仅节省人力成本，还确保自动化流程的结果符合客户需求与企业目标。当虚拟代理无法解决问题时，能快速无缝地将对话转交给人类代理，并确保人类代理接手时已完全了解客户背景和需求，避免客户重复叙述问题的情况，大幅提升服务效率，同时提高了客户的满意度。(@ Z potentials)

03 有态度的观点

1、27 岁华裔亿万富翁 Alexandr Wang：中美 AI 技术差距在缩小，Agent 是 2025 年最大创业机会之一

全球最年轻的 95 后亿万富翁、MIT 辍学生以及估值超 1000 亿的 AI 独角兽 Scale AI 创始人 Alexandr Wang 近期在 SPC 对谈时回顾了自己在 YC 创业加速器的经历。

Alexandr 坦言初期阶段充满了焦虑和迷茫。他引用 YC 的一句话：「在 YC，失败就像《饥饿游戏》一样，90% 公司会失败，但往往需要三年才能知道。」

他强调，创业者必须具备非理性但坚定的自信 ------「如果要竞争，我们就把更好的东西做出来」，这种信念最终成为 Scale 成功的核心动力。

在谈到全球科技的竞争时，Alexandr 提出，美国和中国的 AI 技术对决将决定未来全球的技术主导地位。中国最近在 AI 领域取得了突破性进展，尤其是在复制 OpenAI 的「思维循环」技术方面，这标志着中美在 AI 技术上的差距几乎已经缩小。

此外，他还提到了数据墙和合成数据的挑战，认为数据的稀缺性将成为未来 AI 发展的重要瓶颈。

尽管计算能力的提升不可忽视，但只有在数据的扩展上与计算能力同步增长，才能打破这一瓶颈。Alexandr 预计，当前 AI 模型在多轮交互中的表现仍然有限，但随着模型的改进，未来 AI 智能体将成为一个巨大的创业机会。到 2025 年，AI 智能体将彻底改变 C 端和 B 端的互动方式，是一个极具潜力的创业方向。（@有新 Newin）

更多 Voice Agent 学习笔记：

Gemini 2.0 来了，这些 Voice Agent 开发者早已开始探索......

帮助用户与 AI 实时练习口语，Speak 为何能估值 10 亿美元？丨Voice Agent 学习笔记

市场规模超 60 亿美元，语音如何改变对话式 AI？

2024 语音模型前沿研究整理，Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心，这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

语音 AI 革命：未来，消费者更可能倾向于与 AI 沟通，而非人工客服

语音 AI 迎来爆发期，也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

Voice-first，闭关做一款语音产品的思考｜社区来稿

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻