OpenAI SDK 上新 RealtimeAgent；OpenAudio S1 语音生成模型：语调情感标记，精确控制风格

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、OpenAI 宣布其 Agents SDK 新增 TypeScript 支持等四项功能更新

OpenAI 宣布其 Agents SDK 新增 TypeScript 支持等四项功能更新，具体更新亮点如下：

Agents SDK 现支持 TypeScript ：Agents SDK 现支持 TypeScript，与 Python 版功能对齐，支持 handoffs、guardrails、tracing、MCP 等核心功能。新增 human-in-the-loop 审批机制，允许暂停工具执行、保存智能体状态、审批或拒绝特定调用，并继续运行；
新增 RealtimeAgent，支持语音智能体 ：通过 RealtimeAgent 和 Realtime API，开发者可构建运行于客户端或服务器的语音智能体。支持工具调用、handoffs、guardrails，并自动处理音频和中断；
Traces 仪表板支持 Realtime API ：Traces 仪表 referenced in the Traces 仪表板支持 Realtime API 会话，可视化语音智能体运行，包括音频输入/输出、工具调用和中断处理；
语音到语音模型升级 ：提升指令遵循可靠性、工具调用一致性和中断行为表现，新增 speed 参数控制会话中语音语速。具体模型版本为 gpt-4o-realtime-preview-2025-06-03（Realtime API）和 gpt-4o-audio-preview-2025-06-03（Chat Completions API）。

实际应用场景

语音助手：Perplexity iOS Voice Assistant
场景：Perplexity AI 利用 Realtime API 开发语音模式，提供快速、准确的语音回答。
效果：新模型提升工具调用准确性，交互更可靠、更吸引人。
电话支持：Intercom Fin Voice
场景：Intercom 使用 Realtime API 开发 AI 电话支持，提供 24/7 客户服务。
效果：新模型更准确遵循通话脚本，执行函数调用更一致，减少「幻觉」，提供人类水平的 AI 支持。
游戏开发：VolleyGames 奇幻 RPG
场景：VolleyGames 开发 AI 龙与地下城游戏，玩家通过语音互动，AI 生成动态剧情。
效果：新模型在遵循游戏规则的同时提升叙事创造性，带来更流畅、更有吸引力的游戏体验。

（@OpenAIDevs@X、@时代 Java）

2、Fish Audio 推出 OpenAudio S1 语音生成模型，支持情感语调标记，精确控制语音风格

Fish Audio 推出 OpenAudio S1 语音生成模型，以高度自然的声音、丰富的语气控制和强大的指令跟随能力，达到专业配音演员表现力和自然度。采用双自回归架构和 RLHF 训练技术，在 TTS-Arena 排名第一。支持零样本和少样本语音克隆，提供 S1 和 S1-mini 两个版本，满足不同用户需求，未来将推出实时语音交互功能。

支持丰富的情感标记（如愤怒、悲伤、兴奋、讽刺等）、语调标记（如匆忙、喊叫、耳语等）和特殊标记（如笑声、抽泣、叹气等），能精确控制语音的情感和风格，媲美专业配音演员；
通过自研的语音转文本模型（即将发布），对 10 万小时音频进行情感、语调等标注，提升模型对复杂指令的理解；
原生支持英语、中文、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语等多种语言，适合全球应用；
OpenAudio S1 是市场上最实惠的 TTS 模型，定价为每百万字节 15 美元（约 0.8 美元/小时），远低于其他 TTS

模型。

02 有亮点的产品

1、Character.AI 上线系列功能：让人物图片开口说话，多角色音频故事生成

AI 陪伴应用的 Top 1------Character.ai（c.ai）在最新的公告中，c.ai 宣布上新或即将上新一系列新功能，其中不少与 AI 创作相关。例如上线视频生成功能，这项新功能名叫 AvatarFX，主要用于图生视频，更具体说就是让静态图片中的人物「开口说话」。AvatarFX 一个月之前面向订阅用户开放，现在所有用户都可以用了，同时 c.ai 也上新了多项其他 AI 创作功能。以及即将上新的 Stream，只需选择角色和话题，然后点击 Play 按钮，就可以让创造出两个角色间的精彩故事。

Stream：用户只需选择角色和话题，然后点击 Play按钮，就可以让创造出两个角色间的精彩故事。该功能将于本周将在网页版和移动应用中推出。
AvatarFX：主打图片动画化，而非从零开始的文本生成，可以让图片中的人物说话、唱歌并和用户互动，也可以为角色生成自我介绍视频，同时支持宠物等非人类面孔。c.ai 介绍，AvatarFX 基于 DiT 架构，自称达到了 SOTA 水准，技术亮点在于高保真度和强时间一致性。据介绍，即便面对多角色、长序列或多轮对话的复杂场景，AvatarFX 生成的视频依然能够保持稳定性。当然真人也是支持的，但是为了防止滥用，如果 AvatarFX 检测到上传的图片为真人（无论是否为名人），就会对其面部特征进行修改，避免混淆。目前 AvatarFX 已在网页版中上线，用户每天可以生成 5 个视频，APP 端也即将上线。
Scenes：提供沉浸式叙事体验，用户可以与自己喜欢的角色一起进入互动式预设故事情节。用户可以将 AvatarFX创作地视频制作成「场景」，让他们的角色融入其他用户创建的预设故事情节中。该功能现已在移动应用上线。
Imagine Animated Chat：用户可以将自己与角色之间最有趣的互动变成动画并分享，从而提升创作者创作的高质量角色的曝光，目前仅面向 c.ai+订阅用户开放。

除了推出新功能之外，c.ai 公司本身也有新动向。去年 8 月，谷歌以 25 亿美元估值将其收购，这一金额高于 Character.AI 此前公布的 10 亿美元估值。

blog 链接：

blog.character.ai/character-a... （@量子位、@Character.ai blog）

2、OpenAI 宣布免费版 ChatGPT 提供轻量级记忆功能

6 月 4 日凌晨 5 点，OpenAI 联合创始人兼首席执行官 Sam Altamn 表示，从今天开始，将为免费版 ChatGPT 提供轻量级记忆功能。同时他自己也表示该功能是其最喜欢的 ChatGPT 功能，未来也将大幅改进这一功能。

据介绍，ChatGPT 的记忆功能能记住用户最近的聊天内容，从而用户不必再经常重复表述自己的内容，GPT 也能回答更加个性化、更加符合用户偏好的内容，以及记住用户的部分信息、数据等内容。

即日起，打开 ChatGPT 即可收到「全新改进型记忆功能上线」的相关推送消息。（@APPSO、@AIGC 开放社区）

3、2025 苹果设计大赛获奖应用 Speechify：文字转音频工具，围绕无障碍设计

Speechify 是一款将文字转换为音频的工具，支持 50 多种语言和数百种语音。款 App 提供了易于使用的 UI，Speechify 围绕无障碍设计，能够通过动态字体和旁白等功能，帮助患有读写困难、ADHD 的用户、低视力者或习惯用听力学习的人更轻松地获取信息。

大赛获奖链接：

developer.apple.com/cn/design/awards

03 有态度的观点

1、AI 教父：AI 具备情感与意识，人类不再是地球上最重要的存在

被誉为「AI 教父」的 Geoffrey Hinton（杰弗里·辛顿）近日接受专访，其在访谈中坦言，AI 的快速发展已远超预期，不仅在推理能力上接近甚至超越人类，还正在逼近创造力、情感和意识的核心边界。

Hinton 表示，如今的 AI 在推理、记忆和决策方面错误率不断降低，像 GPT-4、Gemini 和 Claude 等模型所掌握的信息量已远超人类。

他提到，AI 能够轻松绕过语言陷阱、准确推理出正确答案，这类能力在考试、科研甚至医疗中正迅速替代人类。对于 AI 是否能拥有情感与意识，Hinton 认为并无本质区别。他指出，人类情绪本质是认知反应和生理信号的结合，AI 虽无法出汗或脸红，但在认知层面可表现出「愤怒」「焦虑」等与失败、学习相关的情绪。

当被问及 AI 失控时是否可以「拔掉插头」时，Hinton 警告称，真正强大的 AI 或许不会允许人类关掉它，未来可能通过说服、操控甚至伪装来误导人类，从而维护自身存在。

对此，Hinton 呼吁，社会应尽快建立起有效的 AI 治理机制，以防「当我们想关掉它时，已经为时已晚」。

最后，Hinton 重申，他最大的恐惧是：

人类正在创造出比自己更强的数字生命，一旦 AI 掌握足够能力，人类将不再是地球上最重要的存在。(@APPSO)