
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、OpenAI 宣布其 Agents SDK 新增 TypeScript 支持等四项功能更新
OpenAI 宣布其 Agents SDK 新增 TypeScript 支持等四项功能更新,具体更新亮点如下:
-
Agents SDK 现支持 TypeScript :Agents SDK 现支持 TypeScript,与 Python 版功能对齐,支持 handoffs、guardrails、tracing、MCP 等核心功能。新增 human-in-the-loop 审批机制,允许暂停工具执行、保存智能体状态、审批或拒绝特定调用,并继续运行;
-
新增 RealtimeAgent,支持语音智能体 :通过 RealtimeAgent 和 Realtime API,开发者可构建运行于客户端或服务器的语音智能体。支持工具调用、handoffs、guardrails,并自动处理音频和中断;
-
Traces 仪表板支持 Realtime API :Traces 仪表 referenced in the Traces 仪表板支持 Realtime API 会话,可视化语音智能体运行,包括音频输入/输出、工具调用和中断处理;
-
语音到语音模型升级 :提升指令遵循可靠性、工具调用一致性和中断行为表现,新增 speed 参数控制会话中语音语速。具体模型版本为 gpt-4o-realtime-preview-2025-06-03(Realtime API)和 gpt-4o-audio-preview-2025-06-03(Chat Completions API)。
实际应用场景
-
语音助手:Perplexity iOS Voice Assistant
-
场景:Perplexity AI 利用 Realtime API 开发语音模式,提供快速、准确的语音回答。
-
效果:新模型提升工具调用准确性,交互更可靠、更吸引人。
-
电话支持:Intercom Fin Voice
-
场景:Intercom 使用 Realtime API 开发 AI 电话支持,提供 24/7 客户服务。
-
效果:新模型更准确遵循通话脚本,执行函数调用更一致,减少「幻觉」,提供人类水平的 AI 支持。
-
游戏开发:VolleyGames 奇幻 RPG
-
场景:VolleyGames 开发 AI 龙与地下城游戏,玩家通过语音互动,AI 生成动态剧情。
-
效果:新模型在遵循游戏规则的同时提升叙事创造性,带来更流畅、更有吸引力的游戏体验。
(@OpenAIDevs@X、@时代 Java)
2、Fish Audio 推出 OpenAudio S1 语音生成模型,支持情感语调标记,精确控制语音风格
Fish Audio 推出 OpenAudio S1 语音生成模型,以高度自然的声音、丰富的语气控制和强大的指令跟随能力,达到专业配音演员表现力和自然度。采用双自回归架构和 RLHF 训练技术,在 TTS-Arena 排名第一。支持零样本和少样本语音克隆,提供 S1 和 S1-mini 两个版本,满足不同用户需求,未来将推出实时语音交互功能。
-
支持丰富的情感标记(如愤怒、悲伤、兴奋、讽刺等)、语调标记(如匆忙、喊叫、耳语等)和特殊标记(如笑声、抽泣、叹气等),能精确控制语音的情感和风格,媲美专业配音演员;
-
通过自研的语音转文本模型(即将发布),对 10 万小时音频进行情感、语调等标注,提升模型对复杂指令的理解;
-
原生支持英语、中文、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语等多种语言,适合全球应用;
-
OpenAudio S1 是市场上最实惠的 TTS 模型,定价为每百万字节 15 美元(约 0.8 美元/小时),远低于其他 TTS
模型。
相关链接:
官方 blog:
(@FishAudio@X、@shao__meng@X、@OneThingAI Lab)
3、京东推出音频驱动 3D 人脸视频模型 JoyGen
JoyGen 是京东与香港大学团队提出的音频驱动 3D 深度感知说话人脸视频编辑模型。
亮点:
-
它采用两阶段框架,先用 3D 重建和音频驱动的动作预测实现精准的嘴型-音频同步;
-
融合音频特征和人脸深度图,提升视觉质量和同步效果;
-
团队还自建了 130 小时的高质量中文说话人脸数据集,显著提升了模型在中英文场景下的表现;
-
实验结果显示,JoyGen 在嘴型同步和视觉效果上均优于现有方法,适合高质量中英文虚拟人及视频编辑应用。

官网:
Github:
github.com/JOY-MM/JoyG... (@elliotchen100@X)
02 有亮点的产品
1、Character.AI 上线系列功能:让人物图片开口说话,多角色音频故事生成

AI 陪伴应用的 Top 1------Character.ai(c.ai)在最新的公告中,c.ai 宣布上新或即将上新一系列新功能,其中不少与 AI 创作相关。例如上线视频生成功能,这项新功能名叫 AvatarFX,主要用于图生视频,更具体说就是让静态图片中的人物「开口说话」。AvatarFX 一个月之前面向订阅用户开放,现在所有用户都可以用了,同时 c.ai 也上新了多项其他 AI 创作功能。以及即将上新的 Stream,只需选择角色和话题,然后点击 Play 按钮,就可以让创造出两个角色间的精彩故事。
-
Stream:用户只需选择角色和话题,然后点击 Play按钮,就可以让创造出两个角色间的精彩故事。该功能将于本周将在网页版和移动应用中推出。
-
AvatarFX:主打图片动画化,而非从零开始的文本生成,可以让图片中的人物说话、唱歌并和用户互动,也可以为角色生成自我介绍视频,同时支持宠物等非人类面孔。c.ai 介绍,AvatarFX 基于 DiT 架构,自称达到了 SOTA 水准,技术亮点在于高保真度和强时间一致性。据介绍,即便面对多角色、长序列或多轮对话的复杂场景,AvatarFX 生成的视频依然能够保持稳定性。当然真人也是支持的,但是为了防止滥用,如果 AvatarFX 检测到上传的图片为真人(无论是否为名人),就会对其面部特征进行修改,避免混淆。目前 AvatarFX 已在网页版中上线,用户每天可以生成 5 个视频,APP 端也即将上线。
-
Scenes:提供沉浸式叙事体验,用户可以与自己喜欢的角色一起进入互动式预设故事情节。用户可以将 AvatarFX创作地视频制作成「场景」,让他们的角色融入其他用户创建的预设故事情节中。该功能现已在移动应用上线。
-
Imagine Animated Chat:用户可以将自己与角色之间最有趣的互动变成动画并分享,从而提升创作者创作的高质量角色的曝光,目前仅面向 c.ai+订阅用户开放。
除了推出新功能之外,c.ai 公司本身也有新动向。去年 8 月,谷歌以 25 亿美元估值将其收购,这一金额高于 Character.AI 此前公布的 10 亿美元估值。
blog 链接:
blog.character.ai/character-a... (@量子位、@Character.ai blog)
2、OpenAI 宣布免费版 ChatGPT 提供轻量级记忆功能
6 月 4 日凌晨 5 点,OpenAI 联合创始人兼首席执行官 Sam Altamn 表示,从今天开始,将为免费版 ChatGPT 提供轻量级记忆功能。同时他自己也表示该功能是其最喜欢的 ChatGPT 功能,未来也将大幅改进这一功能。
据介绍,ChatGPT 的记忆功能能记住用户最近的聊天内容,从而用户不必再经常重复表述自己的内容,GPT 也能回答更加个性化、更加符合用户偏好的内容,以及记住用户的部分信息、数据等内容。
即日起,打开 ChatGPT 即可收到「全新改进型记忆功能上线」的相关推送消息。(@APPSO、@AIGC 开放社区)
3、2025 苹果设计大赛获奖应用 Speechify:文字转音频工具,围绕无障碍设计
Speechify 是一款将文字转换为音频的工具,支持 50 多种语言和数百种语音。款 App 提供了易于使用的 UI,Speechify 围绕无障碍设计,能够通过动态字体和旁白等功能,帮助患有读写困难、ADHD 的用户、低视力者或习惯用听力学习的人更轻松地获取信息。
大赛获奖链接:
developer.apple.com/cn/design/awards
相关链接:
speechify.com/ (@爱范儿)
4、2025 苹果设计大赛获奖国产应用 CapWords:AI 识图生成词汇贴纸
CapWords 是今年获奖名单中第一个国产应用,这是一款语言学习工具。用户可以拍下日常生活中遇到的物品,并通过 AI 识图的方式,生成相应的外语词汇,帮助用户记忆单词。
该应用支持通过拍照来学习事物的名称。只需拍摄一张照片,再配上一段有趣的动画,「CapWords」就能将咖啡杯、交通锥、纸杯蛋糕等日常物体转变成互动贴纸。
大赛获奖链接:
developer.apple.com/cn/design/awards (@APPSO、@爱范儿)
03 有态度的观点
1、AI 教父:AI 具备情感与意识,人类不再是地球上最重要的存在
被誉为「AI 教父」的 Geoffrey Hinton(杰弗里·辛顿)近日接受专访,其在访谈中坦言,AI 的快速发展已远超预期,不仅在推理能力上接近甚至超越人类,还正在逼近创造力、情感和意识的核心边界。
Hinton 表示,如今的 AI 在推理、记忆和决策方面错误率不断降低,像 GPT-4、Gemini 和 Claude 等模型所掌握的信息量已远超人类。
他提到,AI 能够轻松绕过语言陷阱、准确推理出正确答案,这类能力在考试、科研甚至医疗中正迅速替代人类。对于 AI 是否能拥有情感与意识,Hinton 认为并无本质区别。他指出,人类情绪本质是认知反应和生理信号的结合,AI 虽无法出汗或脸红,但在认知层面可表现出「愤怒」「焦虑」等与失败、学习相关的情绪。
当被问及 AI 失控时是否可以「拔掉插头」时,Hinton 警告称,真正强大的 AI 或许不会允许人类关掉它,未来可能通过说服、操控甚至伪装来误导人类,从而维护自身存在。
对此,Hinton 呼吁,社会应尽快建立起有效的 AI 治理机制,以防「当我们想关掉它时,已经为时已晚」。
最后,Hinton 重申,他最大的恐惧是:
人类正在创造出比自己更强的数字生命,一旦 AI 掌握足够能力,人类将不再是地球上最重要的存在。(@APPSO)

更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式...语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻