起猛了,DeepSeek 开口说话了。
而且是超低延迟实时秒回 ,还可以随时打断的那种...
在地铁、地下车库等网络信号不佳的环境下,普通语音互动应用往往卡顿或断连。
声网之所以能解决这个问题,是因为声网的软件定义实时网 SD-RTN 在全球建设了 200 多个数据中心,建立连接时选址也都是选在离终端用户最近的地方。
再结合独家智能路由 + 抗弱网算法,可以做到各种复杂网络环境下的跨区域丝滑互动,在面临 80% 丢包的情况下人与 Agent 也能稳定交流,即使断网 3-5s 依旧可以流畅对话。
最后,该引擎不局限于特定大模型,能实现 DeepSeek、ChatGPT 等全模型适配,同时其音视频 SDK 支持 30000 + 终端机型,彻底解决多设备兼容性的后顾之忧。
15 分钟任何应用加装 AI 语音交互
对于开发者而言,声网对话式 AI 引擎最大的魅力在于其极简的开发接入流程和强大的灵活性:
极简接入:
通过声网 Console 后台,开发者可以自行开通服务、在 Playground 中调参测试并生成代码,仅需 2 行核心代码,15 分钟即可完成从零到部署一个基于大模型的对话式 AI Agent 的全过程。
这一" 傻瓜式" 接入方式极大降低了技术门槛,让更多开发者能够快速进入 AI 语音交互领域。
灵活切换:
开发者可以根据应用场景需求,自由选择和切换底层大模型,而无需改变前端交互逻辑。支持全球几乎所有大模型厂商,只要和 OpenAI 接口协议兼容的模型厂商,自 3 月 6 日起,全部原生支持。
同时也支持全球主流语音合成供应商任意切换,支持开发者通过语音合成供应商定制的自定义音色接入。
比如在应用中不同的功能接入不同的模型,都只需简单配置即可完成切换,真正实现一次开发,全模型适配。
广泛兼容:
一方面是支持第三方云端大模型服务、企业私有化模型及本地化部署的开源模型无缝接入。
另一方面则是对硬件的兼容。现实场景中不同的设备可能对于语音处理效果产生影响,性能相对差一些的设备可能会产生更高的延时,需要音视频 SDK 做到海量设备的兼容性,提供统一的低延时传输。声网的 RTC SDK 支持 30 + 平台开发框架,30000 + 终端机型适配,即使是中低端机型也适用。
语音交互即服务模式诞生
声网对话式 AI 引擎不仅为开发者提供了一个优质选择,更意味着一种新模式的诞生:语音交互即服务。
让 RTC(实时音视频) 技术与大模型技术解耦,每个部分都可以交给专业的团队去做,大模型厂商无需再花时间精力自建语音交互体系。
在这个趋势之中,声网通过统一 API 接口广泛兼容模型,站稳了 "AI 语音交互中间件" 这个的新生态位。
作为生成式 AI 行业一种全新的基础设施供应商,声网首席运营官刘斌 也在去年底参加了量子位举办的 MEET2025 智能未来大会。
在演讲中,刘斌曾强调:
任何涉及大模型多模态实时交互的应用,无论是语音还是视频,只要存在多模态交互,这类 Agent 应用的落地都离不开 RTC 技术的支持。
几个月后,声网对话式 AI 引擎正在 "让所有 AI 都能开口说话",把 RTC 技术落地到各类 AI 应用,进一步推进整个生成式 AI 行业变革。
--- 完 ---