WebRTC实现VoiceAgent智能体

今天给大家介绍使用RTCPilot实现基于WebRTC的voice agent。

RTCpilot是基于c++17开发的,跨平台,支持服务集群的WebRTC服务。

什么是voice agent?

一句话定义:实时语音对话AI大模型,跑在 WebRTC 低延迟实时音视频通道上,让用户直接在浏览器 / APP 里,像打电话一样和 AI 自然对话。

Voice Agent主要功能,Voice Agent==语音智能体,

主要功能和特点是:

  • 能听

  • 能想

  • 能说

  • 能实时、全双工、可打断地跟人聊天

也就是在它的回答过程中,你可以打断它的回答,提出新的问题。

它基于WebRTC体系,整个流程:

语音采集 → WebRTC 传输 → 云端实时 ASR → LLM 流式推理 → 流式 TTS → WebRTC 回传 → 播放

RTC Voice Agent在国内云厂商已经非常普及,声网,火山引擎,科大讯飞。他们宣传:

实时语音交互基础设施 + 大模型语音化引擎,

把任意文本大模型快速变成可实时对话的 Voice Agent。

我们使用基于开源的RTC pilot来实现一个完整的voice agent,完全开源实现,可以本地部署,不依赖任何云平台。

在视频连接中,有演示效果:

RTC实现VoiceAgent

RTC Pilot的Voice Agent实现,原来的RTC Pilot是一个WebRTC音视频会议SFU服务,支持跨平台,支持集群部署,本质是一个支持网络高并发的SFU。

但是支持voice agent后,加入音频编解码,加入ASR,文字转语音服务,加入TTS语音转文字服务,一下子系统变成CPU密集型的服务,也就是变成WebRTC MCU服务。

其实ASR,TTS和编解码服务,应该放在单独的MCU服务中,这么实现主要是广大初级网友不知道怎么部署,被迫无奈的实现。

当前的RTCPilot支持voice agent的代码,独立放在voiceagent分支,我还在犹豫是否合入主线,或者如何合入主线。

因为涉及编解码,voiceagent还未支持win11平台,后续也需要改进。

RTCPilot服务端地址:

复制代码
https://github.com/runner365/RTCPilotbranch:voiceagent

RTCPilot客户端地址:

复制代码
https://github.com/runner365/webrtc_js_client

如果你有好的建议,可以在评论区告诉我。

如果觉得对你有帮助,请一键三连,谢谢大家。

相关推荐
换个昵称都难7 小时前
webrtc PeerConnection 模块介绍
音视频·webrtc
换个昵称都难14 小时前
webrtc neteq Nack_tracker重发(ARQ 的nack技术) 介绍
webrtc
简简单单lym15 小时前
WebRTC进阶--red+ulpfec深度解析3-FEC--冗余控制机制深度解析
开发语言·webrtc
hz5678918 小时前
实时音视频SDK发展趋势:TRTC、WebRTC与云端音视频服务融合路径
架构·音视频·webrtc·实时音视频
换个昵称都难19 小时前
webrtc neteq介绍
音视频·webrtc
喵了几个咪19 小时前
实时游戏网络协议深度对比:KCP vs WebRTC vs WebSocket
网络协议·游戏·webrtc
喵个咪1 天前
实时游戏网络协议深度对比:KCP vs WebRTC vs WebSocket
后端·websocket·webrtc
weixin_408318042 天前
直播延迟优化实战:从1秒到200ms,WebRTC在医疗直播中的极致优化
服务器·网络·webrtc
烟雨江南7852 天前
水泥回转窑烧成车间大功率冷却风机强粉尘低频共振噪底:基于“灵声智库”端侧自适应谱减降噪与信创工控芯片离线 ASR 安全控制系统
人工智能·安全·webrtc·语音识别·ai质检
烟雨江南7852 天前
特高压输电线路带电作业直升机吊篮与强电磁感应放电:基于“灵声智库”空间自适应滤波与声纹授权的离线语音控制指令方案
人工智能·ffmpeg·webrtc·语音识别·ai质检