RTC实现VoiceAgent(二)

大家好,今天给大家介绍使用RTC pilot实现基于WebRTC的voice agent。

RTC pilot是基于c++17开发的,跨平台,支持服务集群的WebRTC服务。

上一期,把VoiceAgent功能集成到RTC Pilot SFU中。

Voice Agent主要功能,Voice Agent其实就等于 语音智能体,主要功能和特点是:能听,能想,能说,能实时、全双工、可打断地跟人聊天。也就是在它的回答过程中,你可以打断它的回答,提出新的问题。

VoiceAgent集成到SFU,也就是把ASR,TTS,转码等CPU密集型代码合入到SFU中。小白部署比较方便。

但把SFU从网络密集型变成CPU密集型。这种模式其实不方便做广泛的生产部署。

本期我们介绍独立的VoiceAgent服务。

talk is easy, show me the code.

复制代码
RTCPilot SFU服务端地址:https://github.com/runner365/RTCPilot
VoiceAgent地址:https://github.com/runner365/VoiceAgent
RTCPilot客户端地址:https://github.com/runner365/webrtc_js_client

这里是SFU开源地址,Voice Agent开源地址,和客户端开源地址。

VoiceAgent单独成为一个服务。

VoiceAgent项目是基于RTCPilot(WebRTC SFU)实现的实时语音对话 AI 智能体。

服务端主要有两个部分:

一,RTCPilot SFU:接入WebRTC服务

二,VoiceAgent:提供VAD,ASR,TTS等服务

下面我演示一下如何部署,和运行效果。见视频号内容后面部分(05:10分后)

RTC实现VoiceAgent(二)

当前VoiceAgent服务提供的VAD,ASR,TTS都是可以本地部署,不依赖外部云厂商。

  • VAD采用ten VAD
  • ASR采用Fun ASR
  • TTS采用sherpa-onnx,可以本地运行的c/c++开源。这个TTS开源模型比较小,可以不需要GPU,负载相对比较小。

上面的开源可以采用仅仅CPU就可以,服务可以运行在无GPU的服务器上。

后面也会增加新的ASR和TTS类型,也可以接入云厂商的ASR和TTS服务。

相关推荐
山顶夕景15 小时前
【Agent】Claude code架构和源码粗读分析
大模型·llm·agent·线程·通信协议
ZEGO即构16 小时前
AI教育重构教与学:RTC+AI如何赋能全学段教学场景?
人工智能·实时音视频·ai教育
metaRTC17 小时前
metaRTC8 成功适配 RTOS:开启 MCU/嵌入式实时音视频新时代
单片机·嵌入式硬件·webrtc·实时音视频·rtos
龙侠九重天18 小时前
OpenClaw 与 Hermes 有何异同?——从系统架构到用户体验的全面对比
人工智能·ai·系统架构·大模型·llm·openclaw·hermes
山林竹笋18 小时前
人工智能领域开源TOP20项目(2026.04.20-2026.04.26)
人工智能·大模型·ai编程·技术趋势
是Yu欸19 小时前
SGLang 推理服务基础性能评测
android·数据库·大模型·github·昇腾·sglang·qwen3
guslegend20 小时前
第17节:模型忽略关键实体怎么办?注意力权重分配机制引导生成拒绝重点
人工智能·大模型·rag
Thanks_ks20 小时前
从辅助编码到架构重塑:基于 LLM 的智能开发工作流落地实战
自动化测试·大模型·llm·研发效能·模型微调·rag·提示词工程
Luca_kill1 天前
深度拆解 DeepSeek V4:混合注意力 + 流形约束超连接如何重塑万亿 MoE 架构
大模型·moe·deepseek·ai架构·v4·混合注意力·流形约束
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2026-04-27)
ai·大模型·llm·github