RTC会议实时翻译系统

runner365.git2026-04-07 12:54

大家好，这次我们将使用RTC pilot的视频会议解决方案，做一个视频会议实时翻译系统。

RTC Pilot是一个基于C++17开发的WebRTC SFU开源，支持跨平台，支持windows，linux，macos，二次开发效率高；并且是开源中唯一全面支持WebRTC级联的开源服务。

先给大家演示一下，视频会议中英语翻译的效果。

RTC会议实时翻译系统

详细内容观看：音视频小话视频号

RTC pilot提供完整SFU集群的方案，在这个集群方案的支持下，我们很容易架构出一个实时翻译系统。

架构图如上，共有几个角色：

1.Pilot center：会议系统调度中心，接收多个SFU的注册，转发房间和用户信息，转发RTP流信息

2.RTC Pilot SFU: 这是我们的RTC Pilot开源SFU，用于接入客户端，接入客户信令并转发媒体数据，前几期有详细的配置和使用讲解；

3.客户端A，是webrtc客户端。

4.RTC Pilot MCU：这个是新的RTC pilot服务，做后台媒体数据的特殊处理：这里主要做音频转文字，并且英文转中文的操作；

WebRTC的MCU业务比较复杂，准确来说这是一个标准的后台服务，一般不直接接入用户，它是一个CPU密集型的服务，而不是网络密集型的服务。

MCU主要有几个功能：

1.传输业务：转发，转封装，支持: WebRTC, RTMP, SRT等。支持丰富的网络接入，和丰富的网络输出；

2.音视频处理：输入MCU的系统的音视频流，支持各种处理：音视频转码，视频合成，音频重采样，音频合成等。

3.与AI结合的各种处理：ASR，语音转文字，TTS，文字转语音，支持接入大模型，支持接入虚拟人等

基于MCU服务的特点，因为涉及的模块较多，属于高度业务化，高度定制化的服务，并不像SFU那样标准化的更多。

现在有名的开源是OWT server，是比较典型的例子。

RTC Pilot MCU是否开源，后面还在思考中。

关注音视频小话，带来更多音视频技术。