WebRTC（十六）：NetEQ

什么是NetEQ？

在实时音视频通信系统中，网络延迟、抖动（Jitter）和丢包是不可避免的问题。如果直接按照接收到的顺序播放音频包，往往会出现卡顿、断音、音频错位 等现象。因此需要一个 Jitter Buffer（抖动缓冲器） 来平滑网络波动。

在 WebRTC 中，音频接收端使用 NetEQ 作为核心组件来解决这一问题。

NetEQ 是一个 自适应音频抖动缓冲系统，主要功能包括：

网络抖动缓冲
丢包补偿（Packet Loss Concealment）
时间伸缩（Time Stretch）
音频平滑播放
延迟自适应控制

NetEQ 是WebRTC音频模块中最关键的实时处理模块之一。

其核心目标是：

在保证低延迟的前提下，尽可能保持音频连续、自然播放。

NetEQ系统架构

NetEQ 在 WebRTC 中属于 Audio Coding Module（ACM） 的一部分，其整体处理流程如下：

复制代码

RTP Packet
   │
   ▼
Packet Buffer
   │
   ▼
Delay Manager
   │
   ▼
Decision Logic
   │
   ├── Normal Decode
   ├── Expand (丢包补偿)
   ├── Accelerate (加速播放)
   ├── Preemptive Expand (减速)
   │
   ▼
Audio Output

NetEQ 的核心模块包括：

模块	功能
PacketBuffer	RTP包缓存
DelayManager	延迟估计
DecisionLogic	播放策略决策
Decoder	音频解码
PLC	丢包补偿
TimeStretch	时间伸缩

这些模块共同实现稳定的音频播放。

NetEQ 核心原理

1. 网络抖动缓冲（Jitter Buffer）

网络中 RTP 包的到达时间往往是不均匀的：

复制代码

发送时间
20ms 20ms 20ms 20ms

接收时间
20ms 5ms 60ms 10ms

如果直接播放：

复制代码

播放: 正常 → 卡顿 → 突然快

NetEQ 通过 缓冲 RTP 包 来解决这个问题：

复制代码

网络输入
   ↓
Jitter Buffer
   ↓
稳定输出

关键问题：

缓冲太小 → 容易断音
缓冲太大 → 延迟增加

因此 NetEQ 采用 动态延迟控制算法。

2. 自适应延迟控制（Delay Manager）

NetEQ 通过 DelayManager 动态计算最佳缓冲长度。

核心思想：

复制代码

TargetDelay = 网络抖动统计结果

主要统计：

包间隔变化
到达时间抖动
丢包情况

通过滑动窗口统计 jitter：

复制代码

Jitter = |arrival_time - expected_time|

最终决定：

复制代码

Target Buffer Size

3. 播放策略决策（Decision Logic）

NetEQ 每 10ms 进行一次决策。

核心函数：

复制代码

DecisionLogic::GetDecision()

可能的决策包括：

决策	说明
Normal	正常解码
Expand	丢包补偿
Accelerate	加速播放
PreemptiveExpand	减速播放
Merge	平滑拼接

4. 丢包补偿（PLC）

当 RTP 包丢失时，NetEQ 会使用 Expand 算法 生成伪音频。

基本方法：

使用上一帧音频
进行周期预测
生成相似波形

例如：

复制代码

A B C D [丢失]

生成：

A B C D D'

这样听起来不会出现明显断音。

5. 时间伸缩（Time Stretch）

当网络延迟变化时，需要动态调整播放速度。

NetEQ 使用两种算法：

1）Accelerate（加速）

当缓冲过大：

复制代码

Audio A B C D

压缩为

A B C

减少延迟。

2）Preemptive Expand（减速）

当缓冲过小：

复制代码

A B C

变为

A B B C

增加播放时间。

6. Merge（音频拼接）

当丢包恢复后，需要平滑拼接：

复制代码

Expand → 正常解码

NetEQ 使用交叉淡化：

复制代码

crossfade

避免音频突变。

NetEQ 源码结构

NetEQ 位于 WebRTC 目录：

复制代码

modules/audio_coding/neteq/

主要文件：

文件	功能
neteq_impl.cc	NetEQ核心实现
decision_logic.cc	决策算法
delay_manager.cc	延迟管理
packet_buffer.cc	RTP缓存
expand.cc	丢包补偿
accelerate.cc	时间压缩
preemptive_expand.cc	时间扩展

1. NetEqImpl

核心类：

复制代码

class NetEqImpl

主要接口：

复制代码

InsertPacket()
GetAudio()

流程：

复制代码

InsertPacket()
    ↓
PacketBuffer

GetAudio()
    ↓
DecisionLogic
    ↓
Decode / Expand
    ↓
Audio Output

2. PacketBuffer

作用：

按序存储 RTP 包
处理乱序

关键结构：

复制代码

std::map<uint16_t, Packet>

支持：

sequence reorder
packet lookup

3. DecisionLogic

核心函数：

复制代码

Operation DecisionLogic::GetDecision()

输入：

复制代码

buffer_level
packet_loss
target_delay

输出：

复制代码

Normal
Expand
Accelerate

这是 NetEQ 的核心调度算法。

4. Expand（PLC）

实现文件：

复制代码

expand.cc

主要步骤：

分析上一帧音频
估计周期
生成预测波形

生成：

复制代码

synthetic speech

5. Accelerate

文件：

复制代码

accelerate.cc

算法：

复制代码

Waveform similarity overlap-add

步骤：

找到相似波形
删除重复部分
交叉混合

实现时间压缩。

NetEQ 的关键特性

1. 低延迟

NetEQ 设计目标：

复制代码

音频延迟 < 60ms

相比传统 jitter buffer：

类型	延迟
固定 buffer	100~200ms
NetEQ	40~80ms

2. 高鲁棒性

支持：

抖动
丢包
网络波动

在 10% 丢包率 下仍可正常通话。

3. 动态自适应

NetEQ 能根据网络情况自动调整：

buffer size
播放速度
PLC 强度

无需手动配置。

总结

NetEQ 是 WebRTC 音频系统中最核心的模块之一，它通过 自适应抖动缓冲、丢包补偿和时间伸缩技术，解决了实时音频通信中的网络问题。

其核心技术包括：

Jitter Buffer
Delay Manager
Decision Logic
Packet Loss Concealment
Time Stretch

NetEQ 的设计目标是在 低延迟环境下提供连续、自然的音频播放。