WebRTC抖动缓冲详解

实时音视频走 UDP/RTP 时，包到达间隔不稳定（抖动 Jitter ）、乱序、丢包都常见。接收端若「来一个解一个」，播放会卡顿、破音、画面跳变。JitterBuffer（抖动缓冲） 在解码与渲染之前缓存、重排并按播放时钟输出，是弱网下仍能听清、看顺的关键一环。WebRTC 里音频侧核心是 NetEq ；视频侧是 PacketBuffer → FrameBuffer ，再配合 RtpVideoStreamReceiver、Timing （及新架构中的 DecodeScheduler 等），与 RTCP 、NACK/FEC/PLI 、音画同步 联动。

速览

本质：在 网络抖动容忍度 与 端到端延迟预算 之间做 trade-off。

Jitter ：连续 RTP 包到达间隔的变化；缓冲用于排序 + 等待 + 自适应深度。

音频：InsertPacket → GetAudio（常见 10ms/20ms 一帧，视编解码器）；抗丢包 FEC → NACK → PLC。

视频：PacketBuffer 组帧 → FrameBuffer 出队 → Timing::RenderTimeMs 决定何时解码。

时钟：音频播放时间（render time）为锚；NetEq 提供稳定输出节拍；视频跟随该锚。

text 复制代码

RTP/UDP → JitterBuffer（排序/缓冲/补偿）→ 解码 → 播放/渲染

1. 抖动与缓冲在解决什么

现象	原因（常见）	无缓冲时
Jitter	拥塞、路由变化、队列排队、链路带宽差	播放间隔忽快忽慢
乱序	多路径、重传	解码顺序错乱
丢包	无线/拥塞	静音、马赛克、冻结
迟到包	抖动过大	无限等 → 延迟爆炸；不等 → 频繁欠载

1.1 抖动直观理解

发送端按固定间隔发包，接收端到达间隔却起伏不定：

text 复制代码

发送（理想，每 20ms 一包）:
  |----20ms----|----20ms----|----20ms----|

接收（有抖动）:
  |--15ms--|------30ms------|--10ms--|--25ms--|
           ↑ 早到扎堆          ↑ 晚到空档

JitterBuffer 用「多等一会儿」换「按稳定节拍取数」------代价是增加端到端延迟。

1.2 延迟预算视角

产品往往给定 端到端延迟上限 （如通话 <150ms、互动直播 <400ms）。JitterBuffer 占用其中一块 playout 预算：

text 复制代码

端到端延迟 ≈ 采集/编码 + 网络传输 + JitterBuffer 排队 + 解码 + 渲染/播放
                              ↑
                    随抖动增大而加深，随网络平稳而收浅

调深缓冲	调浅缓冲
更能扛抖动、少卡顿	延迟更低、交互更跟手
延迟预算吃紧时可能超标	抖动尖峰时易欠载、PLC/丢帧增多

没有 universally 最优深度，只有对当前网络与业务延迟目标的折中。

1.3 JitterBuffer 要做的事

缓存一段时间内的 RTP 包；
按 序列号 / 时间戳 重排、（视频）组帧；
在播放时钟到达时再交给解码器；
超时未到的包：等待、丢弃，或补偿（音频 PLC、视频 NACK/冻结等）。

2. 通用工作流程

网络 RTP
JitterBuffer
解码器
播放/渲染
RTCP 反馈

阶段	行为
接收	读 RTP `sequence number`、`timestamp`；判乱序、丢包
缓存排序	插入 buffer 对应位置
播放控制	到点取包/帧；未到则等待；久等则丢或补
自适应	根据 RTCP/估计器调节目标缓冲深度

text 复制代码

网络接收 ← RTP 包 ← JitterBuffer ← 解码 ← 渲染
                      ↑
            排序 + 重组 + 时间控制 + 丢包填补（PLC/NACK/FEC）

2.1 到点未到时：等、丢、补

有
无
是
否
音频
视频
播放时钟到
缓冲内有数据?
正常解码输出
仍在等待窗口内?
继续缓冲略增延迟
媒体类型
PLC / CNG 等补偿
NACK 或丢帧 / 重复上一帧

参数（概念）	作用
初始缓冲（如 50ms）	起播预填，减少首帧欠载
最大缓冲（如 200ms）	上限，防止延迟无限涨
播放时钟	何时从 buffer 读下一包/帧
最大乱序窗口	防止异常 seq 占满内存

3. RTP 字段与缓冲类型

3.1 RTP 头里 JitterBuffer 关心什么

字段	用途
Sequence Number	判丢包、乱序；视频 NACK 列表
Timestamp	媒体采样时刻；排序、算播放时刻、音画映射
Marker (M)	视频常表示一帧最后一个 RTP 包
Payload Type	选解码器；RED 外层需再解析内层 PT
SSRC	区分同会话多路流

乱序示例：seq 100 → 102 → 101 时，buffer 先存 100、102，等 101 到齐或超时再按 ts 输出。

3.2 静态缓冲 vs 动态缓冲

类型	做法	优点	缺点
静态	固定缓存 N 个包或固定 80ms	实现简单	网络好浪费延迟；网络差易欠载
动态	根据抖动/丢包估计调节目标延迟	弱网稳、好网低延迟	实现复杂；需 RTCP/估计器

WebRTC 以动态为主 （NetEq 控制器、视频 jitterDelay / Timing）。商用 VoIP 早期常见固定 2～3 个包缓冲；现代实时通信普遍走向自适应。

4. 接收链总览

JitterBuffer 不是孤立模块，嵌在「收 RTP → 解码 → 输出」中间：
视频路径
音频路径
音频锚时钟
RtpStreamReceiver / ChannelReceive
AcmReceiver
NetEq

JitterBuffer + PLC/FEC
AudioMixer / 声卡 10ms
RtpVideoStreamReceiver
PacketBuffer 组包
FrameBuffer + Timing
VideoDecoder → 渲染
RTCP SR/RR

路径	JitterBuffer 实体	谁拉数据
音频	NetEq	混音/设备周期调用 `GetAudio`（约 10ms）
视频	FrameBuffer（前级 PacketBuffer）	解码线程 `NextFrame`

收包线程推 InsertPacket；播放/解码线程拉 GetAudio / NextFrame------推拉分离，避免解码阻塞收包。

5. 音频：NetEq

模块路径 （经典布局）：modules/audio_coding/neteq/
核心类 ：NetEq / NetEqImpl

本节信息密度较高，可先扫下图表与下表，再读文字。

Operation（概念）	听感 / 作用
Normal	正常解码
Expand	PLC，丢包合成 ~10ms
Accelerate	略加快，消化多余缓冲（降延迟）
PreemptiveExpand	略拉伸，多等包（防欠载）
CNG	舒适噪声，配合 DTX 静音段

5.1 数据路径

RTP Packet
NetEq::InsertPacket
PacketBuffer

按 timestamp 排序
NetEq::GetAudio
AudioDecoder

Opus/G711...
Expand

PLC
ComfortNoise
AudioFrame

通常 10ms PCM

API	作用
`InsertPacket(header, payload)`	入队；乱序插入、更新状态；可处理空包
`GetAudio(audio_frame)`	推进播放时钟，输出一帧 PCM（WebRTC 混音侧常按 10ms 拉取；Opus 等也可 20ms 帧长）
`RegisterPayloadType()`	PT → 解码器

AcmReceiver 在入 NetEq 前常处理 RED：外层 PT=RED 时解析内层真实 PT 再插入。

5.2 GetAudio 内部逻辑（概念）

每次 GetAudio()（播放侧约每 10ms 调一次）：
有
无
可恢复
否
是
否
GetAudio 调用
计算目标 timestamp
PacketBuffer

有该 ts 的包?
Normal: 解码输出
丢包/未到
缓冲内有 FEC

或迟到包?
Expand: PLC 合成
控制器评估缓冲深度
需要追延迟?
Accelerate 略加速
PreemptiveExpand 略拉伸
返回 AudioFrame

5.3 PLC、CNG、FEC 详解

技术	全称	工作位置	占带宽	延迟	作用
PLC	Packet Loss Concealment	接收端	否	不额外加	丢包后合成伪语音，避免爆音/死寂
CNG	Comfort Noise Generation	编+解	极低	无	静音段背景噪声；RFC 3389 / SID
FEC	Forward Error Correction	编+解	高	无（先发冗余）	用冗余恢复，减少触发 PLC

PLC 常见思路（Expand 实现偏谱域/预测类）：

方法	思路
波形复制	重复上一段波形（简单，易失真）
LPC	线性预测补样本
谱域合成	保留谱包络，适合宽带（Opus 场景）

CNG ：编码器在语音段估计噪声；静音发 SID 或靠 Opus DTX ；解码端 NetEq ComfortNoise 模块生成噪声。

FEC 形态：

形态	说明
Opus in-band FEC	编码器内建低码率副本，`useinbandfec=1`
RED	一个 RTP 载多段编码，先到的可恢复后丢的
ULPFEC / FlexFEC	RTP 层冗余；视频路径更常见，音频以 Opus in-band FEC 为主

text 复制代码

SDP 示例（Opus）:
  a=rtpmap:111 opus/48000/2
  a=fmtp:111 useinbandfec=1; usedtx=1

DTX + FEC：静默时 DTX 省带宽；有语音时 FEC 抗丢包------二者可同时启用。

5.4 内部组件

组件	职责
PacketBuffer	RTP 包排序、乱序插入、`GetNextPacket(ts)`
DecoderDatabase	`RegisterPayloadType` → `AudioDecoder`
Expand	PLC
DecisionLogic / 控制器	目标缓冲、Accelerate/Expand 决策
NackTracker（若启用）	生成 NACK 列表，由 ChannelReceive 发 RTCP NACK

NACK 与 NetEq ：收包路径上 InsertPacket 后可 GetNackList → 请求重传；重传包仍走 InsertPacket。顺序上 FEC/重传包优先于 PLC。

5.5 10ms 节拍示意

text 复制代码

时间轴 →
GetAudio:  |--10ms--|--10ms--|--10ms--|--10ms--|
           解码      PLC       解码      加速
PacketBuf: [p1][p2]  (缺 p3)   [p4]      [p5][p6]...

时钟角色 ：NetEq 维持 稳定 playout 节拍 ；对外的 音画同步锚 是 音频 render time（播放时间轴），而非 NetEq 类名本身。

6. 视频：PacketBuffer 与 FrameBuffer

模块路径 ：modules/video_coding/

视频 JitterBuffer 常分两层：
RTP 包流
PacketBuffer

seq 排序/组帧
FrameBuffer

完整 EncodedFrame
Timing

RenderTimeMs
VideoDecoder

层级	粒度	职责
PacketBuffer	RTP 包	排序、判帧边界（marker）、丢包检测、触发 NACK
FrameBuffer	编码帧	等完整帧、参考依赖、按渲染时间出队

架构演进 ：旧版 VCMJitterBuffer 已弱化；新路径多为 PacketBuffer + FrameBuffer + Timing ，部分分支还有 DecodeScheduler 参与「何时解码」。类名因版本而异，以检出源码为准。

6.1 一帧多包

text 复制代码

一帧 H.264/VP8 可能拆成多个 RTP:
  seq=10, M=0  ─┐
  seq=11, M=0   ├─ 同一 timestamp → 一帧
  seq=12, M=1  ─┘  marker=1 表示帧结束

PacketBuffer: 收齐 → InsertFrame → FrameBuffer

6.2 与音频的差异

维度	音频 NetEq	视频
缓冲粒度	~10ms RTP 包	整帧
输出节奏	固定 10ms `GetAudio`	`NextFrame` + RenderTime
丢包	PLC / FEC / NACK	NACK、FEC、丢帧
依赖	帧间弱耦合	I/P/B 参考链，丢参考帧影响大

6.3 端到端流程

解码线程 Timing FrameBuffer PacketBuffer RtpVideoStreamReceiver 网络解码线程 Timing FrameBuffer PacketBuffer RtpVideoStreamReceiver 网络 alt $未到播放时刻$ $已过晚$ $准时$ RTP InsertPacket 帧完整? InsertFrame NextFrame() RenderTimeMs(ts, now) 等待/缓冲丢帧降延迟返回 EncodedFrame Decode → 渲染

6.4 丢帧、NACK、FEC 与关键帧请求

NACK 不是万能 ：重传成功只代表 RTP 包到了，能否解码 还取决于参考链是否完整。
是
是
否
否
是
检测到 seq 空洞
RTCP NACK 请求重传
截止前到达?
参考链完整?

I/P/B
组帧并解码
PLI/FIR 请求关键帧
ULPFEC/FlexFEC

可恢复?
等待 I 帧 / 跳过至可解码点

手段	说明
NACK	补丢失的 RTP 包；RTT 大时窗口紧
ULPFEC / FlexFEC	发送冗余；视频更常用
PLI / FIR（RTCP PSFB）	参考链断（如 P 帧依赖丢失）时请求编码器发关键帧
丢帧	过久不到可解码帧则跳过，避免延迟滚雪球

P 帧依赖链断裂 ：即使 NACK 成功，也可能 无法解码 直至下一个 I 帧（或等价可独立解码帧）。
弱网/直播 ：工程上多为 NACK + PLI/FIR + 合理 GOP，而非单靠 NACK。
卡顿观感 ：花屏、冻结与 关键帧间隔、JB 深度 强相关。

6.5 Timing 与 jitterDelay

何时解码/渲染 由 Timing::RenderTimeMs() 计算，不是 FrameBuffer 直接拍板------FrameBuffer 负责「有哪些完整帧」；Timing 负责「这一帧是否到了播放时刻」。

RenderTimeMs(frame_timestamp, now_ms) 会结合：

RTP timestamp ↔ 墙钟映射（RTCP SR）；
jitterDelay ：Timing 内部估计 的抖动缓冲目标深度（网络抖动越大往往越大），不是 FrameBuffer 上的一个直接配置字段名；
当前积压与同步偏移（相对 音频 render time）。

判断	行为
帧过早	继续缓冲
准时	解码
过晚	丢帧，避免延迟滚雪球

7. 自适应与 RTCP

RTCP 把网络状态反馈给接收端估计器，驱动 目标 playout 延迟 调节：
接收 RTP
JitterBuffer
统计丢包/抖动/缓冲占用
发 RTCP RR
对端/带宽估计
收 RTCP SR/RR

或 Transport-wide CC
抖动/延迟估计

7.1 常用 RTCP / 统计量

来源	字段/指标	影响
RR	`fraction lost`	丢包严重 → 加深缓冲、启 FEC/NACK
RR	`interarrival jitter`	RFC 3550 抖动估计 → 调节缓冲
SR	RTP ts ↔ NTP 映射	音画同步、渲染时刻计算
inbound-rtp（浏览器）	`jitterBufferDelay`	实际排队延迟
inbound-rtp	`jitterBufferEmittedCount`	出队节奏是否平稳

网络状态	Buffer 策略（概括）
抖动 ↑	增大目标延迟
平稳	减小延迟
丢包 ↑	加深缓冲 + NACK/FEC；音频 PLC 触发增多
无法重传	靠 FEC / PLC / 丢帧

音频：Accelerate 消化积压；视频：丢帧或推迟解码更常见。

8. 音画同步

原则：音频播放时间（render time）为主时钟，视频跟随。
NetEq GetAudio

稳定 PCM 节拍
音频 render time

同步锚点
Timing::RenderTimeMs
视频解码与渲染
RTCP SR

RTP ts ↔ NTP

步骤	说明
1	NetEq 按缓冲策略稳定输出音频 PCM（常见 10ms 一拍）
2	系统维护音频 render time 作为同步锚
3	Timing 把视频 RTP ts 映射到该锚，算出 `RenderTimeMs`
4	视频在对应时刻解码/渲染；音频欠载时视频不宜独自猛追

唇音同步误差常见目标在 ±40ms 内不易察觉（视产品而定）。

9. 音频 vs 视频对照

特性	音频（NetEq）	视频（FrameBuffer）
缓冲粒度	RTP 包（~10ms）	完整视频帧
前级缓存	PacketBuffer（包级）	PacketBuffer（组帧）
解码触发	`GetAudio` 拉取	`NextFrame` 拉取
丢包处理	FEC → NACK → PLC	NACK → FEC → 丢帧
同步角色	Anchor（render time，经 NetEq 稳定输出）	Follower（Timing 跟音频锚）
时间同步	拉伸/加速/PLC	`Timing::RenderTimeMs`
延迟适配	Accelerate / PreemptiveExpand	Timing 内 jitterDelay 估计 / 丢帧
主观瑕疵	机器人声、爆音	马赛克、冻结、花屏

10. 丢包补偿手段选型

是
否
是
否
音频
视频
检测到丢包
NACK 重传?
包到且可解码?
恢复播放
FEC 可恢复?
媒体类型
NetEq PLC
PLI/FIR 请求关键帧
仍失败则丢帧

手段	延迟	带宽	适用
NACK	+RTT	低	RTT 小；视频还需参考链完整
FEC	无往返	高	视频 ULPFEC/FlexFEC 更常见；音频 Opus FEC
PLI/FIR	+RTT～GOP	触发 I 帧，带宽尖峰	视频参考链断、NACK 不够时
PLC	无	无	音频兜底
CNG/DTX	无	省带宽	静音段，非丢包恢复

11. 面试与排障

11.1 面试速答

问题	要点
JitterBuffer 做什么？	排序、缓冲、按播放时钟输出、配合补偿
为何常说 10ms？	设备/混音常 10ms 拉 `GetAudio`；Opus 等帧长可为 10/20ms
PLC vs FEC？	PLC 接收端合成；FEC 发送冗余
视频为何按帧？	多 RTP/帧 + 解码重；参考链
谁做同步主钟？	音频 render time；NetEq 负责稳定 playout
动态 JB 好处？	好网低延迟、差网更稳

11.2 现象 → 可能原因 → 排查

现象	可能原因	排查
端到端延迟大	缓冲目标过高、积压未 Accelerate	`jitterBufferDelay`、NetEq 统计
周期性卡顿	抖动尖峰、缓冲过浅	RTCP jitter、是否频繁 PLC
单通无声	全丢包、解码器未注册	payload type、packetsReceived
视频花屏/冻	NACK 失败、参考链断、缺 I 帧	NACK、PLI/FIR、GOP/关键帧间隔
唇音不同步	视频未跟音频锚	AV sync 偏移、SR 是否到达
延迟忽大忽小	估计器震荡	固定网络下看 target delay 曲线

11.3 浏览器调试（chrome://webrtc-internals）

统计项	含义
`jitter`	到达间隔变化（秒）
`packetsLost` / `packetsReceived`	丢包
`jitterBufferDelay`	包在 JB 中停留时间（秒·包，需结合 emitted 理解）
`totalProcessingDelay`	从到达到发送给解码/渲染的处理延迟

12. 速查卡

text 复制代码

┌──────────────────────────────────────────────────────────────┐
│ 本质: 抖动容忍度 ↔ 端到端延迟预算 的 trade-off                 │
├──────────────────────────────────────────────────────────────┤
│ 音频: InsertPacket → PacketBuffer → GetAudio(~10ms) → PCM     │
│       丢包: FEC/NACK → Expand(PLC)  静音: CNG/DTX           │
├──────────────────────────────────────────────────────────────┤
│ 视频: RTP → PacketBuffer → FrameBuffer → Timing::RenderTimeMs │
│       丢包: NACK/FEC；参考链断 → PLI/FIR；否则丢帧            │
├──────────────────────────────────────────────────────────────┤
│ 同步: 音频 render time = anchor；视频 Timing 跟随              │
│ 自适应: RTCP → jitterDelay 等估计 → 调目标缓冲深度             │
├──────────────────────────────────────────────────────────────┤
│ 禁止: 无缓冲直播；以为 NACK 必能恢复视频；视频不看音频钟      │
└──────────────────────────────────────────────────────────────┘

模块（经典路径）	路径
NetEq	`modules/audio_coding/neteq/`
视频组帧/缓冲	`modules/video_coding/`

落地注意

类名与目录随 WebRTC 版本 变化（VCMJitterBuffer vs FrameBuffer 等），以检出源码为准。
发送侧 Pacing、FEC 开关、关键帧间隔 会改变接收端 JB 表现。
NetEq 源码级 （ChannelReceive、Operation、RED）见仓库内 《WebRTC 接收端音频流畅低延迟播放：原理与源码对照（NetEQ／Opus）》。

一句话 ：JitterBuffer 在延迟预算内换平滑；NetEq 稳音频 playout，PacketBuffer + FrameBuffer + Timing 定视频渲染时刻，NACK/FEC/PLI 分层抗丢包，音频 render time 锚定 保唇音同步------弱网 QoE 的核心底座。

WebRTC抖动缓冲详解