WebRTC QoS方法之NetEQ在流量卡下应用的局限

一、网络背景

移动流量卡网络，会呈现'平时极稳，切换极抖'的特征。稳定网络下几乎不丢包，并且报文间时间间隔稳定。但是在基站切换等场景下，网络会经历'突发高延迟 -> 连续大丢包 -> 积压包密集回补'的完整故障链条。

这种情况下，原生WebRTC会有几个问题：

1、丢包NACK失效无法恢复

丢包无法恢复主要原因是经历秒级大抖动后，音频缓冲区池子里面的水已经干了，来了一个音频包，无论与之前报文是否连续，马上直接播放。导致NACK重传失效。要么不会申请重传，要么即便重传，等报文到来，该音频已经播放完了。

2、ReorderOptimizer 抖动估算机制失效

原生 WebRTC 的 ReorderOptimizer 模块主要依赖移动平均结合直方图统计来动态计算目标延迟，这种基于统计分布的模型在面对"基站切换"产生的非平稳流量时，表现出严重的滞后性：

故障发生期（出现秒级大抖动）：直方图的长尾分布开始向右偏移。但由于统计算法需要积累足够的异常样本才能显著改变分布中心，导致估算值缓慢爬升。此时，实际缓冲区早已干涸，而算法尚未及时提升目标延迟以预留缓冲空间，直接导致播放卡顿、 NACK 失效。
故障恢复期（积压包密集回补）：当切换完成，积压数据包密集到达时，直方图左侧迅速堆积大量"早到"样本。然而，受限于平滑策略，算法无法立即识别这是"网络恢复信号"，导致估算值缓慢下降。这使得 NetEq 在本应激进加速（Accelerate）以消除延迟累积的关键窗口期，依然维持着虚高的目标延迟，人为拉长了端到端延迟，错失了对用户无感知的"消缓冲"良机。

所以这种场景下，基于历史统计的 ReorderOptimizer 不仅丧失了预测指导价值，其缓慢的收敛特性反而成为了阻碍快速恢复的负面因素，导致"该扩音时没扩够，该加速时没加"。

3、PacketArrivalHistory网络抖动算法缺陷分析

arrival_timestamp时间的计算并不是操作系统层面的系统时间，而是基于TickTimer的逻辑时间，TickTimer是在NetEqImpl::GetAudioInternal函数中进行计数。

默认NetEqImpl::GetAudioInternal函数每次输出10ms的音频数据，若某些系统一次需要20/60/120ms数据，就需要连续调用NetEqImpl::GetAudioInternal，导致arrival_timestamp计算的时间与实际偏差很大。

这样会导致：虚假抖动注入、统计模型污染，最终决策失控。

GetPacketArrivalDelayMs函数也对流量网模型不友好：

这个代码本质逻辑：当前包的绝对网络延迟 - 窗口内最快包的绝对网络延迟。也就是说，所有的抖动计算都是相对于"窗口内最好的那个时刻"而言的。

这样的计算，在"基站切换"引发的 "突发高延迟 -> 连续大丢包 -> 积压包密集回补" 这一完整故障链条中，基于"滑动窗口内最小值"的统计方法存在严重的统计丢失和特征掩盖问题。无法真实反映故障的剧烈程度，反而会将秒级大抖动平滑为普通波动。