直播系统就是把活动现场的音频或视频信号经数字压缩后,传送到直播多媒体服务器(CDN)上,在互联网上供广大网友或授权特定人群收听或收看。而随着技术的日益更新,人民对于直播的互动性,实时性要求更高了,传统的直播少则几十秒,多则几分钟的时延很难满足现在的很多直播场景。今天我们就从播放器端来聊一下anyRTC是如何在端侧做到更低时延的播放效果的。
一.播放器工作原理
播放器的模块大致分为:解封装,数据包队列,解码,帧队列,渲染等几大模块,然后组成一套播放逻辑,基本上所有的播放器的功能实现也都大同小异。
1.解封装即Demuxer,我们通常使用FFMpeg来做。
2.数据包队列,这里是延时优化的重点区域,因为此队列中可能会缓存大量的数据,我们可以通过音视频包的PTS或者Duration来计算出队列中的总时长,从而进行播放器的时延优化。
3.解码,通常在端侧使用软件或硬件解码,二者的效率差异更多的是在Cpu的消耗,主要影响的是机器的发热,播放的流畅性。
4.帧队列,是解码之后的图像或音频数据,等待渲染。
5.渲染,是将图像或音频数据丢入系统,由系统进行对应的输出。
二.如何降低时延
在播放端,对于延时影响最大的是数据包队列。只要网络有抖动或者卡顿,播放器端的累积延迟会逐步加大。
很多的技术文章说直播优化延迟的都是丢帧策略,最直接的:清缓存数据队列,虽然这个方法可以短时间内降低延迟,但是强行跳帧,直播内容强行被跳过,严重影响体验;如果丢Gop里面的B帧,非参考帧或者序列里面最后几个P帧等;或者丢部分音频数据包,视频帧时间戳同步音频来达到数据的加速消耗等。但是实际效果均对用户体验产生一定影响。
所以一个好的追帧策略,对于低延时播放非常的重要,对于播放器来说,越多的缓存就意味着更低的卡顿率,如果缓存一直保持的低位,卡顿率则会明显提高。如何平衡低时延和卡顿率之间的关系,是我们需要重点考量的。以下是我们提出的是一个追帧简易模型,以一个参数进行举例:
1.当缓冲区时长大于5s时,进行1.1倍加速。
2.当缓冲区时长大于2s时,进行1.05倍加速。
3.当缓冲区时长小于等于1s时,正常速度播放。
4.对卡顿进行统计,如果一定时间内,比如3分钟内,卡顿了5次,进行线路切换。
三.总结
经过anyRTC大量的测试和线上真实环境运行,可以验证基于追帧模型的播放器可以在卡顿率和低时延上找到一个相对平衡点,有效的提升了用户的体验。