前言
[4 AGC的GainTable](#4 AGC的GainTable)
[5 对初步的Gain进行调整](#5 对初步的Gain进行调整)
[6 Gain effect 回乘](#6 Gain effect 回乘)
前言
最近整理了一下webrtc agc的一些东西,我网上也讨论过一些,但总感觉还是欠点意思。
一、目的
我也可以直接给出一个流程图,很大的这种,比如

这个其实没啥用,因为我估计你基本看不懂,

我这个文件尽可能的解释的很简单,用一句(一句B装太大,毕竟是人谷歌东西,还是几句)把这个事情说清楚
二、AGC的核心问题
1.AGC的目的
AGC其实是调整增益的,使得大信号不至于过饱和,小信号得到放大,当然只放大有用的speech信号,噪声信号不能放大,这就要求agc能简单区分语音和噪声,另外还得保证连续不能引起失真等问题。
webrtc的AGC其实是一个很"保守"脾气的AGC,它总是尽可能小心的放大信号,对快速变化(变大)的问题保持谨慎。
有两个参数我理解是一级参数,最有效的参数

target gain,你期望信号最终被拉到多少数字域dB,当然最后是取负号
compressionGain,最大能变化的gain,比如你的信号很小,期望又很大,那么会限制你拉太多
2.AGC的流程
这里面我就不用网上的什么流程图了,太复杂,我这很简单:

说白了就这么简单,计算包络,然后查表得到合适的gain,调整gain,再把gain回乘回去就完了
3.AGC的核心
它的核心其实就是 快包络,慢包络
快包络是快速随着wav的波形进行变化,慢包络就非常慢了,总是缓缓变化,用这个联络,我们可以干很多事情,能知道语音的近似vad短,还能限制突发的声音带来的gain抖动。

快包络:
峰值保持+快速释放
慢包络:
上升
,下降
只"慢慢靠近 env"+不被短峰值拉上去
我们拿个例子来看:

第二张图中红色是漫包络,看起来太它的抖动很慢,蓝色是快包络,基本是wav波形的外廓,第三张是gain,它是
快包络,慢包络取最大,然后再取反,就是如下含义
1、两个包络取最大值
2、包络大的,给的Gain小,包络小的给的Gain大
这两句话是不是很符合你的认识,显然你对信号进行提Gain,当然是目前大,那么给小Gain,目前信号小,给大Gain
4 AGC的GainTable
GainTable就是预先写好的一组数,然后每个要加的Gain过来查下表就完了

如果画出来是这样:

显然你从这个图形来看就是,gaintable对大信号的放大是很保守的,小信号会被快速的放大,但是大信号到一定程度以上的都按固定比率放大了
5 对初步的Gain进行调整
这里面就是对Gain进行
a、非语音段,我们进行适当的压缩(显然,你不想noise或者静音段也放大同比率)
b、对Gain进行limit的,不能过大限制
c、对Gain变大小心处理(说过AGC对大Gain很谨慎),同帧内的10个 只能水平或者下降变化,不同帧之间的才允许上扬

还拿我刚才那个文件,处理之后变成

6 Gain effect 回乘
分第一帧和后续帧处理
第一帧 先用"试探增益",看看会不会溢出
会 → 直接 clip
不会 → 再用正式 gain
这是 "软启动(soft-start)"。
后续:本帧 gain 要从 gains[k] 平滑过渡到 gains[k+1]

7AGC的vad处理

处理原理
高通后的子带能量 → dB → 短期/长期统计 → Z-score → 平滑后的对数似然比
logratio 计算 decay需要
总结
1、快包络慢包络是核心,计算gain,都需要快包络慢包络信息,快包络还用于non speech段的gain的拉低
2、AGC对信号的调整较为保守,能量大的帧给小Gain,且Gain不会突然变大,对突然过来的的大Gain做各种保护保守处理
3、考虑了帧之间的缓慢变化,16khz事 1ms 内容处理,这种颗粒度让帧之间平滑过渡
4、vad功能相对弱一些,在强噪声背景下,噪声估计vad功能可能会退化