ai数字人音频停顿处理,删除无用音频段

您当前的算法中,当静音段被缩短时,生成的静音样本数量是通过比例缩放计算出来的。但这个方法可能会导致一些音频失真,从而产生"沙沙"的噪音。这是因为在处理静音段时,使用了简单的零填充方式,导致音频数据出现突变,从而产生不自然的声音。

为了改进这个算法,可以采用以下思路:

平滑处理:在静音段过渡到有声音的段落时,使用平滑过渡的方式来避免突变,减少噪音。

减少零填充:在静音段缩短时,可以使用更接近原始音频特性的方式来填充缩短后的静音部分,而不是简单地使用零填充。

public static byte\[\] ScaleSilence(byte\[\] inputFile, float silenceThreshold = 0.01f, int silenceDurationMs = 200, int targetSilenceDurationMs = 100)

{

using (var reader = new MyAudioFileReader(inputFile))

{

var samples = new List();

int sampleRate = reader.WaveFormat.SampleRate;

int channels = reader.WaveFormat.Channels;

int silenceSampleCountThreshold = (int)(sampleRate * channels * (silenceDurationMs / 1000.0));

float\[\] buffer = new floatsampleRate \* channels;

int samplesRead;

int silentSampleCount = 0;

List silentSamples = new List();

复制代码
    while ((samplesRead = reader.Read(buffer, 0, buffer.Length)) > 0)
    {
        for (int i = 0; i < samplesRead; i++)
        {
            if (Math.Abs(buffer[i]) <= silenceThreshold)
            {
                silentSampleCount++;
                silentSamples.Add(buffer[i]);
            }
            else
            {
                if (silentSampleCount >= silenceSampleCountThreshold)
                {
                    // 计算缩放比例
                    double scale = (double)targetSilenceDurationMs / (silenceDurationMs * (silentSampleCount / (double)silenceSampleCountThreshold));
                    int samplesToKeep = (int)(silentSampleCount * scale);

                    // 使用渐变过渡来处理缩短后的静音部分
                    for (int j = 0; j < samplesToKeep; j++)
                    {
                        float transitionSample = silentSamples[(int)((j / (float)samplesToKeep) * silentSampleCount)];
                        samples.Add(transitionSample);
                    }
                }
                else
                {
                    // 如果静音部分不足以达到阈值,则不做缩短处理,直接添加原始静音样本
                    samples.AddRange(silentSamples);
                }

                silentSampleCount = 0;
                silentSamples.Clear();
                samples.Add(buffer[i]);
            }
        }
    }

    // 保存处理后的音频
    return SaveToBuferr(samples.ToArray(), reader.WaveFormat);
}

}

改进要点:

平滑处理:改进后的代码在静音段的处理上引入了渐变过渡,而不是直接使用零填充。通过逐步调整静音样本的值,可以平滑地过渡到有声音的部分,避免突变带来的噪音。

静音缩短比例:在缩短静音段时,保留了一部分原始的静音样本,通过对样本进行插值计算(逐渐增加或减少静音样本的强度),避免了沙沙噪音的出现。

以上方法能够减少音频失真并有效移除静音部分,同时避免沙沙的噪音。

相关推荐
hz567894 小时前
公安局远程办案用什么音视频系统?安全取证与多方协同方案
安全·架构·云计算·音视频·实时音视频·信息与通信
Championship.23.244 小时前
Linux 3.0 音频机制深度解析:ALSA基础架构与传统音频驱动模型
linux·运维·音视频·alsa
VOOHU-沃虎5 小时前
PoE+音频一体化接口设计:从电源变压器到XLR卡侬座的完整链路
音视频
“码”力全开6 小时前
解密企业级智能视频中台:基于 Docker 与边缘计算的 GB28181/RTSP 异构架构设计(支持源码交付)
docker·音视频·边缘计算
潜创微科技7 小时前
QCW5007+QCW5004 | HDMI 1.3 无线投屏芯片方案空旷 150 米支持穿墙传输
音视频
MemoriKu7 小时前
Flutter 相册 APP 视频模态稳定化实战:从视频抽帧、Embedding 元数据到 Android 真机启动修复
android·开发语言·前端·flutter·架构·音视频·embedding
EasyDSS7 小时前
视频直播点播/高清点播/音视频点播/云点播/云直播EasyDSS一站式音视频平台助力智慧校园智能化建设
音视频
johnny2338 小时前
视频创作工具:OpenCut、HyperFrames、social-auto-upload、OpenStoryline、ArcReel
音视频
换个昵称都难8 小时前
WebRTC 视频RTP 优化模块
音视频·webrtc
EasyGBS8 小时前
国标GB28181成安防刚需,国标GB28181视频平台EasyGBS如何成为视频上云最优解?
音视频