用一行 FFmpeg 命令,让噪音俯首,让语音转录更准确一点

我平时做语音转录,最头疼的就是 噪声。 录音里往往有风声、电流声、键盘声、回声......这些杂音一多,转录模型就容易漏听,甚至整句识别不出。

网上的降噪方法很多,大多是基于"大模型"的 AI 降噪,比如 RNNoise、Deepfilture2 、resemble-enhance 等,

效果确实好,但问题也不小:

  • 模型动辄几百 MB甚至几个G;
  • 下载慢,还容易因为国内网络环境中断;
  • 处理慢,不适合批量。
  • 最重要的是不太适合打包分发

对我来说,目标很简单: 我只是想在转录前,把音频稍微清理干净一点 ,减少漏识别的句子。 降噪不必完美,只要足够简单、足够轻量就行。

最初的尝试:afftdn

一开始我用的是 FFmpeg 自带的频域降噪滤镜:

bash 复制代码
ffmpeg -i 1.wav -af afftdn 1_denoised.wav

命令确实够短,但------几乎没效果。 轻微的底噪、风声、呼吸声几乎没变。

我尝试调参数:

bash 复制代码
-afftdn=nf=-30

强度确实大了点,但人声也被吃掉了一部分,声音发闷、带水声。 我想,也许需要几种滤镜配合使用。

改进方案:四个滤镜组合

最后,我确定了下面这一行命令:

bash 复制代码
ffmpeg -i 1.wav -af "highpass=f=80,afftdn=nf=-25,loudnorm,volume=2.0" 1_clean.wav

降噪效果立刻提升不少,识别率也明显更稳定。

以下均是使用 whisper 的最小模型 tiny 测试

  • 这是未进行降噪处理的语音转录效果,很明显前面漏了好几句
  • 这是使用该降噪参数后的语音转录效果

提升还是比较明显的,不仅不再漏句,断句也更合理了

来看一下它的组成部分👇

1️⃣ highpass=f=80

高通滤波器,去掉 80Hz 以下的低频杂音。 这部分通常是环境嗡嗡声或麦克风底噪,人声几乎不受影响。 加上这一条,整体立刻"干净"了不少。

2️⃣ afftdn=nf=-25

核心降噪滤镜。 nf 表示噪声底阈值(noise floor),默认是 -20。 我将它调到 -25,略强一点但不会太糊。 这个参数相当于一个"力度控制",越低降噪越强。

3️⃣ loudnorm

响度归一化。 降噪后声音有时会忽大忽小,loudnorm 能让整体听起来更自然、更平衡。

4️⃣ volume=2.0

最后把音量放大两倍,补回降噪带来的能量损失。 如果音量太高或爆音,可以调为 1.5。某些场景下,1.52.0效果更好

为什么不用 AI 降噪?

有人可能会问: FFmpeg 不是还有基于神经网络的 arnndn 吗?效果更好啊。

是的,它确实更强,但问题在于------麻烦。 很多 FFmpeg 版本根本没编译这个滤镜,要用它就得:

  1. 自己下载 .rnnn 模型;
  2. 配置路径;
  3. 兼容不同系统;
  4. 分享脚本时还得附带模型文件。

对我这种希望一条命令就能跑、还要发给其他小白用户的人来说,这不现实

相比之下,highpass + afftdn 是纯内置方案,不依赖外部模型,速度快、兼容性好。

实战体验

我把这条命令作为语音转录前的预处理,效果非常稳定。 环境噪声明显减轻,语音识别模型的漏识率降低了不少。

更重要的是:

  • 运行只需几秒;
  • 无需额外文件;
  • 任意系统都能用;
  • 批量处理轻松搞定。

对于希望部署简单、运行快速、结果可控的需求来说,这条命令堪称"刚刚好"。

降噪这件事,没有完美方案。 AI 模型能做到极致,但门槛高; 传统滤镜效果一般,但稳定、通用。

我的目标不是做声音修复,而是让语音转录更稳一点。 而这一行命令,正好在"效果"和"简单"之间取得了平衡:

bash 复制代码
ffmpeg -i 1.wav -af "highpass=f=80,afftdn=nf=-25,loudnorm,volume=1.5" 1_clean.wav
相关推荐
机器之心7 小时前
谷歌最强AI,被港科大开源超了?让海外创作者喊出「King Bomb」的P图大杀器来了
人工智能·openai
机器之心7 小时前
谷歌重大突破!量子计算首次可验证,登《Nature》封面
人工智能·openai
安思派Anspire7 小时前
70%的RAG性能与分块有关
aigc·openai·agent
ontheway-xx14 小时前
ffmpeg4.4.2 gcc 15.2.0 编译错误
ffmpeg·音视频
王中阳Go1 天前
挑战一周用 AI 开发商业化项目!4 大痛点反思 + 新手专属提示词分享
后端·aigc·openai
win4r1 天前
🚀彻底改写浏览器自动化!ChatGPT Atlas浏览器深度评测:Agent模式自动操作网页太疯狂!跨网页理解+长文秒懂+图片识别,论文工作流被改写!看完你会
chatgpt·aigc·openai
算家计算1 天前
OpenAI推出首款浏览器,能否撼动全球超30亿用户的Chrome?
人工智能·openai·资讯
后端小肥肠1 天前
【n8n入门系列】3 种方法搞定 n8n 生图!最多3步,小白也能学会的自动化教程
人工智能·openai·agent
小狮子安度因1 天前
FFmpeg+QT输出音频
qt·ffmpeg·音视频