小白也能学会：AI分离人声 + FFmpeg替换音轨全流程

火车叼位2025-12-17 14:56

准备工作（你需要的工具）

本教程只用两样东西：vocal-separate（本地分离人声/伴奏）和FFmpeg（把伴奏替换回视频）。 vocal-separate是本地网页操作：Windows解压后双击start.exe即可自动打开浏览器页面上传文件分离。

第一步：用vocal-separate分离伴奏

下载并解压vocal-separate到任意目录（例如E:/vocal-separate），然后双击start.exe启动。
浏览器页面打开后，把视频文件直接拖拽到上传区域，或点击上传区域选择文件，然后点"立即分离"。
选择模型时，小白优先用2stems（更简单：输出vocal和accompaniment两条音轨），等待处理完成后在页面底部下载accompaniment.wav（伴奏）。

第二步：安装FFmpeg（以Windows为例）

Windows最常见的做法是下载已编译的FFmpeg二进制包（例如gyan.dev提供的build），解压后把bin目录加入系统PATH，这样在命令行可直接运行ffmpeg。安装完成后，打开"命令提示符/PowerShell"输入ffmpeg -version验证是否安装成功（能显示版本信息就对了）。

第三步：替换视频音轨（核心命令）

把"原视频的画面"保留，同时把"音频"换成刚刚导出的伴奏，推荐用这一条命令（把文件名按你自己的改掉）： ffmpeg -i input_video.mp4 -i accompaniment.wav -map 0:v:0 -map 1:a:0 -c:v copy -c:a aac -shortest output_no_vocals.mp4

几个参数怎么理解：

-map 0:v:0选第1个输入（原视频）的第1条视频流，-map 1:a:0选第2个输入（伴奏）的第1条音频流。
-c:v copy表示视频不重新编码，速度快且画质不变；-shortest让输出时长按较短的一路对齐，避免"黑屏但还在放音频"等情况。

如果新音频和视频时长不一致，可以先裁剪音频到视频时长再替换，例如：
ffmpeg -i accompaniment.wav -t 00:01:30 trimmed.wav，再用trimmed.wav去替换。