用ffmpeg对视频添加语音、背景音乐和字幕的方法

先看代码:

bash 复制代码
ffmpeg.exe ^
-i "D:/test/video.mp4" ^
-i "D:/test/voice.mp3" ^
-i "D:/test/music.mp3" ^
-i "D:/test/voice.srt" ^
-filter_complex "[1:a]volume=1.0,asetpts=PTS-STARTPTS[a_voice];[2:a]volume=0.5,asetpts=PTS-STARTPTS[a_music];[a_voice][a_music]amix=inputs=2:duration=first[audio_mixed];[0:v]subtitles='D\:/test/voice.srt':force_style='Fontsize=24,Fontcolor=white'[vout]" ^
-map "[vout]" ^
-map "[audio_mixed]" ^
-c:v libx264 -crf 23 -preset veryfast -c:a aac -b:a 128k ^
-disposition:a:0 default ^
"D:/test/output_final.mp4"
以上代码成功完成了添加语音、背景音乐和字幕,完美。

再看解释:

这个复杂滤镜链由多个部分组成,用分号(;)分隔,每个部分负责处理不同的输入流或组合它们。

调整语音音量及时间戳:

  • 1:a\]volume=1.0,asetpts=PTS-STARTPTS\[a_voice

    1:a\] 指的是第二个输入文件(voice.mp3)的音频部分。 volume=1.0 设置音量为原始音量的100%(无增减)。 asetpts=PTS-STARTPTS 重置音频的时间戳,确保与视频同步。 最后 \[a_voice\] 是这个处理后的音频流的标签。 调整背景音乐音量及时间戳:

    类似地,处理第三个输入文件(music.mp3)的音频。

    volume=0.5 将音量设置为原始的一半。

    同样使用asetpts重置时间戳。

    a_music\] 标记处理后的音频流。 音频混合:

    a_voice\] 和 \[a_music\] 被送入amix滤镜进行混合。 inputs=2 指明有两个输入流参与混合。 duration=first 确保混合后的音频长度与第一个输入(\[a_voice\])相同,这样如果voice.mp3的长度与视频匹配,则音频不会过长。 字幕叠加到视频:

    0:v\] 表示第一个输入文件(video.mp4)的视频流。 subtitles='D:/test/voice.srt' 将指定的SRT字幕文件叠加到视频上。 force_style='Fontsize=24,Fontcolor=white' 设置字幕样式:字体大小为24,颜色为白色。 \[vout\] 标签表示处理后的视频流,包含叠加了字幕的视频。

    -map "[vout]" -map "[audio_mixed]" 指定最终输出使用哪些流:处理过的视频流[vout]和混合后的音频流[audio_mixed]。

    -t $(ffprobe ...) 动态获取视频的时长,并将其作为输出的持续时间,确保输出与源视频时长相符。

    其余参数涉及视频和音频的编码设置,如使用H.264编码器(-c:v libx264)、CRF值(-crf 23)、预设(-preset veryfast)、AAC音频编码(-c:a aac)和音频比特率(-b:a 128k)等,用于控制输出文件的质量和兼容性。

综上所述,这段命令通过精细的音频处理和视频字幕叠加,实现了按照video.mp4的时长来输出一个包含调整音量的语音、背景音乐和字幕的最终视频文件。

相关推荐
纳祥科技1 小时前
分享:一种为蓝牙、WIFI、U段音频发射设备提供ARC回传数字音频桥接功能的方案
网络·单片机·音视频
ai产品老杨12 小时前
打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程的智慧工业开源了
人工智能·开源·音视频·能源
非凡ghost20 小时前
FxSound:提升音频体验,让音乐更动听
前端·学习·音视频·生活·软件需求
Ai工具分享20 小时前
视频画质差怎么办?AI优化视频清晰度技术原理与实战应用
人工智能·音视频
萌虎不虎1 天前
【鸿蒙(openHarmony)自定义音频播放器的开发使用说明】
华为·音视频·harmonyos
Hi202402171 天前
Orin-Apollo园区版本:订阅多个摄像头画面拼接与硬编码RTMP推流
ffmpeg·apollo·orin·图像拼接·图传
知来者逆1 天前
视觉语言模型应用开发——Qwen 2.5 VL模型视频理解与定位能力深度解析及实践指南
人工智能·语言模型·自然语言处理·音视频·视觉语言模型·qwen 2.5 vl
max5006001 天前
图像处理:实现多图点重叠效果
开发语言·图像处理·人工智能·python·深度学习·音视频
Antonio9151 天前
【音视频】WebRTC 音视频延时、同步分析以及超低延时优化
音视频·webrtc