欢迎诸位来阅读在下的博文~
在这里,在下会不定期发表一些浅薄的知识和经验,望诸位能与在下多多交流,共同努力
文章目录
前期博客
FFmpeg的入门实践系列一(环境搭建)
FFmpeg的入门实践系列二(基础知识)
FFmpeg的入门实践系列三(基础知识)
FFmpeg的入门实践系列四(AVS)
FFmpeg的入门实践系列五(编程入门之属性查看)
参考书籍
《FFmpeg开发实战------从零基础到短视频上线》------欧阳燊
一、FFmpeg常见的处理流程
承接上章,上一章其实讲了三个对象,一个是AVFormatContext,代表音视频文件,然后是其相关的属性;一个是AVStream,代表音视频文件里面的数据流(音频流、视频流、字幕流等等),然后是其相关属性;一个是AVCodec,代表数据流里面的编解码器规格,然后是其相关属性。整个过程是一个由大到小的,层层深入的过程。这一章,将继续讲解编解码器的相关内容。
复制编解码器的参数
其实,AVCodec结构仅仅是规格定义,它在描述一个编解码器是怎么样的,但是它没有真正执行编码解码的功能,就是一个"光说不做的主"。要想执行真正的编码解码操作,还需要引入AVCodecContext才行。
具体的写代码流程如下:
- 打开编解码器实例的完整流程:avcodec_alloc_context3-->avcodec_parameters_to_context-->avcodec_open2
- 关闭编解码器实例的完整流程:avcodec_close-->avcodec_free_context
在编解码器实例打开之后,才能对数据包或者数据帧进行编解码操作,具体而言,就是数据包AVPacket经过解码生成数据帧AVFrame;反之亦然。下面代码片段演示如何打开编解码的实例:
cpp
AVCodecContext *video_decode_ctx = NULL;
video_decode_ctx = avcodec_alloc_context3(video_codec);
if(video_decode_ctx == NULL) {
av_log(NULL, AV_LOG_ERROR, "Could not allocate video decode context\n");
return -1;
}
// 把视频流中的编解码参数复制给解码器的实例
avcodec_parameters_to_context(video_decode_ctx, video_stream->codecpar);
av_log(NULL, AV_LOG_INFO, "success copy video stream parameters to video decode context\n");
ret = avcodec_open2(video_decode_ctx, video_codec, NULL);// 打开解码器
av_log(NULL, AV_LOG_INFO, "success open video decode context\n");
if(ret < 0) {
av_log(NULL, AV_LOG_ERROR, "Could not open video decoder\n");
return -1;
}
avcodec_close(video_decode_ctx); // 关闭解码器
avcodec_free_context(&video_decode_ctx); // 释放解码器资源
其实只要调用了avcodec_paramters_to_context函数,就能获取音视频文件的详细编码参数,具体参数保存在AVCodecContext结构中,该结构的常见字段说明如下:
- codec_id: 编解码器的编号。//比如AV_CODEC_ID_MJPEG 7 JPEG图像编码标准
- codec_type: 编解码器的类型。// AVMEDIA_TYPE_VIDEO 0 视频流
- width: 视频画面的宽度
- height: 视频画面的高度
- gop_size: 每两个关键帧(I帧)间隔多少帧
- max_b_frames: 双向预测帧(B帧)的最大数量
- pix_fmt: 视频的像素格式。像素格式的定义来自AVPixelFormat枚举,详细的像素格式类型及其说明见附页
- profile: 指定编解码器的配置文件,主要用于细分AAC音频的种类,详细的AAC种类定义及其说明见附页
- ch_layout: 音频的声道布局,该字段为AVChannelLayout结构,声道数量是该结构的nb_channels字段。声道数量及其定义见附页
- sample_fmt: 音频的采样格式。采样格式的定义来自AVSampleFormat枚举,详细的采样格式定义见附页
- sample_rate: 音频的采样频率,单位为赫兹(次每秒)
- frame_size: 音频的帧大小,也叫采样个数,即每个音频帧采集的样本数量
- bit_rate: 码率,也叫比特率,单位为比特每秒
- time_base: 音视频的时间基,该字段为AVRatianal结构
完整代码
接下来把AVStream到AVCodec再到AVCodecContext的完整流程串起来,分别在视频流和音频流中寻找它们的解码器的实例,并执行实例的打开和关闭操作。
cpp
#include <stdio.h>
#ifdef __cplusplus
extern "C"
{
#endif
#include <libavformat/avformat.h>
#include <libavcodec/avcodec.h>
#include <libavutil/avutil.h>
#ifdef __cplusplus
};
#endif
int main(int argc, char** argv){
const char* filename = "../fuzhou.mp4";
if(argc > 1)
filename = argv[1];
AVFormatContext* fmt_ctx = NULL;
int ret = avformat_open_input(&fmt_ctx, filename, NULL, NULL);
if(ret < 0){
av_log(NULL, AV_LOG_ERROR, "Could not open file %s\n", filename);
return -1;
}
av_log(NULL, AV_LOG_INFO, "Opened file %s\n", filename);
//查找音视频文件中的流信息
ret = avformat_find_stream_info(fmt_ctx, NULL);
if(ret < 0){
av_log(NULL, AV_LOG_ERROR, "Could not find stream information\n");
return -1;
}
av_log(NULL, AV_LOG_INFO, "Success find stream information.\n");
av_log(NULL, AV_LOG_INFO, "duration=%d\n", fmt_ctx->duration); // 持续时间,单位微秒
av_log(NULL, AV_LOG_INFO, "nb_streams=%d\n", fmt_ctx->nb_streams); // 数据流的数量
av_log(NULL, AV_LOG_INFO, "max_streams=%d\n", fmt_ctx->max_streams); // 数据流的最大数量
av_log(NULL, AV_LOG_INFO, "video_codec_id=%d\n", fmt_ctx->video_codec_id);
av_log(NULL, AV_LOG_INFO, "audio_codec_id=%d\n", fmt_ctx->audio_codec_id);
// 找到视频流的索引
int video_stream_index = av_find_best_stream(fmt_ctx, AVMEDIA_TYPE_VIDEO, -1, -1, NULL, 0);
av_log(NULL, AV_LOG_INFO, "video_stream_index=%d\n", video_stream_index);
if(video_stream_index >= 0){
AVStream* video_stream = fmt_ctx->streams[video_stream_index];
enum AVCodecID video_codec_id = video_stream->codecpar->codec_id;
av_log(NULL, AV_LOG_INFO, "video_codec_id=%d\n", video_codec_id);
// 查找视频解码器
AVCodec* video_codec = (AVCodec*)avcodec_find_decoder(video_codec_id);
if(video_codec == NULL){
av_log(NULL, AV_LOG_ERROR, "Could not find video decoder\n");
return -1;
}
av_log(NULL, AV_LOG_INFO, "video_codec_name=%s\n", video_codec->name);
av_log(NULL, AV_LOG_INFO, "video_codec long_name=%s\n", video_codec->long_name);
av_log(NULL, AV_LOG_INFO, "video_codec_type=%d\n", video_codec->type);
// 视频解码器的实例
AVCodecContext* video_dec_ctx = NULL;
video_dec_ctx = avcodec_alloc_context3(video_codec);
if(video_dec_ctx == NULL){
av_log(NULL, AV_LOG_ERROR, "Could not allocate video decoder context\n");
return -1;
}
//把视频流中的编解码器参数复制到解码器实例中
avcodec_parameters_to_context(video_dec_ctx, video_stream->codecpar);
av_log(NULL, AV_LOG_INFO, "Success copy video stream parameters to decoder context.\n");
av_log(NULL, AV_LOG_INFO, "video_dec_ctx->width=%d\n", video_dec_ctx->width);
av_log(NULL, AV_LOG_INFO, "video_dec_ctx->height=%d\n", video_dec_ctx->height);
//打开视频解码器
ret = avcodec_open2(video_dec_ctx, video_codec, NULL);
if(ret < 0){
av_log(NULL, AV_LOG_ERROR, "Could not open video decoder\n");
return -1;
}
av_log(NULL, AV_LOG_INFO, "Success open video decoder.\n");
av_log(NULL, AV_LOG_INFO, "video_decode profile = %d\n", video_dec_ctx->profile);
avcodec_close(video_dec_ctx);
avcodec_free_context(&video_dec_ctx);
}
// 找到音频流的索引
int audio_stream_index = av_find_best_stream(fmt_ctx, AVMEDIA_TYPE_AUDIO, -1, -1, NULL, 0);
av_log(NULL, AV_LOG_INFO, "audio_stream_index=%d\n", audio_stream_index);
if(audio_stream_index >= 0){
AVStream* audio_stream = fmt_ctx->streams[audio_stream_index];
enum AVCodecID audio_codec_id = audio_stream->codecpar->codec_id;
av_log(NULL, AV_LOG_INFO, "audio_codec_id=%d\n", audio_codec_id);
// 查找音频解码器
AVCodec* audio_codec = (AVCodec*)avcodec_find_decoder(audio_codec_id);
if(audio_codec == NULL){
av_log(NULL, AV_LOG_ERROR, "Could not find audio decoder\n");
return -1;
}
av_log(NULL, AV_LOG_INFO, "audio_codec_name=%s\n", audio_codec->name);
av_log(NULL, AV_LOG_INFO, "audio_codec long_name=%s\n", audio_codec->long_name);
av_log(NULL, AV_LOG_INFO, "audio_codec_type=%d\n", audio_codec->type);
// 音频解码器的实例
AVCodecContext* audio_dec_ctx = NULL;
audio_dec_ctx = avcodec_alloc_context3(audio_codec);
if(audio_dec_ctx == NULL){
av_log(NULL, AV_LOG_ERROR, "Could not allocate audio decoder context\n");
return -1;
}
//把音频流中的编解码器参数复制到解码器实例中
avcodec_parameters_to_context(audio_dec_ctx, audio_stream->codecpar);
av_log(NULL, AV_LOG_INFO, "Success copy audio stream parameters to decoder context.\n");
av_log(NULL, AV_LOG_INFO, "audio_dec_ctx->sample_rate=%d\n", audio_dec_ctx->sample_rate);
av_log(NULL, AV_LOG_INFO, "audio_dec_ctx->channels=%d\n", audio_dec_ctx->ch_layout.nb_channels);
//打开音频解码器
ret = avcodec_open2(audio_dec_ctx, audio_codec, NULL);
if(ret < 0){
av_log(NULL, AV_LOG_ERROR, "Could not open audio decoder\n");
return -1;
}
av_log(NULL, AV_LOG_INFO, "Success open audio decoder.\n");
av_log(NULL, AV_LOG_INFO, "audio_decode profile = %d\n", audio_dec_ctx->profile);
avcodec_close(audio_dec_ctx);
avcodec_free_context(&audio_dec_ctx);
}
avformat_close_input(&fmt_ctx);
return 0;
}
编译:
cpp
gcc para.c -o para -I /usr/local/ffmpeg/include -L /usr/local/ffmpeg/lib -lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm
输出结果:
由日志信息可见,视频流和音频流的解码器实例都被找到并且成功打开,还发现目标文件的视频宽高为1440*810,并且音频格式为AAC-LC(profile=1,根据表2-7找到规格说明),声道类型为双声道(立体声)。
二、创建并写入音视频文件
前面介绍的音视频处理属于对文件的读操作,如果是写操作,那又是另一套流程。写入音视频文件的总体步骤说明如下:
- 01 调用avformat_alloc_output_context2函数分配音视频文件的封装实例
- 02 调用avio_open函数打开音视频文件的输出流
- 03 调用avformat_write_header函数写入音视频的文件头
- 04 多次调用av_write_frame函数写入音视频的数据帧
- 05 调用av_write_trailer函数写入音视频的文件尾
- 06 调用avio_close函数关闭音视频文件的输出流
- 07 调用avformat_free_context函数释放音视频文件的封装实例
需要注意的是,音视频文件要求至少封装一路数据流,要么封装单路视频,要么封装单路音频,要么两者都封装。以下是音视频文件封装数据流的总体步骤说明:
- 01 调用avcodec_find_encoder函数查找指定编号的编码器
- 02 调用avcodec_alloc_context3函数根据编码器分配对应的编码器实例。对于视频来说,还要设置编码器实例的width和height字段
- 03 调用avformat_new_stream函数,给输出文件创建采用指定编码器的数据流
- 04 调用avcodec_paramters_from_context函数把编码器实例的参数复制给数据流
上述的封装步骤虽然没有写入真实的数据帧,但不影响程序的正常运行。因为已经创建了一路视频流,不过是空而已。综合上述,可以得出完整代码如下:
cpp
#include <stdio.h>
// 之所以增加__cplusplus的宏定义,是为了同时兼容gcc编译器和g++编译器
#ifdef __cplusplus
extern "C"
{
#endif
#include <libavformat/avformat.h>
#include <libavcodec/avcodec.h>
#include <libavutil/avutil.h>
#ifdef __cplusplus
};
#endif
int main(int argc, char **argv) {
const char *filename = "output.mp4";
if (argc > 1) {
filename = argv[1];
}
AVFormatContext *out_fmt_ctx;
// 分配音视频文件的封装实例
int ret = avformat_alloc_output_context2(&out_fmt_ctx, NULL, NULL, filename);
if (ret < 0) {
av_log(NULL, AV_LOG_ERROR, "Can't alloc output_file %s.\n", filename);
return -1;
}
// 打开输出流
ret = avio_open(&out_fmt_ctx->pb, filename, AVIO_FLAG_READ_WRITE);
if (ret < 0) {
av_log(NULL, AV_LOG_ERROR, "Can't open output_file %s.\n", filename);
return -1;
}
av_log(NULL, AV_LOG_INFO, "Success open output_file %s.\n", filename);
// 查找编码器
AVCodec *video_codec = (AVCodec*) avcodec_find_encoder(AV_CODEC_ID_H264);
if (!video_codec) {
av_log(NULL, AV_LOG_ERROR, "AV_CODEC_ID_H264 not found\n");
return -1;
}
AVCodecContext *video_encode_ctx = NULL;
video_encode_ctx = avcodec_alloc_context3(video_codec); // 分配编解码器的实例
if (!video_encode_ctx) {
av_log(NULL, AV_LOG_ERROR, "video_encode_ctx is null\n");
return -1;
}
video_encode_ctx->width = 320; // 视频画面的宽度
video_encode_ctx->height = 240; // 视频画面的高度
// 创建指定编码器的数据流
AVStream * video_stream = avformat_new_stream(out_fmt_ctx, video_codec);
// 把编码器实例中的参数复制给数据流
avcodec_parameters_from_context(video_stream->codecpar, video_encode_ctx);
video_stream->codecpar->codec_tag = 0; // 非特殊情况都填0
ret = avformat_write_header(out_fmt_ctx, NULL); // 写文件头
if (ret < 0) {
av_log(NULL, AV_LOG_ERROR, "write file_header occur error %d.\n", ret);
return -1;
}
av_log(NULL, AV_LOG_INFO, "Success write file_header.\n");
av_write_trailer(out_fmt_ctx); // 写文件尾
avio_close(out_fmt_ctx->pb); // 关闭输出流
avformat_free_context(out_fmt_ctx); // 释放封装器的实例
return 0;
}
编译:
cpp
gcc write.c -o write -I /usr/local/ffmpeg/include -L /usr/local/ffmpeg/lib -lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm
输出结果:
三、总结
本章中,主讲了对音视频文件的从上到下的读写流程。这里着重讲了AVCodecContext这个结构体的使用方法,诸位在实际开发时,一定要有层次意识,首先要问一下该代码片段处理的内容是处于什么位置的,是属于音视频文件(AVFormatContext),属于数据流(AVStream),还是属于数据流下面的编解码器(AVCodec,AVCodecContext)?把脉络给理清了,开发过程中才不会如同无头苍蝇乱闯。
下一期,会更精彩,期待诸位的关注~
附页
像素格式类型 | 对应数值(可能不同版本数值不同) | 应用场合 |
---|---|---|
AV_PIX_FMT_YUV420P | 0 | YUV 4:2:0 格式,适用于大多数YUV视频编码 |
AV_PIX_FMT_YUV422P | 1 | YUV 4:2:2 格式,适用于高质量视频编码 |
AV_PIX_FMT_YUV444P | 2 | YUV 4:4:4 格式,适用于高质量视频编码 |
AV_PIX_FMT_YUVJ420P | 3 | YUV 4:2:0 格式,适用于JPEG格式的YUV视频 |
AV_PIX_FMT_YUVJ422P | 4 | YUV 4:2:2 格式,适用于JPEG格式的YUV视频 |
AV_PIX_FMT_YUVJ444P | 5 | YUV 4:4:4 格式,适用于JPEG格式的YUV视频 |
AV_PIX_FMT_RGB24 | 6 | 24位RGB格式,适用于计算机显示和图像处理 |
AV_PIX_FMT_BGR24 | 7 | 24位BGR格式,适用于计算机显示和图像处理 |
AV_PIX_FMT_GRAY8 | 8 | 8位灰度格式,适用于灰度图像和视频 |
AV_PIX_FMT_MONOBLACK | 9 | 单色(黑和白)格式,适用于特定的图像处理需求 |
AV_PIX_FMT_MONOWHITE | 10 | 单色(白和黑)格式,适用于特定的图像处理需求 |
AV_PIX_FMT_NV12 | 12 | YUV 4:2:0 格式,适用于硬件加速和某些视频编码 |
AV_PIX_FMT_NV21 | 13 | YUV 4:2:0 格式,与NV12类似,但存储顺序不同 |
AV_PIX_FMT_ARGB | 16 | ARGB格式,适用于图像处理和某些视频编码 |
AV_PIX_FMT_RGBA | 17 | RGBA格式,适用于图像处理和某些视频编码 |
AV_PIX_FMT_ABGR | 18 | ABGR格式,适用于图像处理和某些视频编码 |
AV_PIX_FMT_BGRA | 19 | BGRA格式,适用于图像处理和某些视频编码 |
AAC配置文件 | 对应数值 | 说明 |
---|---|---|
FF_PROFILE_AAC_LOW | 1 | 低复杂度AAC,最常用,音质与复杂度平衡。 |
FF_PROFILE_AAC_SSR | 2 | 采样率可调节的AAC |
FF_PROFILE_AAC_LTP | 3 | 长期预测的AAC |
FF_PROFILE_AAC_HE | 4 | 高效率的AAC |
FF_PROFILE_AAC_HE_V2 | 28 | 第二版的HE-AAC |
FF_PROFILE_AAC_LD | 22 | 低时延的AAC |
FF_PROFILE_AAC_ELD | 38 | 增强型的低时延的AAC |
FF_PROFILE_UNKNOWN | -99 | 未知配置文件,表示未指定或无法识别的配置。 |
声道类型 | 声道数量 | 音频位置 |
---|---|---|
单声道 | 1 | 中心位置,适用于所有音频内容 |
双声道 | 2 | 左右分布,提供基本的立体声体验 |
2.1环绕声 | 3 | 左、右和低音炮,增强低频效果 |
4.0环绕声 | 4 | 前左、前右、后左、后右,提供更广阔的声场 |
4.1环绕声 | 5 | 4.0环绕声基础上增加一个低音炮声道 |
5.1环绕声 | 6 | 前左、前右、后左、后右、低音炮和中央声道 |
6.1环绕声 | 7 | 5.1环绕声基础上增加一个后中/侧环绕声道 |
7.1环绕声 | 8 | 5.1环绕声基础上增加两个侧环绕声道 |
7.1.2环绕声 | 9 | 7.1环绕声基础上增加两个高度声道 |
7.1.4环绕声 | 10 | 7.1.2环绕声基础上增加两个高度环绕声道 |
22.2环绕声(IMAX 12.1) | 13 | 7.1.4环绕声基础上增加五个侧面环绕声道 |
采样格式类型 | 对应数值 | 说明 |
---|---|---|
AV_SAMPLE_FMT_U8 | 0 | 无符号8位采样,交错模式 |
AV_SAMPLE_FMT_S16 | 1 | 有符号16位采样,交错模式 |
AV_SAMPLE_FMT_S32 | 2 | 有符号32位采样,交错模式 |
AV_SAMPLE_FMT_FLT | 3 | 单精度浮点采样,交错模式 |
AV_SAMPLE_FMT_DBL | 4 | 双精度浮点采样,交错模式 |
AV_SAMPLE_FMT_U8P | 5 | 无符号8位采样,平面模式 |
AV_SAMPLE_FMT_S16P | 6 | 有符号16位采样,平面模式 |
AV_SAMPLE_FMT_S32P | 7 | 有符号32位采样,平面模式 |
AV_SAMPLE_FMT_FLTP | 8 | 单精度浮点采样,平面模式 |
AV_SAMPLE_FMT_DBLP | 9 | 双精度浮点采样,平面模式 |
AV_SAMPLE_FMT_S64 | 10 | 有符号64位采样,交错模式 |
AV_SAMPLE_FMT_S64P | 11 | 有符号64位采样,平面模式 |
AV_SAMPLE_FMT_S16S | 12 | 有符号16位采样,交错模式,小端字节序 |
AV_SAMPLE_FMT_S32S | 13 | 有符号32位采样,交错模式,小端字节序 |
AV_SAMPLE_FMT_FLTS | 14 | 单精度浮点采样,交错模式,小端字节序 |
AV_SAMPLE_FMT_DBLS | 15 | 双精度浮点采样,交错模式,小端字节序 |
AV_SAMPLE_FMT_S16S_PLANAR | 16 | 有符号16位采样,平面模式,小端字节序 |
AV_SAMPLE_FMT_S32S_PLANAR | 17 | 有符号32位采样,平面模式,小端字节序 |
AV_SAMPLE_FMT_FLTS_PLANAR | 18 | 单精度浮点采样,平面模式,小端字节序 |
AV_SAMPLE_FMT_DBLS_PLANAR | 19 | 双精度浮点采样,平面模式,小端字节序 |
为了方便诸位编译,在此提供CMakeLists.txt文件
cpp
cmake_minimum_required(VERSION 3.10)
# 项目名称
project(Helloffmpeg)
# 设置 C 标准
set(CMAKE_C_STANDARD 99)
# 指定源文件
set(SRC write.c)
# 指定头文件搜索路径
include_directories(/usr/local/ffmpeg/include)
# 指定库文件搜索路径
link_directories(/usr/local/ffmpeg/lib)
# 添加可执行文件
add_executable(write ${SRC})
# 链接 FFmpeg 库
target_link_libraries(write
avformat
avdevice
avfilter
avcodec
avutil
swscale
swresample
postproc
m
)
至此,结束~
望诸位不忘三连支持一下~