【音视频】AAC-ADTS分析

AAC-ADTS 格式分析

AAC⾳频格式 :Advanced Audio Coding(⾼级⾳频解码),是⼀种由MPEG-4标准定义的有损⾳频压缩格式,由Fraunhofer发展,Dolby, Sony和AT&T是主

要的贡献者。

  • ADIF:Audio Data Interchange Format ⾳频数据交换格式。这种格式的特征是可以确定的找到这个⾳频数据的开始,不需进⾏在⾳频数据流中间开始

    的解码,即它的解码必须在明确定义的开始处进⾏。故这种格式常⽤在磁盘⽂件中。

  • ADTS的全称是Audio Data Transport Stream。是AAC⾳频的传输流格式。AAC⾳频格式在MPEG-2(ISO-13318-7 2003)中有定义。AAC后来

    ⼜被采⽤到MPEG-4标准中。这种格式的特征是它是⼀个有同步字的⽐特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。

简单说,ADTS可以在任意帧解码,也就是说它每⼀帧都有头信息。ADIF只有⼀个统⼀的头,所以必须得到所有的数据后解码且这两种的header的格式也是不同的,⽬前⼀般编码后的和抽取出的都是ADTS格式的⾳频流。两者具体的组织结构如下所示:

  • AAC的ADIF格式⻅下图:
  • AAC的ADTS的⼀般格式⻅下图:
  • 有的时候当你编码AAC裸流的时候,会遇到写出来的AAC⽂件并不能在PC和⼿机上播放,很⼤的可能就是AAC⽂件的每⼀帧⾥缺少了ADTS头信息⽂件的包装拼接。
  • 只需要加⼊头⽂件ADTS即可。⼀个AAC原始数据块⻓度是可变的,对原始帧加上ADTS头进⾏ADTS的封装,就形成了ADTS帧。
  • AAC⾳频⽂件的每⼀帧由ADTS Header和AAC Audio Data组成。结构体如下:

每⼀帧的ADTS的头⽂件都包含了⾳频的采样率,声道,帧⻓度等信息,这样解码器才能解析读取。⼀般情况下ADTS的头信息都是7个字节,分为2部分:

  1. adts_fixed_header();
  2. adts_variable_header()

其⼀为固定头信息,紧接着是可变头信息。固定头信息中的数据每⼀帧都相同,⽽可变头信息则在帧与帧之间可变。

固定头信息

  • syncword :同步头 总是0xFFF, all bits must be 1,代表着⼀个ADTS帧的开始
  • ID:MPEG标识符,0标识MPEG-4,1标识MPEG-2
  • Layer:always: '00'
  • protection_absent:表示是否误码校验。Warning, set to 1 if there is noCRC and 0 if there is CRC
  • profile:表示使⽤哪个级别的AAC,如01 Low Complexity(LC)--- AACLC。有些芯⽚只⽀持AAC LC 。

sampling_frequency_index:表示使⽤的采样率下标,通过这个下标在SamplingFrequencies[]数组中查找得知采样率的值。

在MPEG-2 AAC中定义了3种:

  • profile的值等于 Audio Object Type的值减1
  • profile = MPEG-4 Audio Object Type - 1
  • channel_configuration: 表示声道数,⽐如2表示⽴体声双声道

声道数的定义如下

  • 0: Defined in AOT Specifc Config
  • 1: 1 channel: front-center
  • 2: 2 channels: front-left, front-right
  • 3: 3 channels: front-center, front-left, front-right
  • 4: 4 channels: front-center, front-left, front-right, back-center
  • 5: 5 channels: front-center, front-left, front-right, back-left, back-right
  • 6: 6 channels: front-center, front-left, front-right, back-left, back-right, LFE-channel
  • 7: 8 channels: front-center, front-left, front-right, side-left, side-right,back-left, back-right, LFE-channel
  • 8-15: Reserved

接下来看下adts_variable_header();

可变头信息

  • frame_length : ⼀个ADTS帧的⻓度包括ADTS头和AAC原始流.

  • frame length, this value must include 7 or 9 bytes of header length:aac_frame_length = (protection_absent == 1 ? 7 : 9) + size(AACFrame)

  • protection_absent=0时, header length=9bytes

  • protection_absent=1时, header length=7bytes

  • adts_buffer_fullness:0x7FF 说明是码率可变的码流。

  • number_of_raw_data_blocks_in_frame:表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧。

  • 所以说number_of_raw_data_blocks_in_frame == 0 表示说ADTS帧中有⼀个AAC数据块。

下⾯是ADTS的AAC⽂件部分:

  • ⾼字节开始算

第⼀帧的帧头7个字节为:0xFF 0xF1 0x4C 0x40 0x20 0xFF 0xFC

实现流程

准备文件,准备音频格式在MPEG-2支持的3种AAC格式的mp4flv,这里不使用ts是因为它的aac流自带ADTS头部信息。

这三种都支持

  • Main Profile
  • LC
  • SSR

将文件放入build路径下,通过main参数传递进来

创建一个输出文件,以二进制写的方式打开,用于写入转换后的ADTS文件

c 复制代码
	char *in_filename = NULL;
    char *aac_filename = NULL;

    FILE *aac_fd = NULL;
	av_log_set_level(AV_LOG_DEBUG);

    if(argc < 3)
    {
        av_log(NULL, AV_LOG_DEBUG, "the count of parameters should be more than three!\n");
        return -1;
    }

    in_filename = argv[1];      // 输入文件
    aac_filename = argv[2];     // 输出文件

    if(in_filename == NULL || aac_filename == NULL)
    {
        av_log(NULL, AV_LOG_DEBUG, "src or dts file is null, plz check them!\n");
        return -1;
    }

    aac_fd = fopen(aac_filename, "wb");
    if (!aac_fd)
    {
        av_log(NULL, AV_LOG_DEBUG, "Could not open destination file %s\n", aac_filename);
        return -1;
    }

文件解封装

将文件解封装,无论是mp4还是flv,找出对应的音频流,读取音频流数据

c 复制代码
AVFormatContext *ifmt_ctx = NULL;
 // 打开输入文件
    if((ret = avformat_open_input(&ifmt_ctx, in_filename, NULL, NULL)) < 0)
    {
        av_strerror(ret, errors, 1024);
        av_log(NULL, AV_LOG_DEBUG, "Could not open source file: %s, %d(%s)\n",
               in_filename,
               ret,
               errors);
        return -1;
    }

    // 获取解码器信息
    if((ret = avformat_find_stream_info(ifmt_ctx, NULL)) < 0)
    {
        av_strerror(ret, errors, 1024);
        av_log(NULL, AV_LOG_DEBUG, "failed to find stream information: %s, %d(%s)\n",
               in_filename,
               ret,
               errors);
        return -1;
    }

    // dump媒体信息
    av_dump_format(ifmt_ctx, 0, in_filename, 0);

    // 初始化packet
    av_init_packet(&pkt);

    // 查找audio对应的steam index
    audio_index = av_find_best_stream(ifmt_ctx, AVMEDIA_TYPE_AUDIO, -1, -1, NULL, 0);
    if(audio_index < 0)
    {
        av_log(NULL, AV_LOG_DEBUG, "Could not find %s stream in input file %s\n",
               av_get_media_type_string(AVMEDIA_TYPE_AUDIO),
               in_filename);
        return AVERROR(EINVAL);
    }

我们查看一下当前的AAC类型的profile,因为我们只支持三种:

c 复制代码
 printf("audio profile:%d, FF_PROFILE_AAC_LOW:%d\n",
           ifmt_ctx->streams[audio_index]->codecpar->profile,
           FF_PROFILE_AAC_LOW);

如果音频格式对应支持的AAC,那么我们就可以进行循环读取音频包数据

  • 读取音频包数据,获得对应的profilesample_rate以及channel
  • 传入包的数据大小
  • ADTS一般是7字节,因此用一个7字节的char数组接收(一个char占1字节)
  • 写入头部后,将头部信息写入文件
  • 写入数据包信息
  • 释放数据包内存
c 复制代码
 if(pkt.stream_index == audio_index)
        {
            char adts_header_buf[7] = {0};
            adts_header(adts_header_buf, pkt.size,
                        ifmt_ctx->streams[audio_index]->codecpar->profile,
                        ifmt_ctx->streams[audio_index]->codecpar->sample_rate,
                        ifmt_ctx->streams[audio_index]->codecpar->channels);
            fwrite(adts_header_buf, 1, 7, aac_fd);  // 写adts header , ts流不适用,ts流分离出来的packet带了adts header
            len = fwrite( pkt.data, 1, pkt.size, aac_fd);   // 写adts data
            if(len != pkt.size)
            {
                av_log(NULL, AV_LOG_DEBUG, "warning、
                , length of writed data isn't equal pkt.size(%d, %d)\n",
                       len,
                       pkt.size);
            }
        }
        av_packet_unref(&pkt);

ADTS格式详解

准备采样率表
  • 这个是固定的,与协议对应
c 复制代码
const int sampling_frequencies[] = {
    96000,  // 0x0
    88200,  // 0x1
    64000,  // 0x2
    48000,  // 0x3
    44100,  // 0x4
    32000,  // 0x5
    24000,  // 0x6
    22050,  // 0x7
    16000,  // 0x8
    12000,  // 0x9
    11025,  // 0xa
    8000   // 0xb
    // 0xc d e f是保留的
};
  • 我们这里直接使用48000采样率即可
c 复制代码
int sampling_frequency_index = 3; // 默认使用48000hz
写入固定头信息
  • 同步头(12bit),始终为0xfff
c 复制代码
p_adts_header[0] = 0xff;         //syncword:0xfff                          高8bits
p_adts_header[1] = 0xf0;         //syncword:0xfff                          低4bits
  • 版本号(1bit),如果使用的是MPEG-2为0,MPEG-4为1
c 复制代码
p_adts_header[1] |= (0 << 3);    //MPEG Version:0 for MPEG-4,1 for MPEG-2  1bit
  • layer(2bit),永远是0
c 复制代码
p_adts_header[1] |= (0 << 1);    //Layer:0
  • 校验位(protection_absent),0表示有校验,1表示无校验(1bit)
c 复制代码
p_adts_header[1] |= 1;           //protection absent:1                     1bit
  • profile(2bit),ffmpeg参考的是MPEG-2,因此这里使用它的枚举值即可
c 复制代码
p_adts_header[2] = (profile)<<6;            //profile:profile               2bits
  • 采样率索引,需要转为16进制(2bit)
c 复制代码
p_adts_header[2] |= (sampling_frequency_index & 0x0f)<< 2; //sampling frequency index:sampling_frequency_index  4bits
  • private_bit,固定为0(1bit)
c 复制代码
p_adts_header[2] |= (0 << 1);             //private bit:0                   1bit
  • 声道布局,需要转换为16进制(3bit)
c 复制代码
p_adts_header[2] |= (channels & 0x04)>>2; //channel configuration:channels  高1bit
p_adts_header[3] = (channels & 0x03)<<6; //channel configuration:channels 低2bits
  • original_copy,固定为0(1bit)
c 复制代码
p_adts_header[3] |= (0 << 5);               //original:0                1bit
  • home,固定为0(1bit)
c 复制代码
p_adts_header[3] |= (0 << 4);               //home:0                    1bit
写入可变头
  • copyright_identification_bit,固定为0(1bit
c 复制代码
p_adts_header[3] |= (0 << 3);               //copyright id bit:0        1bit
  • copyright_identify_start,固定为0(1bit
c 复制代码
p_adts_header[3] |= (0 << 2);               //copyright id start:0      1bit
  • aac_frame_lengthaac数据帧的长度(13bit),通过下面的方式获取:
  1. 如果protection_absent校验位为1,那么aac_frame_length = 7 + sizeof(aac_frame)
  2. 如果protection_absent校验位为0,那么aac_frame_length = 9 + sizeof(aac_frame)

前面设置了校验位为1,因此:

c 复制代码
int adtsLen = data_length + 7;
p_adts_header[3] |= ((adtsLen & 0x1800) >> 11);           //frame length:value   高2bits
p_adts_header[4] = (uint8_t)((adtsLen & 0x7f8) >> 3);     //frame length:value    中间8bits
p_adts_header[5] = (uint8_t)((adtsLen & 0x7) << 5);       //frame length:value    低3bits
  • adts_buffer_fullness11bit),设置为0x7ff表示为可变码流
c 复制代码
p_adts_header[5] |= 0x1f;        //buffer fullness:0x7ff 高5bits
p_adts_header[6] = 0xfc;         //buffer fullness:0x7ff 低6bits
  • number_of_raw_data_blocks_in_frame2bit),意义如下:
  1. 表示ADTS帧中有number_of_raw_data_blocks_in_frame+ 1个AAC原始帧。
  2. 因此我们设置number_of_raw_data_blocks_in_frame = 0 表示说ADTS帧中有⼀个AAC数据块。
c 复制代码
p_adts_header[6] |= 0 << 2;         //buffer fullness:0x7ff 低6bits

写入的函数如下所示:

c 复制代码
#define ADTS_HEADER_LEN  7;

const int sampling_frequencies[] = {
    96000,  // 0x0
    88200,  // 0x1
    64000,  // 0x2
    48000,  // 0x3
    44100,  // 0x4
    32000,  // 0x5
    24000,  // 0x6
    22050,  // 0x7
    16000,  // 0x8
    12000,  // 0x9
    11025,  // 0xa
    8000   // 0xb
    // 0xc d e f是保留的
};

int adts_header(char * const p_adts_header, const int data_length,
                const int profile, const int samplerate,
                const int channels)
{

    int sampling_frequency_index = 3; // 默认使用48000hz
    int adtsLen = data_length + ADTS_HEADER_LEN;

    int frequencies_size = sizeof(sampling_frequencies) / sizeof(sampling_frequencies[0]);
    int i = 0;
    for(i = 0; i < frequencies_size; i++)
    {
        if(sampling_frequencies[i] == samplerate)
        {
            sampling_frequency_index = i;
            break;
        }
    }
    if(i >= frequencies_size)
    {
        printf("unsupport samplerate:%d\n", samplerate);
        return -1;
    }

    p_adts_header[0] = 0xff;         //syncword:0xfff                          高8bits
    p_adts_header[1] = 0xf0;         //syncword:0xfff                          低4bits
    p_adts_header[1] |= (0 << 3);    //MPEG Version:0 for MPEG-4,1 for MPEG-2  1bit
    p_adts_header[1] |= (0 << 1);    //Layer:0                                 2bits
    p_adts_header[1] |= 1;           //protection absent:1                     1bit

    p_adts_header[2] = (profile)<<6;            //profile:profile               2bits
    p_adts_header[2] |= (sampling_frequency_index & 0x0f)<< 2; //sampling frequency index:sampling_frequency_index  4bits
    p_adts_header[2] |= (0 << 1);             //private bit:0                   1bit
    p_adts_header[2] |= (channels & 0x04)>>2; //channel configuration:channels  高1bit

    p_adts_header[3] = (channels & 0x03)<<6; //channel configuration:channels 低2bits
    p_adts_header[3] |= (0 << 5);               //original:0                1bit
    p_adts_header[3] |= (0 << 4);               //home:0                    1bit



    p_adts_header[3] |= (0 << 3);               //copyright id bit:0        1bit
    p_adts_header[3] |= (0 << 2);               //copyright id start:0      1bit
    p_adts_header[3] |= ((adtsLen & 0x1800) >> 11);           //frame length:value   高2bits

    p_adts_header[4] = (uint8_t)((adtsLen & 0x7f8) >> 3);     //frame length:value    中间8bits
    p_adts_header[5] = (uint8_t)((adtsLen & 0x7) << 5);       //frame length:value    低3bits
    p_adts_header[5] |= 0x1f;                                 //buffer fullness:0x7ff 高5bits
    p_adts_header[6] = 0xfc;      //11111100 共八位       //buffer fullness:0x7ff 低6bits

    // p_adts_header[6] |= 0 << 2;     // number_of_raw_data_blocks_in_frame:
    //    表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧。

    return 0;
}

释放内存

最后还是要释放内存,关闭文件

c 复制代码
 // 关闭输入文件
if(ifmt_ctx)
{
	avformat_close_input(&ifmt_ctx);
}
if(aac_fd)
{
	fclose(aac_fd);
}
HE-AAC需要调整
c 复制代码
#include <stdio.h>
#include <libavutil/log.h>
#include <libavformat/avio.h>
#include <libavformat/avformat.h>

#define ADTS_HEADER_LEN  7;

const int sampling_frequencies[] = {
    96000,  // 0x0
    88200,  // 0x1
    64000,  // 0x2
    48000,  // 0x3
    44100,  // 0x4
    32000,  // 0x5
    24000,  // 0x6
    22050,  // 0x7
    16000,  // 0x8
    12000,  // 0x9
    11025,  // 0xa
    8000   // 0xb
    // 0xc d e f是保留的
};

int adts_header(char * const p_adts_header, const int data_length,
                const int profile, const int samplerate,
                const int channels) {
    int sampling_frequency_index = 3;
    int adtsLen = data_length + 7; // 修正宏定义问题

    // 查找采样率索引
    for (int i = 0; i < sizeof(sampling_frequencies)/sizeof(int); i++) {
        if (sampling_frequencies[i] == samplerate) {
            sampling_frequency_index = i;
            break;
        }
    }

    // 设置ADTS头各字段
    p_adts_header[0] = 0xFF;
    p_adts_header[1] = 0xF0;
    p_adts_header[1] |= 0x01; // protection_absent

    // Profile设置为传入值(需外部处理HE-AAC情况)
    p_adts_header[2] = (profile & 0x03) << 6;
    p_adts_header[2] |= (sampling_frequency_index & 0x0F) << 2;
    p_adts_header[2] |= (channels >> 3) & 0x01; // 通道高1位

    p_adts_header[3] = (channels & 0x07) << 5; // 通道低3位
    p_adts_header[3] |= (adtsLen >> 11) & 0x03;

    p_adts_header[4] = (adtsLen >> 3) & 0xFF;
    p_adts_header[5] = (adtsLen & 0x07) << 5;
    p_adts_header[5] |= 0x1F;
    p_adts_header[6] = 0xFC;

    return 0;
}
int main(int argc, char *argv[])
{
    int ret = -1;
    char errors[1024];

    char *in_filename = NULL;
    char *aac_filename = NULL;

    FILE *aac_fd = NULL;

    int audio_index = -1;
    int len = 0;


    AVFormatContext *ifmt_ctx = NULL;
    AVPacket pkt;

    // 设置打印级别
    av_log_set_level(AV_LOG_DEBUG);

    if(argc < 3)
    {
        av_log(NULL, AV_LOG_DEBUG, "the count of parameters should be more than three!\n");
        return -1;
    }

    in_filename = argv[1];      // 输入文件
    aac_filename = argv[2];     // 输出文件

    if(in_filename == NULL || aac_filename == NULL)
    {
        av_log(NULL, AV_LOG_DEBUG, "src or dts file is null, plz check them!\n");
        return -1;
    }

    aac_fd = fopen(aac_filename, "wb");
    if (!aac_fd)
    {
        av_log(NULL, AV_LOG_DEBUG, "Could not open destination file %s\n", aac_filename);
        return -1;
    }

    // 打开输入文件
    if((ret = avformat_open_input(&ifmt_ctx, in_filename, NULL, NULL)) < 0)
    {
        av_strerror(ret, errors, 1024);
        av_log(NULL, AV_LOG_DEBUG, "Could not open source file: %s, %d(%s)\n",
               in_filename,
               ret,
               errors);
        return -1;
    }

    // 获取解码器信息
    if((ret = avformat_find_stream_info(ifmt_ctx, NULL)) < 0)
    {
        av_strerror(ret, errors, 1024);
        av_log(NULL, AV_LOG_DEBUG, "failed to find stream information: %s, %d(%s)\n",
               in_filename,
               ret,
               errors);
        return -1;
    }

    // dump媒体信息
    av_dump_format(ifmt_ctx, 0, in_filename, 0);

    // 初始化packet
    av_init_packet(&pkt);

    // 查找audio对应的steam index
    audio_index = av_find_best_stream(ifmt_ctx, AVMEDIA_TYPE_AUDIO, -1, -1, NULL, 0);
    if(audio_index < 0)
    {
        av_log(NULL, AV_LOG_DEBUG, "Could not find %s stream in input file %s\n",
               av_get_media_type_string(AVMEDIA_TYPE_AUDIO),
               in_filename);
        return AVERROR(EINVAL);
    }

    // 打印AAC级别
    printf("audio profile:%d, FF_PROFILE_AAC_LOW:%d\n",
           ifmt_ctx->streams[audio_index]->codecpar->profile,
           FF_PROFILE_AAC_LOW);

    if(ifmt_ctx->streams[audio_index]->codecpar->codec_id != AV_CODEC_ID_AAC)
    {
        printf("the media file no contain AAC stream, it's codec_id is %d\n",
               ifmt_ctx->streams[audio_index]->codecpar->codec_id);
        goto failed;
    }
    // 读取媒体文件,并把aac数据帧写入到本地文件
    while(av_read_frame(ifmt_ctx, &pkt) >=0 )
    {
        if(pkt.stream_index == audio_index)
        {
            char adts_header_buf[7] = {0};
            adts_header(adts_header_buf, pkt.size,
                        1,
                        ifmt_ctx->streams[audio_index]->codecpar->sample_rate /2 ,
                        ifmt_ctx->streams[audio_index]->codecpar->channels);
            fwrite(adts_header_buf, 1, 7, aac_fd);  // 写adts header , ts流不适用,ts流分离出来的packet带了adts header
            len = fwrite( pkt.data, 1, pkt.size, aac_fd);   // 写adts data
            if(len != pkt.size)
            {
                av_log(NULL, AV_LOG_DEBUG, "warning, length of writed data isn't equal pkt.size(%d, %d)\n",
                       len,
                       pkt.size);
            }
        }
        av_packet_unref(&pkt);
    }

failed:
    // 关闭输入文件
    if(ifmt_ctx)
    {
        avformat_close_input(&ifmt_ctx);
    }
    if(aac_fd)
    {
        fclose(aac_fd);
    }

    return 0;
}

profile字段错误

HE-AAC(AAC LC + SBR)的Profile值在ADTS头中应设为1(对应AAC LC的Object Type减1),而非直接使用HE-AAC的Profile值(FF_PROFILE_AAC_HE为5)。直接使用导致高位溢出,字段无效。

采样率索引未调整

HE-AAC使用SBR技术时,实际采样率为ADTS头中采样率的两倍。例如,48kHz音频在ADTS头中应使用24kHz的索引(索引6),但代码未进行此调整。

更多资料: https://github.com/0voice

相关推荐
新知图书43 分钟前
音频特征工具Librosa包的使用
音视频·mamba
清水迎朝阳3 小时前
火山RTC 6 自定义视频
音视频·实时音视频·火山rtc·自定义视频
天上路人9 小时前
采用AI神经网络降噪算法的语言降噪消回音处理芯片NR2049-P
深度学习·神经网络·算法·硬件架构·音视频·实时音视频·可用性测试
清月电子11 小时前
KT148A语音芯片发码很难播放_将4脚对地一下再发正常,什么原因?
单片机·嵌入式硬件·物联网·音视频
路溪非溪18 小时前
关于ffmpeg的简介和使用总结
ffmpeg
gushansanren18 小时前
基于WSL用MSVC编译ffmpeg7.1
windows·ffmpeg
科技小E19 小时前
WebRTC实时音视频通话技术EasyRTC嵌入式音视频通信SDK,助力智慧物流打造实时高效的物流管理体系
人工智能·音视频
Icoolkj1 天前
可灵 AI:开启 AI 视频创作新时代
人工智能·音视频
SuperW1 天前
视频编码原理讲解一:VCL层和NAL层的讲解
音视频
Panesle2 天前
HunyuanCustom:文生视频框架论文速读
人工智能·算法·音视频·文生视频