【音视频】AAC-ADTS分析

AAC-ADTS 格式分析

AAC⾳频格式 ：Advanced Audio Coding(⾼级⾳频解码)，是⼀种由MPEG-4标准定义的有损⾳频压缩格式，由Fraunhofer发展，Dolby, Sony和AT&T是主

要的贡献者。

ADIF：Audio Data Interchange Format ⾳频数据交换格式。这种格式的特征是可以确定的找到这个⾳频数据的开始，不需进⾏在⾳频数据流中间开始

的解码，即它的解码必须在明确定义的开始处进⾏。故这种格式常⽤在磁盘⽂件中。
ADTS的全称是Audio Data Transport Stream。是AAC⾳频的传输流格式。AAC⾳频格式在MPEG-2（ISO-13318-7 2003）中有定义。AAC后来

⼜被采⽤到MPEG-4标准中。这种格式的特征是它是⼀个有同步字的⽐特流，解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。

简单说，ADTS可以在任意帧解码，也就是说它每⼀帧都有头信息。ADIF只有⼀个统⼀的头，所以必须得到所有的数据后解码且这两种的header的格式也是不同的，⽬前⼀般编码后的和抽取出的都是ADTS格式的⾳频流。两者具体的组织结构如下所示：

AAC的ADIF格式⻅下图：

AAC的ADTS的⼀般格式⻅下图：

有的时候当你编码AAC裸流的时候，会遇到写出来的AAC⽂件并不能在PC和⼿机上播放，很⼤的可能就是AAC⽂件的每⼀帧⾥缺少了ADTS头信息⽂件的包装拼接。
只需要加⼊头⽂件ADTS即可。⼀个AAC原始数据块⻓度是可变的，对原始帧加上ADTS头进⾏ADTS的封装，就形成了ADTS帧。
AAC⾳频⽂件的每⼀帧由ADTS Header和AAC Audio Data组成。结构体如下：

每⼀帧的ADTS的头⽂件都包含了⾳频的采样率，声道，帧⻓度等信息，这样解码器才能解析读取。⼀般情况下ADTS的头信息都是7个字节，分为2部分：

adts_fixed_header();
adts_variable_header()

其⼀为固定头信息，紧接着是可变头信息。固定头信息中的数据每⼀帧都相同，⽽可变头信息则在帧与帧之间可变。

固定头信息

syncword ：同步头总是0xFFF, all bits must be 1，代表着⼀个ADTS帧的开始
ID：MPEG标识符，0标识MPEG-4，1标识MPEG-2
Layer：always: '00'
protection_absent：表示是否误码校验。Warning, set to 1 if there is noCRC and 0 if there is CRC
profile：表示使⽤哪个级别的AAC，如01 Low Complexity(LC)--- AACLC。有些芯⽚只⽀持AAC LC 。

sampling_frequency_index：表示使⽤的采样率下标，通过这个下标在SamplingFrequencies[]数组中查找得知采样率的值。

在MPEG-2 AAC中定义了3种：

profile的值等于 Audio Object Type的值减1
profile = MPEG-4 Audio Object Type - 1

channel_configuration: 表示声道数，⽐如2表示⽴体声双声道

声道数的定义如下

0: Defined in AOT Specifc Config
1: 1 channel: front-center
2: 2 channels: front-left, front-right
3: 3 channels: front-center, front-left, front-right
4: 4 channels: front-center, front-left, front-right, back-center
5: 5 channels: front-center, front-left, front-right, back-left, back-right
6: 6 channels: front-center, front-left, front-right, back-left, back-right, LFE-channel
7: 8 channels: front-center, front-left, front-right, side-left, side-right,back-left, back-right, LFE-channel
8-15: Reserved

接下来看下adts_variable_header();

可变头信息

frame_length : ⼀个ADTS帧的⻓度包括ADTS头和AAC原始流.
frame length, this value must include 7 or 9 bytes of header length:aac_frame_length = (protection_absent == 1 ? 7 : 9) + size(AACFrame)
protection_absent=0时, header length=9bytes
protection_absent=1时, header length=7bytes
adts_buffer_fullness：0x7FF 说明是码率可变的码流。
number_of_raw_data_blocks_in_frame：表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧。
所以说number_of_raw_data_blocks_in_frame == 0 表示说ADTS帧中有⼀个AAC数据块。

下⾯是ADTS的AAC⽂件部分：

⾼字节开始算

第⼀帧的帧头7个字节为：0xFF 0xF1 0x4C 0x40 0x20 0xFF 0xFC

实现流程

准备文件，准备音频格式在MPEG-2支持的3种AAC格式的mp4和flv，这里不使用ts是因为它的aac流自带ADTS头部信息。

这三种都支持

Main Profile
LC
SSR

将文件放入build路径下，通过main参数传递进来

创建一个输出文件，以二进制写的方式打开，用于写入转换后的ADTS文件

c 复制代码

	char *in_filename = NULL;
    char *aac_filename = NULL;

    FILE *aac_fd = NULL;
	av_log_set_level(AV_LOG_DEBUG);

    if(argc < 3)
    {
        av_log(NULL, AV_LOG_DEBUG, "the count of parameters should be more than three!\n");
        return -1;
    }

    in_filename = argv[1];      // 输入文件
    aac_filename = argv[2];     // 输出文件

    if(in_filename == NULL || aac_filename == NULL)
    {
        av_log(NULL, AV_LOG_DEBUG, "src or dts file is null, plz check them!\n");
        return -1;
    }

    aac_fd = fopen(aac_filename, "wb");
    if (!aac_fd)
    {
        av_log(NULL, AV_LOG_DEBUG, "Could not open destination file %s\n", aac_filename);
        return -1;
    }

文件解封装

将文件解封装，无论是mp4还是flv，找出对应的音频流，读取音频流数据

c 复制代码

AVFormatContext *ifmt_ctx = NULL;
 // 打开输入文件
    if((ret = avformat_open_input(&ifmt_ctx, in_filename, NULL, NULL)) < 0)
    {
        av_strerror(ret, errors, 1024);
        av_log(NULL, AV_LOG_DEBUG, "Could not open source file: %s, %d(%s)\n",
               in_filename,
               ret,
               errors);
        return -1;
    }

    // 获取解码器信息
    if((ret = avformat_find_stream_info(ifmt_ctx, NULL)) < 0)
    {
        av_strerror(ret, errors, 1024);
        av_log(NULL, AV_LOG_DEBUG, "failed to find stream information: %s, %d(%s)\n",
               in_filename,
               ret,
               errors);
        return -1;
    }

    // dump媒体信息
    av_dump_format(ifmt_ctx, 0, in_filename, 0);

    // 初始化packet
    av_init_packet(&pkt);

    // 查找audio对应的steam index
    audio_index = av_find_best_stream(ifmt_ctx, AVMEDIA_TYPE_AUDIO, -1, -1, NULL, 0);
    if(audio_index < 0)
    {
        av_log(NULL, AV_LOG_DEBUG, "Could not find %s stream in input file %s\n",
               av_get_media_type_string(AVMEDIA_TYPE_AUDIO),
               in_filename);
        return AVERROR(EINVAL);
    }

我们查看一下当前的AAC类型的profile，因为我们只支持三种：

c 复制代码

 printf("audio profile:%d, FF_PROFILE_AAC_LOW:%d\n",
           ifmt_ctx->streams[audio_index]->codecpar->profile,
           FF_PROFILE_AAC_LOW);

如果音频格式对应支持的AAC，那么我们就可以进行循环读取音频包数据

读取音频包数据，获得对应的profile、sample_rate以及channel
传入包的数据大小
ADTS一般是7字节，因此用一个7字节的char数组接收（一个char占1字节）
写入头部后，将头部信息写入文件
写入数据包信息
释放数据包内存

c 复制代码

 if(pkt.stream_index == audio_index)
        {
            char adts_header_buf[7] = {0};
            adts_header(adts_header_buf, pkt.size,
                        ifmt_ctx->streams[audio_index]->codecpar->profile,
                        ifmt_ctx->streams[audio_index]->codecpar->sample_rate,
                        ifmt_ctx->streams[audio_index]->codecpar->channels);
            fwrite(adts_header_buf, 1, 7, aac_fd);  // 写adts header , ts流不适用，ts流分离出来的packet带了adts header
            len = fwrite( pkt.data, 1, pkt.size, aac_fd);   // 写adts data
            if(len != pkt.size)
            {
                av_log(NULL, AV_LOG_DEBUG, "warning、
                , length of writed data isn't equal pkt.size(%d, %d)\n",
                       len,
                       pkt.size);
            }
        }
        av_packet_unref(&pkt);

`ADTS`格式详解

准备采样率表

这个是固定的，与协议对应

c 复制代码

const int sampling_frequencies[] = {
    96000,  // 0x0
    88200,  // 0x1
    64000,  // 0x2
    48000,  // 0x3
    44100,  // 0x4
    32000,  // 0x5
    24000,  // 0x6
    22050,  // 0x7
    16000,  // 0x8
    12000,  // 0x9
    11025,  // 0xa
    8000   // 0xb
    // 0xc d e f是保留的
};

我们这里直接使用48000采样率即可

c 复制代码

int sampling_frequency_index = 3; // 默认使用48000hz

写入固定头信息

同步头(12bit)，始终为0xfff

c 复制代码

p_adts_header[0] = 0xff;         //syncword:0xfff                          高8bits
p_adts_header[1] = 0xf0;         //syncword:0xfff                          低4bits

版本号(1bit)，如果使用的是MPEG-2为0，MPEG-4为1

c 复制代码

p_adts_header[1] |= (0 << 3);    //MPEG Version:0 for MPEG-4,1 for MPEG-2  1bit

layer(2bit)，永远是0

c 复制代码

p_adts_header[1] |= (0 << 1);    //Layer:0

校验位(protection_absent)，0表示有校验，1表示无校验(1bit)

c 复制代码

p_adts_header[1] |= 1;           //protection absent:1                     1bit

profile(2bit)，ffmpeg参考的是MPEG-2，因此这里使用它的枚举值即可

c 复制代码

p_adts_header[2] = (profile)<<6;            //profile:profile               2bits

采样率索引，需要转为16进制(2bit)

c 复制代码

p_adts_header[2] |= (sampling_frequency_index & 0x0f)<< 2; //sampling frequency index:sampling_frequency_index  4bits

private_bit，固定为0(1bit)

c 复制代码

p_adts_header[2] |= (0 << 1);             //private bit:0                   1bit

声道布局，需要转换为16进制(3bit)

c 复制代码

p_adts_header[2] |= (channels & 0x04)>>2; //channel configuration:channels  高1bit
p_adts_header[3] = (channels & 0x03)<<6; //channel configuration:channels 低2bits

original_copy，固定为0(1bit)

c 复制代码

p_adts_header[3] |= (0 << 5);               //original：0                1bit

home，固定为0(1bit)

c 复制代码

p_adts_header[3] |= (0 << 4);               //home：0                    1bit

写入可变头

copyright_identification_bit，固定为0（1bit）

c 复制代码

p_adts_header[3] |= (0 << 3);               //copyright id bit：0        1bit

copyright_identify_start，固定为0（1bit）

c 复制代码

p_adts_header[3] |= (0 << 2);               //copyright id start：0      1bit

aac_frame_length，aac数据帧的长度（13bit），通过下面的方式获取：

如果protection_absent校验位为1，那么aac_frame_length = 7 + sizeof(aac_frame)
如果protection_absent校验位为0，那么aac_frame_length = 9 + sizeof(aac_frame)

前面设置了校验位为1，因此：

c 复制代码

int adtsLen = data_length + 7;
p_adts_header[3] |= ((adtsLen & 0x1800) >> 11);           //frame length：value   高2bits
p_adts_header[4] = (uint8_t)((adtsLen & 0x7f8) >> 3);     //frame length:value    中间8bits
p_adts_header[5] = (uint8_t)((adtsLen & 0x7) << 5);       //frame length:value    低3bits

adts_buffer_fullness（11bit），设置为0x7ff表示为可变码流

c 复制代码

p_adts_header[5] |= 0x1f;        //buffer fullness:0x7ff 高5bits
p_adts_header[6] = 0xfc;         //buffer fullness:0x7ff 低6bits

number_of_raw_data_blocks_in_frame（2bit），意义如下：

表示ADTS帧中有number_of_raw_data_blocks_in_frame+ 1个AAC原始帧。
因此我们设置number_of_raw_data_blocks_in_frame = 0 表示说ADTS帧中有⼀个AAC数据块。

c 复制代码

p_adts_header[6] |= 0 << 2;         //buffer fullness:0x7ff 低6bits

写入的函数如下所示：

c 复制代码

#define ADTS_HEADER_LEN  7;

const int sampling_frequencies[] = {
    96000,  // 0x0
    88200,  // 0x1
    64000,  // 0x2
    48000,  // 0x3
    44100,  // 0x4
    32000,  // 0x5
    24000,  // 0x6
    22050,  // 0x7
    16000,  // 0x8
    12000,  // 0x9
    11025,  // 0xa
    8000   // 0xb
    // 0xc d e f是保留的
};

int adts_header(char * const p_adts_header, const int data_length,
                const int profile, const int samplerate,
                const int channels)
{

    int sampling_frequency_index = 3; // 默认使用48000hz
    int adtsLen = data_length + ADTS_HEADER_LEN;

    int frequencies_size = sizeof(sampling_frequencies) / sizeof(sampling_frequencies[0]);
    int i = 0;
    for(i = 0; i < frequencies_size; i++)
    {
        if(sampling_frequencies[i] == samplerate)
        {
            sampling_frequency_index = i;
            break;
        }
    }
    if(i >= frequencies_size)
    {
        printf("unsupport samplerate:%d\n", samplerate);
        return -1;
    }

    p_adts_header[0] = 0xff;         //syncword:0xfff                          高8bits
    p_adts_header[1] = 0xf0;         //syncword:0xfff                          低4bits
    p_adts_header[1] |= (0 << 3);    //MPEG Version:0 for MPEG-4,1 for MPEG-2  1bit
    p_adts_header[1] |= (0 << 1);    //Layer:0                                 2bits
    p_adts_header[1] |= 1;           //protection absent:1                     1bit

    p_adts_header[2] = (profile)<<6;            //profile:profile               2bits
    p_adts_header[2] |= (sampling_frequency_index & 0x0f)<< 2; //sampling frequency index:sampling_frequency_index  4bits
    p_adts_header[2] |= (0 << 1);             //private bit:0                   1bit
    p_adts_header[2] |= (channels & 0x04)>>2; //channel configuration:channels  高1bit

    p_adts_header[3] = (channels & 0x03)<<6; //channel configuration:channels 低2bits
    p_adts_header[3] |= (0 << 5);               //original：0                1bit
    p_adts_header[3] |= (0 << 4);               //home：0                    1bit



    p_adts_header[3] |= (0 << 3);               //copyright id bit：0        1bit
    p_adts_header[3] |= (0 << 2);               //copyright id start：0      1bit
    p_adts_header[3] |= ((adtsLen & 0x1800) >> 11);           //frame length：value   高2bits

    p_adts_header[4] = (uint8_t)((adtsLen & 0x7f8) >> 3);     //frame length:value    中间8bits
    p_adts_header[5] = (uint8_t)((adtsLen & 0x7) << 5);       //frame length:value    低3bits
    p_adts_header[5] |= 0x1f;                                 //buffer fullness:0x7ff 高5bits
    p_adts_header[6] = 0xfc;      //11111100 共八位       //buffer fullness:0x7ff 低6bits

    // p_adts_header[6] |= 0 << 2;     // number_of_raw_data_blocks_in_frame：
    //    表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧。

    return 0;
}

释放内存

最后还是要释放内存，关闭文件

c 复制代码

 // 关闭输入文件
if(ifmt_ctx)
{
	avformat_close_input(&ifmt_ctx);
}
if(aac_fd)
{
	fclose(aac_fd);
}

`HE-AAC`需要调整

c 复制代码

#include <stdio.h>
#include <libavutil/log.h>
#include <libavformat/avio.h>
#include <libavformat/avformat.h>

#define ADTS_HEADER_LEN  7;

const int sampling_frequencies[] = {
    96000,  // 0x0
    88200,  // 0x1
    64000,  // 0x2
    48000,  // 0x3
    44100,  // 0x4
    32000,  // 0x5
    24000,  // 0x6
    22050,  // 0x7
    16000,  // 0x8
    12000,  // 0x9
    11025,  // 0xa
    8000   // 0xb
    // 0xc d e f是保留的
};

int adts_header(char * const p_adts_header, const int data_length,
                const int profile, const int samplerate,
                const int channels) {
    int sampling_frequency_index = 3;
    int adtsLen = data_length + 7; // 修正宏定义问题

    // 查找采样率索引
    for (int i = 0; i < sizeof(sampling_frequencies)/sizeof(int); i++) {
        if (sampling_frequencies[i] == samplerate) {
            sampling_frequency_index = i;
            break;
        }
    }

    // 设置ADTS头各字段
    p_adts_header[0] = 0xFF;
    p_adts_header[1] = 0xF0;
    p_adts_header[1] |= 0x01; // protection_absent

    // Profile设置为传入值（需外部处理HE-AAC情况）
    p_adts_header[2] = (profile & 0x03) << 6;
    p_adts_header[2] |= (sampling_frequency_index & 0x0F) << 2;
    p_adts_header[2] |= (channels >> 3) & 0x01; // 通道高1位

    p_adts_header[3] = (channels & 0x07) << 5; // 通道低3位
    p_adts_header[3] |= (adtsLen >> 11) & 0x03;

    p_adts_header[4] = (adtsLen >> 3) & 0xFF;
    p_adts_header[5] = (adtsLen & 0x07) << 5;
    p_adts_header[5] |= 0x1F;
    p_adts_header[6] = 0xFC;

    return 0;
}
int main(int argc, char *argv[])
{
    int ret = -1;
    char errors[1024];

    char *in_filename = NULL;
    char *aac_filename = NULL;

    FILE *aac_fd = NULL;

    int audio_index = -1;
    int len = 0;


    AVFormatContext *ifmt_ctx = NULL;
    AVPacket pkt;

    // 设置打印级别
    av_log_set_level(AV_LOG_DEBUG);

    if(argc < 3)
    {
        av_log(NULL, AV_LOG_DEBUG, "the count of parameters should be more than three!\n");
        return -1;
    }

    in_filename = argv[1];      // 输入文件
    aac_filename = argv[2];     // 输出文件

    if(in_filename == NULL || aac_filename == NULL)
    {
        av_log(NULL, AV_LOG_DEBUG, "src or dts file is null, plz check them!\n");
        return -1;
    }

    aac_fd = fopen(aac_filename, "wb");
    if (!aac_fd)
    {
        av_log(NULL, AV_LOG_DEBUG, "Could not open destination file %s\n", aac_filename);
        return -1;
    }

    // 打开输入文件
    if((ret = avformat_open_input(&ifmt_ctx, in_filename, NULL, NULL)) < 0)
    {
        av_strerror(ret, errors, 1024);
        av_log(NULL, AV_LOG_DEBUG, "Could not open source file: %s, %d(%s)\n",
               in_filename,
               ret,
               errors);
        return -1;
    }

    // 获取解码器信息
    if((ret = avformat_find_stream_info(ifmt_ctx, NULL)) < 0)
    {
        av_strerror(ret, errors, 1024);
        av_log(NULL, AV_LOG_DEBUG, "failed to find stream information: %s, %d(%s)\n",
               in_filename,
               ret,
               errors);
        return -1;
    }

    // dump媒体信息
    av_dump_format(ifmt_ctx, 0, in_filename, 0);

    // 初始化packet
    av_init_packet(&pkt);

    // 查找audio对应的steam index
    audio_index = av_find_best_stream(ifmt_ctx, AVMEDIA_TYPE_AUDIO, -1, -1, NULL, 0);
    if(audio_index < 0)
    {
        av_log(NULL, AV_LOG_DEBUG, "Could not find %s stream in input file %s\n",
               av_get_media_type_string(AVMEDIA_TYPE_AUDIO),
               in_filename);
        return AVERROR(EINVAL);
    }

    // 打印AAC级别
    printf("audio profile:%d, FF_PROFILE_AAC_LOW:%d\n",
           ifmt_ctx->streams[audio_index]->codecpar->profile,
           FF_PROFILE_AAC_LOW);

    if(ifmt_ctx->streams[audio_index]->codecpar->codec_id != AV_CODEC_ID_AAC)
    {
        printf("the media file no contain AAC stream, it's codec_id is %d\n",
               ifmt_ctx->streams[audio_index]->codecpar->codec_id);
        goto failed;
    }
    // 读取媒体文件，并把aac数据帧写入到本地文件
    while(av_read_frame(ifmt_ctx, &pkt) >=0 )
    {
        if(pkt.stream_index == audio_index)
        {
            char adts_header_buf[7] = {0};
            adts_header(adts_header_buf, pkt.size,
                        1,
                        ifmt_ctx->streams[audio_index]->codecpar->sample_rate /2 ,
                        ifmt_ctx->streams[audio_index]->codecpar->channels);
            fwrite(adts_header_buf, 1, 7, aac_fd);  // 写adts header , ts流不适用，ts流分离出来的packet带了adts header
            len = fwrite( pkt.data, 1, pkt.size, aac_fd);   // 写adts data
            if(len != pkt.size)
            {
                av_log(NULL, AV_LOG_DEBUG, "warning, length of writed data isn't equal pkt.size(%d, %d)\n",
                       len,
                       pkt.size);
            }
        }
        av_packet_unref(&pkt);
    }

failed:
    // 关闭输入文件
    if(ifmt_ctx)
    {
        avformat_close_input(&ifmt_ctx);
    }
    if(aac_fd)
    {
        fclose(aac_fd);
    }

    return 0;
}

profile字段错误

HE-AAC（AAC LC + SBR）的Profile值在ADTS头中应设为1（对应AAC LC的Object Type减1），而非直接使用HE-AAC的Profile值（FF_PROFILE_AAC_HE为5）。直接使用导致高位溢出，字段无效。

采样率索引未调整

HE-AAC使用SBR技术时，实际采样率为ADTS头中采样率的两倍。例如，48kHz音频在ADTS头中应使用24kHz的索引（索引6），但代码未进行此调整。

更多资料： https://github.com/0voice

【音视频】AAC-ADTS分析

AAC-ADTS 格式分析

实现流程

文件解封装

ADTS格式详解

准备采样率表

写入固定头信息

写入可变头

释放内存

HE-AAC需要调整

`ADTS`格式详解

`HE-AAC`需要调整