Android音视频开发基础知识指南

好的，这是一份为你整理的Android音视频开发基础知识指南。内容从整体流程到核心概念，再到Android特有组件，力求系统清晰。

理解音视频开发，首先要建立**"流水线"（Pipeline）** 的概念。数据像水一样，从一个环节流向下一个环节。主要流程如下：

采集/生成 → 编码 → 封装 → 传输/存储 → 解封装 → 解码 → 渲染/播放

采样率（Sample Rate）：每秒采集声音的次数，单位Hz。常见44.1kHz（CD音质）、48kHz（视频常用）。
位深/采样精度（Bit Depth）：每次采样用多少位数据表示精度，常见16bit。
声道（Channel）：单声道（Mono）、双声道/立体声（Stereo）。
音频编码（压缩） ：将庞大的原始（PCM）音频数据压缩。
- AAC：最通用，音质好，效率高，是Android和iOS的"御用"编码。
- MP3：古老但流行。
- Opus：低延迟，适合实时通信。
- G.711：主要用于传统电话。

分辨率（Resolution）：视频的像素尺寸，如1920x1080。
帧率（Frame Rate， FPS）：每秒显示的图像数量，如24fps（电影感）、30fps（流畅）、60fps（非常流畅）。
码率（Bit Rate）：每秒传输的数据量，单位bps。直接影响文件大小和清晰度。
颜色格式 ：
- YUV ：视频领域最常用的颜色编码方式。将亮度（Y）和色度（UV）分离。常见格式：YUV420P、NV21（Android Camera默认输出）。
- RGB：主要用于图像显示。
视频编码（压缩） ：利用空间冗余（一帧内）和时间冗余（帧之间）进行大幅压缩。
- H.264 / AVC：目前绝对的主流，兼容性极好。
- H.265 / HEVC：同等画质下，比H.264节省约50%码率，但计算更复杂，专利问题多。
- VP9：Google开发的开源编码。
- AV1：新一代开源编码，效率比VP9和H.265更高，但编码复杂度也最高。

把编码后的视频轨、音频轨、字幕等"流"打包在一起的文件格式。它不等于编码格式！

Android系统提供了丰富的API来操作这条"流水线"。

AudioRecord：用于采集原始PCM音频数据（底层）。适合需要处理音频数据的场景，如录音、语音识别。
AudioTrack：用于播放原始PCM音频数据（底层）。适合播放解码后的音频或生成音频。
MediaPlayer ：高级播放器。能直接播放媒体文件（如MP4）或网络流，内部完成了解码、同步等工作。简单易用，但可控性差。
SoundPool：适合播放短小的音效（如游戏音效），可预加载，延迟低。
ExoPlayer ：Google官方推荐的媒体播放库。开源、高度可定制、功能强大（支持DASH， HLS， SmoothStreaming等），是现代App开发的首选。它本质上是对系统底层组件（如MediaCodec）的优秀封装。

CameraX / Camera2 API ：用于采集摄像头视频数据。CameraX是新的Jetpack组件，更简单；Camera2更强大、更复杂。
SurfaceView / TextureView ：用于显示视频画面。
- SurfaceView ：内部有独立的Surface（绘图表面），效率高，适合视频播放，但不能做动画和变形。
- TextureView：像普通View一样，可以平移、缩放、添加动画，但性能稍低于SurfaceView。
GLSurfaceView：基于OpenGL ES的View，用于高级图形和视频处理（如添加滤镜、特效）。

这是Android音视频开发中最重要、最核心的类。它提供了对系统底层编解码器（硬编/硬解）的访问。

工作模式 ：
- 异步模式（推荐） ：通过设置回调（Callback）来接收输入/输出缓冲区。
- 同步模式 ：通过dequeueInputBuffer/dequeueOutputBuffer轮询缓冲区。
流程：
1. 配置：创建MediaCodec实例，配置编码器或解码器类型（如video/avc）、分辨率、码率等参数。
2. 输入：获取一个空的输入缓冲区，填入原始数据（如YUV数据），交还给Codec。
3. 处理：Codec内部（通常是硬件）进行编码或解码。
4. 输出：从输出缓冲区获取处理后的数据（如H.264数据包或解码后的YUV/RGB数据）。
MediaFormat：用于描述媒体数据的格式信息。
MediaExtractor：用于"解封装"，从容器（如MP4）中分离出视频轨和音频轨的样本数据。
MediaMuxer：用于"封装"，将编码后的视频轨和音频轨数据打包成一个容器文件（如MP4）。

音视频同步是播放器的关键。

要完整地播放一个视频文件（如MP4），流程是： MediaExtractor (分离) → MediaCodec (解码视频和音频) → AudioTrack (播放音频) → Surface (渲染视频) + 同步逻辑。

硬编 vs 软编 ：
- 硬编/硬解 ：使用MediaCodec调用手机芯片（如GPU， DSP）的专用电路，速度快、功耗低。
- 软编/软解：使用CPU计算（如FFmpeg库），兼容性好，但功耗高、速度慢。
OpenGL ES：用于视频图像处理（滤镜、美颜、贴纸）和高效渲染。
FFmpeg ：强大的开源音视频处理库。在Android上通常以C/C++库的形式集成，可以实现MediaCodec不支持的复杂功能（如格式转换、滤镜链、软编软解）。JNI是调用它的桥梁。

入门：理解音视频基础概念（本文第一部分）。使用MediaPlayer或ExoPlayer实现一个简单的播放器。
中级：深入学习MediaCodec、MediaExtractor、MediaMuxer。尝试：
- 使用MediaCodec + AudioTrack + SurfaceView 手动实现一个简单的音视频播放器。
- 实现视频的硬编码录制（Camera -> MediaCodec编码 -> MediaMuxer封装成MP4）。
进阶：
- 学习JNI 和NDK开发。
- 编译并集成FFmpeg，实现软解、滤镜等功能。
- 学习OpenGL ES，实现视频的实时滤镜和美颜。
- 深入直播/实时通信领域，学习WebRTC （其Android底层也大量使用MediaCodec和OpenGL）。

Android音视频开发是一个从上层应用到底层硬件的完整体系。核心是理解数据流管道 和熟练运用 MediaCodec 。从使用成熟的播放器（ExoPlayer）开始，逐步深入到手动控制编解码、同步，再到引入FFmpeg和OpenGL ES处理复杂需求，是一条稳健的学习路线。