C及C++的音频库与视频库介绍

在 C/C++ 开发中，处理音频和视频需要依赖专业的库来实现编解码、播放、录制、处理等功能。

一.音频库（C/C++）

1.FFmpeg（音频 + 视频全能库）

功能：

支持几乎所有音频 / 视频格式的编解码（如 MP3、AAC、WAV、FLAC、H.264、VP9 等）。

提供音频重采样、混音、降噪、格式转换等处理功能。

支持流媒体协议（如 RTMP、HTTP）和直播处理。

特点：

跨平台（Windows/macOS/Linux），开源（LGPL/GPL 协议）。

功能极其强大，但 API 复杂，学习门槛较高。

用途：

多媒体播放器（如 VLC）、视频编辑软件、直播平台、音视频服务器等。

官网：https://ffmpeg.org

2.libsndfile

功能：

专注于音频文件的读写，支持多种格式（WAV、FLAC、OGG、AIFF 等）。

提供音频数据的基本操作（如读取采样点、调整音量等）。

特点：

轻量级，接口简洁，适合快速读取音频数据。

开源（LGPL 协议），跨平台。

用途：

音频数据分析、音频处理工具、教育类音频项目等。

官网：http://www.mega-nerd.com/libsndfile

3.PortAudio

功能：

跨平台音频 I/O 库，支持录音和播放（低延迟实时处理）。

提供统一的 API 访问不同平台的音频设备（如麦克风、扬声器）。

特点：

专注于实时音频，支持多通道、多设备管理。

开源（MIT 协议），适合实时音频应用（如语音识别、音频监控）。

用途：

实时音频处理（如音频效果器、语音聊天软件）、音频采集工具。

官网：http://portaudio.com

4.SoundTouch

功能：

音频时间拉伸和音高调整（变调不变速，或变速不变调）。

支持 WAV、MP3 等格式的处理。

特点：

算法高效，音质较好，适合音乐处理。

开源（LGPL 协议），C++ 实现，可集成到 C 项目中。

用途：

音乐编辑软件、音频特效开发、游戏音效调整。

官网：https://www.surina.net/soundtouch

5.SDL2_mixer（基于 SDL2）

功能：

简单音频播放库，支持多种格式（MP3、WAV、OGG 等）。

提供基本的音效控制（音量、循环播放、3D 音效等）。

特点：

轻量级，适合游戏或简单多媒体项目。

依赖 SDL2 库，跨平台（Windows/macOS/Linux/ 移动端）。

用途：

游戏开发中的音效管理、简易音频播放器。

官网：https://www.libsdl.org/projects/SDL_mixer

6.SoX（Sound eXchange）

定位：命令行音频处理工具，支持格式转换、效果处理（均衡器、混响、变速）。

特点：轻量高效，适合脚本化批量处理，如音频数据集预处理。

示例：调整音量并转换格式：sox input.wav output.mp3 gain -6。

二.视频库（C/C++）

1.FFmpeg（同上，视频核心库）

功能：

视频编解码（H.264、H.265、VP8/VP9、AV1 等）、格式转换、视频剪辑、滤镜处理（如缩放、旋转、水印）。

特点：

包含 libavcodec（编解码核心）、libavformat（格式处理）、libavfilter（滤镜）等模块。

需配合其他库（如 SDL、Qt）实现播放界面。

用途：

视频播放器、视频编辑器、转码工具、流媒体服务器。

2.OpenCV（计算机视觉库，含视频处理）

功能：

视频帧读取、处理（如目标检测、图像分割、特征提取）。

支持摄像头实时捕获和视频文件解析。

特点：

专注于计算机视觉，提供丰富的图像处理算法。

跨平台，开源（BSD 协议），社区活跃。

用途：

视频分析（如安防监控、自动驾驶）、计算机视觉研究、视频特效开发。

官网：https://opencv.org

3.libvpx（VP8/VP9 编解码）

功能：

实现 VP8 和 VP9 视频编码标准（高效压缩，适合网络传输）。

是 WebM 格式的核心库之一。

特点：

开源（BSD 协议），由 Google 维护，适合高清视频流（如 YouTube）。

可配合 FFmpeg 使用，或独立集成到项目中。

用途：

视频流媒体、视频会议软件（如 WebRTC）、高清视频存储。

官网：https://www.webmproject.org/code

4.libavif（AVIF 图像 / 视频编码）

功能：

实现 AVIF（AV1 图像格式）编解码，支持高压缩比的静态图像和视频帧。

特点：

基于 AV1 标准，压缩效率优于 JPEG、PNG、WebP。

适合需要高质量、低码率的场景（如网页图片、视频缩略图）。

用途：

图像和视频帧的高效存储与传输。

官网：https://libavif.org

5.Qt Multimedia（基于 Qt 框架）

功能：

提供高层 API 实现视频播放、录制、编解码（依赖 FFmpeg 或系统原生组件）。

支持跨平台的视频界面开发（如窗口、控件）。

特点：

集成 Qt 界面框架，适合快速开发带 GUI 的视频应用。

开源（LGPL 协议），商业友好。

用途：

跨平台视频播放器、教育类视频软件、企业级多媒体工具。

官网：https://doc.qt.io/qt-6/qtmultimedia-module.html

6.GStreamer

定位：基于插件架构的开源多媒体框架，通过 "管道"（Pipeline）模型处理数据流。

特点：

模块化设计，支持动态插件加载（如编解码、特效、流媒体协议）。

适合构建复杂的多媒体处理流程，如实时视频分析、多源混音。

应用场景：视频会议系统（Jami）、车载多媒体（Android Automotive）、工业视觉检测。

三.流媒体与实时通信

1. WebRTC（Web Real-Time Communication）

定位：浏览器原生支持的实时通信框架，实现音视频直播、视频通话、P2P 传输。

核心技术：

支持 H.264、VP8/VP9 视频编码，Opus 音频编码。

集成 NAT 穿透（STUN/TURN）、带宽自适应、前向纠错（FEC）。

特点：纯前端实现，无需插件，适合 Web 端实时应用。

应用场景：视频会议（Zoom、Google Meet）、直播连麦、在线教育平台。

2. Live555

定位：C++ 编写的开源流媒体框架，支持 RTSP/RTP/RTCP 协议。

特点：轻量高效，适合构建 RTSP 服务器或客户端，但学习曲线较陡。

应用场景：安防监控（摄像头 RTSP 流接入）、工业设备数据传输。

四.RTSP服务器构建

1.Live555

特点：

历史悠久、应用广泛的开源流媒体框架，支持 RTSP/RTP/RTCP 协议。

纯 C++ 实现，提供完整的服务器和客户端组件。

支持多种音视频编码（H.264、H.265、AAC 等）和传输模式（UDP、TCP、组播）。

优势：

轻量级，适合资源受限的嵌入式设备（如 IP 摄像头）。

社区活跃，文档丰富，有大量示例代码。

劣势：

API 设计复杂，学习曲线陡峭。

缺乏现代 C++ 特性（如多线程、异步 I/O），需手动管理内存。

应用场景：

IP 摄像头、视频监控系统、嵌入式流媒体设备。

官网：http://www.live555.com

2.GStreamer

特点：

基于插件的多媒体框架，通过gstrtspserver插件实现 RTSP 服务器功能。

支持动态构建媒体管道（如：摄像头 → 编码 → RTSP 流）。

优势：

与 GStreamer 生态无缝集成，可快速搭建复杂流媒体处理链。

支持硬件加速（如 NVIDIA、Intel 编解码器）。

劣势：

依赖 GStreamer 庞大的库，不适合极简部署。

性能略低于直接使用 Live555（因中间层开销）。

应用场景：

多媒体服务器、直播平台、视频会议系统。

官网：https://gstreamer.freedesktop.org

3.libVLC (基于 VLC)

特点：

VLC 媒体播放器的后端库，支持 RTSP 服务器功能。

通过简单 API 实现媒体流发布。

优势：

开箱即用，支持几乎所有音视频格式。

跨平台（Windows/macOS/Linux/ 嵌入式）。

劣势：

库体积庞大（约 100MB），不适合轻量级应用。

定制化能力有限，难以深入控制底层协议。

应用场景：

快速原型开发、桌面端流媒体服务器。

官网：https://www.videolan.org/vlc/libvlc.html

五.RTSP客户端构建

1.Live555（同上）

特点：

提供 RTSP 客户端实现，支持连接 RTSP 服务器并接收音视频流。

优势：

底层协议实现完整，支持 RTP 包解析和音视频同步。

劣势：

需手动处理音视频解码和渲染，开发复杂度高。

2.FFmpeg

特点：

通过libavformat和libavcodec支持 RTSP 客户端功能。

可直接解码 RTSP 流并输出原始音视频帧。

优势：

与 FFmpeg 生态无缝集成，可快速实现转码、录制等功能。

支持硬件加速解码（如 NVIDIA CUDA、Intel QSV）。

劣势：

对 RTSP 协议细节控制较弱（如难自定义 RTSP 信令流程）。

应用场景：

RTSP 流接收、转码（如推送到 RTMP 服务器）、录制。

3.GStreamer（同上）

特点：

通过gst-rtsp-client插件实现 RTSP 客户端功能。

支持构建接收 → 解码 → 渲染的完整管道。

优势：

事件驱动模型，适合实时处理（如视频会议）。

支持动态切换媒体源和码率。

劣势：

依赖较多，部署复杂度高。