音视频小白系统入门笔记-1

本系列笔记为博主学习李超老师课程的课堂笔记,仅供参阅

课程传送门:音视频小白系统入门课 音视频基础+ffmpeg原理

往期课程笔记传送门:音视频小白系统入门笔记-0

课程实践代码仓库:传送门

音频采集

命令行采集

Android端音频采集:AudioRecord(底层)/ MediaRecorder(上层封装成媒体格式)

iOS端音频采集:AudioUnit(底层,复杂)/ AVFoundation /

Windows端音频采集:AudioCore /

ffmpeg对不同操作系统API进行了封装,类似Qt对不同操作系统的GUI进行了封装

ffmpeg -f avfoundation -i :0 out.wav

  • -f表示使用的API,avfoundation是iOS上的API,其他系统需要进行更换
  • -i参数表示输入源,:前表示视频,后面表示音频,不同系统的参数同样有些差异

ffplay out.wav

调用API采集

在Mac App中,坐标(0,0)在左下角,而不是一般GUI系统中的左上角

在Mac App的ViewController中控制组件的显示,类似于Qt的Widget,在viewDidLoad方法中添加组件

Swift的target-action机制类似于Qt的信号与槽的机制

为了在Swift中调用C函数,需要创建桥接头文件,并进行import。

为了在Swift中调用ffmpeg函数,需要引入ffmpeg的库和头文件,具体在XCode中的环境配置参考对应的教程。

ffmpeg中的库大体分为两类,av系列表示Audio-Video,进行核心音视频处理;sw系列表示Software,表示软件(硬件无关)实现的辅助功能,对音视频进行进一步算法处理。

剩下的postproc系列表示视频后处理,现在已经使用较少,因为现代编解码器内置了这块的功能。

采集音频流程:打开输入设备 → 数据包 → 输出文件

打开设备:

  • 注册设备
  • 设置采集方式 avfoundation(Mac) / dshow(Windows) / alsa(Linux)
  • 打开音频设备

注意新版XCode不会自动生成info.plist文件,导致在尝试打开麦克风时直接报错:This app has crashed because it attempted to access privacy-sensitive data without a usage description. The app's Info.plist must contain an NSMicrophoneUsageDescription key with a string value explaining to the user how the app uses this data.

需要手动添加info.plist文件,并添加对应的key:https://coding.imooc.com/learn/questiondetail/NAr196nGpENPLBEz.html

在 FFmpeg 的最新版本(尤其是 4.0+)中,av_init_packet() 和直接操作 AVPacket 结构体的方式已被标记为 废弃(deprecated),原因如下:

复制代码
1. 内存管理不安全

旧版 `AVPacket` 需要手动初始化并管理内(如 `av_init_packet()` + `av_packet_unref()`),容易导致:

- 内存泄漏:未正确调用 `av_packet_unref()`。
- 野指针:未初始化字段(如 `data`、`size`)直接使用。
2. 新 API 更安全高效

FFmpeg 引入了 `AVPacket` 的引用计数机制,推荐使用以下新函数:

- `av_packet_alloc()`:动态分配并初始化 `AVPacket`。
- `av_packet_free()`:自动处理引用计数和内存释放。
- `av_packet_ref()` / `av_packet_unref()`:安全复制或释放数据。

av_read_frame返回-35,Resource temporarily unavailable

复制代码
我认为Mac的原理应该是要读够一定大小的数据调用`av_read_frame`才会成功,否则就返回EAGAIN让再次尝试

为什么要写入二进制文件而不是普通文件?

复制代码
使用二进制模式存储文件防止系统对于字节流进行转义。保证字节级精确性,适合任何非纯文本数据或需要跨平台一致性的场景。

Mac默默认采样规格需要通过运行ffmpeg命令测试一下:ffmpeg -f avfoundation -i ":0" out.wav

通过ffplay -ar 48000 -ch_layout mono -f f32le xxx.pcm 播放

在添加通过按钮停止录制的功能时,需要在录制时创建一个单独的线程,并通过全局变量控制录制状态。课堂中老师介绍的实现存在两处竞态条件:

  1. 通过C语言实现的,控制录制状态的变量通过两个线程更改状态,应该使用互斥锁保护,或者设置为原子变量进行同步,避免race condition。
  2. ViewController中子线程试图更新UI组件状态应该通过DispatchQueue.main.async { **self**.btn.title = "停止录制" } 实现,而不是直接在子线程中更改,这种未定义的行为可能导致程序崩溃,所有对UI状态的更新都应该在主线程完成。
相关推荐
shix .2 小时前
bilibili视频总结
音视频
Blossom.1184 小时前
把 AI 推理塞进「 8 位 MCU 」——0.5 KB RAM 跑通关键词唤醒的魔幻之旅
人工智能·笔记·单片机·嵌入式硬件·深度学习·机器学习·搜索引擎
草莓熊Lotso5 小时前
《吃透 C++ 类和对象(中):const 成员函数与取地址运算符重载解析》
c语言·开发语言·c++·笔记·其他
玖別ԅ(¯﹃¯ԅ)6 小时前
PID学习笔记6-倒立摆的实现
笔记·stm32·单片机
想学全栈的菜鸟阿董7 小时前
Django5个人笔记
笔记
lovep112 小时前
音频-文本对比学习:LARGE-SCALE CONTRASTIVE LANGUAGE-AUDIO PRETRAINING论文翻译和理解
音视频·glap·音频理解·音频对比学习·laion-audio·音频检索
ZZHow102413 小时前
JavaWeb开发_Day05
java·笔记·web
饕餮争锋15 小时前
设计模式笔记_行为型_观察者模式
笔记·观察者模式·设计模式
I'm a winner16 小时前
新手入门Makefile:FPGA项目实战教程(二)
笔记·fpga开发
汤姆大聪明18 小时前
【软件设计模式】前置知识类图、七大原则(精简笔记版)
笔记·设计模式