【音视频开发】Linux 平台图像处理与视频录制全流程指南 (Ingenic T41)

Linux 平台图像处理与视频录制全流程指南 (Ingenic T41)

本文档详细讲解基于 Ingenic T41 平台的图像处理与视频录制全链路技术实现。文档深度覆盖内核驱动机制、用户态 API 调用、硬件加速原理及系统级优化方案。

1. 系统整体架构

Ingenic T41 采用异构多核架构，图像处理链路涉及多个硬件加速单元。以下是数据流与控制流的整体架构：
User_Space Kernel_Space Hardware_Layer RAW Bayer NV12/YUV420 NV12 (High Res) RGB/NV12 (Low Res) H.265 Bitstream /dev/video0 Ioctl/Mmap (Get Frame) Ioctl (Resize/CSC) API Call (Inference) API Call (Encode) Application /dev/video0 /dev/ipu MXU/Magik Library Video Codec Library V4L2 Subdev Driver
(Sensor Driver) tx-isp-t41.ko
(ISP Driver) ingenic-ipu.ko
(IPU Driver) ingenic-vcodec
(VPU Driver) Userspace ISP Pipeline
(T41 On-chip) Camera Sensor
(MIPI/DVP) IPU
(Resize/CSC/OSD) VPU
(H.264/H.265 Encoder) AIE/Magik
(AI Inference) SD Card/Flash

架构核心数据流解析

采集 (Capture) : Sensor 输出 RAW Bayer 数据，经由 MIPI/DVP 接口进入 ISP (Image Signal Processor)。
处理 (Process): ISP 将 RAW 数据处理为 NV12/YUV420 格式，存入内存。
加速 (Accelerate) : IPU (Image Processing Unit) 从内存读取图像，执行缩放 (Resize)、色彩空间转换 (CSC) 或 OSD 叠加，并分发给不同消费者。
分析 (Analyze) : NPU (AIE/Magik) 获取经 IPU 预处理的小分辨率图像 (如 224x224 RGB)，执行 AI 推理。
编码 (Encode) : VPU (Video Processing Unit) 获取经 IPU 处理的高分辨率图像 (如 1080p NV12)，进行 H.265 编码。
存储 (Storage): 编码后的 H.265 码流被封装为 MP4/TS 格式写入 SD 卡。

2. Sensor 图像采集模块

2.1 数据流位置

如架构图所示，Sensor 位于 Hardware Layer 最前端，通过 MIPI/DVP 接口将原始 RAW 数据传输给片上 ISP。在 Kernel Space ，它由 V4L2 Subdev Driver 管理，并注册到 tx-isp-t41.ko 驱动框架中。

2.2 V4L2 框架深度解析

在 T41 平台，Sensor 通过 tx-isp-t41 驱动框架接入。Sensor 驱动只需实现 v4l2_subdev 接口。

2.2.1 关键数据结构

v4l2_subdev: 描述 Sensor 设备。
v4l2_mbus_framefmt : 定义 Media Bus 上的图像格式（如 MEDIA_BUS_FMT_SBGGR12_1X12）。
tx_isp_sensor_attribute: T41 特有结构，用于描述 Sensor 的时钟、复位引脚及 I2C 地址。

2.2.2 初始化流程

Probe : I2C 匹配成功，调用 sensor_probe。
Register : 调用 v4l2_i2c_subdev_init 注册 Subdev。
Link : ISP 驱动扫描 registered subdevs，建立 ISP -> Sensor 的 V4L2 链路。

2.3 Buffer 管理与 DMA (Videobuf2)

T41 使用 vb2_dma_contig 内存分配器，确保物理内存连续，便于 DMA 传输。

c 复制代码

// 用户态 Buffer 申请与映射示例
struct v4l2_requestbuffers req = {0};
req.count = 4;
req.type = V4L2_BUF_TYPE_VIDEO_CAPTURE;
req.memory = V4L2_MEMORY_MMAP; // 推荐使用 MMAP，由内核分配物理连续内存
if (ioctl(fd, VIDIOC_REQBUFS, &req) < 0) {
    perror("REQBUFS failed");
}

struct v4l2_buffer buf = {0};
buf.type = V4L2_BUF_TYPE_VIDEO_CAPTURE;
buf.memory = V4L2_MEMORY_MMAP;
buf.index = 0;
ioctl(fd, VIDIOC_QUERYBUF, &buf);

// mmap 到用户空间
void *buffer_addr = mmap(NULL, buf.length, PROT_READ | PROT_WRITE, MAP_SHARED, fd, buf.m.offset);

2.4 多路同步机制

双摄场景下，利用 T41 的 tx-isp-t41-device-double.c 驱动。

硬件同步: 若 Sensor 支持硬件触发（FSIN），将两路 Sensor 的 FSIN 引脚连接至同一 GPIO 或 PWM 输出。
软件同步 : 驱动层在 sof (Start of Frame) 中断记录时间戳。用户态比较 v4l2_buffer.timestamp，误差在 33ms (30fps) 内视为同一帧。

3. ISP 图像信号处理

3.1 数据流位置

ISP 位于架构图的核心位置，承接 Sensor 的 RAW 数据，输出 NV12/YUV420 数据到内存。它是图像质量 (IQ) 的关键环节。

3.2 ISP Pipeline 详解

T41 ISP 内部采用流水线架构，处理 Sensor 输出的 RAW 数据。主要模块及其功能如下：

BLC (Black Level Correction): 黑电平校正。扣除 Sensor 的暗电流底噪，使全黑场景下的像素值为 0。
LSC (Lens Shading Correction) : 镜头阴影校正。修复镜头中心亮、四周暗的物理特性（Vignetting）。T41 驱动支持通过 ldc_mode 开启畸变校正。
DPC (Defect Pixel Correction): 坏点校正。动态检测并修复 Sensor 上的死点或热点。
DNS (Denoise) : 降噪处理。T41 包含 2D（空域）和 3D（时域）降噪。
- 调试提示 : ir_threshold_min / ir_threshold_max 参数用于控制日夜切换，夜间模式下通常会增强降噪强度。
WDR (Wide Dynamic Range) : 宽动态处理。T41 支持 user_wdr_mode，通过多帧合成或 Tone Mapping 提升亮部和暗部细节。
Demosaic: 去马赛克。将 Bayer 格式 (RGGB) 插值为 RGB 格式。
CCM (Color Correction Matrix): 色彩校正。使用 3x3 矩阵校准色彩偏差，使其符合人眼观感。
Gamma: 伽马校正。调整图像的亮度响应曲线，增强对比度。
EE (Edge Enhancement): 边缘增强。锐化图像轮廓。
CSC (Color Space Conversion): 将 RGB 转换为 YUV (NV12) 格式，准备输出给内存。

注意 : ISP 的最终效果高度依赖于 Tuning 参数文件 (/etc/sensor/xxx-t41.bin)。内核驱动在启动时会从指定地址（如 0x3300000）加载这些二进制参数。

3.3 驱动参数调优 (Sysfs & IOCTL)

tx-isp-t41 导出了丰富的内核模块参数，位于 /sys/module/tx_isp_t41_device/parameters/。

参数名	读写	描述	推荐调试值
`ldc_mode`	RW	镜头畸变校正模式 (0:关, 1:开)	广角镜头设为 1
`ir_switch_mode`	RW	红外切换模式 (0:关, 1:开, 2:自动)	夜视场景设为 2
`ir_threshold_min`	RW	切夜视的增益/亮度阈值下限	2000
`ir_threshold_max`	RW	切日视的增益/亮度阈值上限	2500
`isp_debug_flag`	RW	开启 ISP 调试日志	1 (调试时)

3.4 动态参数控制示例

用户态程序可以监控环境亮度，动态调整 ISP 参数：

c 复制代码

// 读取当前 AE 增益
int get_ae_gain() {
    int fd = open("/proc/jz/isp/isp-ae", O_RDONLY); // 假设的 proc 节点
    // ... 解析 gain 值
}

// 写入新的日夜切换阈值
void set_ir_threshold(int min, int max) {
    char cmd[64];
    sprintf(cmd, "echo %d > /sys/module/tx_isp_t41_device/parameters/ir_threshold_min", min);
    system(cmd);
    sprintf(cmd, "echo %d > /sys/module/tx_isp_t41_device/parameters/ir_threshold_max", max);
    system(cmd);
}

4. IPU 图像处理单元 (硬件加速)

4.1 数据流位置

IPU 是数据流的分发枢纽。如架构图所示，它从内存读取 ISP 输出的图像，经过处理后，分别送往 VPU (用于编码) 和 NPU (用于 AI 识别)。这一步至关重要，因为它实现了 "一次采集，多处使用"，且通过硬件搬运减轻了 CPU 负担。

4.2 IPU 核心功能

Ingenic IPU (Image Processing Unit) 是独立的硬件模块，支持：

CSC: Color Space Conversion (NV12 -> RGBA, YUV -> RGB)。
Resize: 双线性/双三次插值缩放。
Crop: 图像裁剪。

4.3 寄存器级操作解析

根据 ingenic_regs_v13.h，关键寄存器配置如下：

IPU_CTRL: 控制启动、复位 (IPU_RUN, IPU_RESET)。
IPU_D_FMT: 设置输入输出格式（BLK_SEL 开启 Block 模式优化带宽）。
IPU_Y_ADDR / IPU_U_ADDR: 输入物理地址。
IPU_OUT_ADDR: 输出物理地址。

4.4 完整实现方案 (IOCTL)

驱动层通常封装了 IOCTL 接口，无需直接操作寄存器。

c 复制代码

struct ipu_param {
    unsigned int cmd;       // IPU_CMD_CSC | IPU_CMD_RESIZE
    unsigned int in_phys;   // 输入物理地址
    unsigned int out_phys;  // 输出物理地址
    // ... 宽高格式定义
};

// 1. 打开 IPU 设备
int ipu_fd = open("/dev/jzipu", O_RDWR);

// 2. 配置参数
struct ipu_param p;
p.cmd = IPU_CMD_CSC;
p.src_fmt = HAL_PIXEL_FORMAT_NV12;
p.dst_fmt = HAL_PIXEL_FORMAT_RGBA_8888;
p.src_w = 1920; p.src_h = 1080;
p.dst_w = 640;  p.dst_h = 360; // 缩放至模型输入大小

// 3. 触发硬件处理
ioctl(ipu_fd, IOCTL_IPU_START, &p);
// 驱动内部会等待中断 (wait_for_completion) 直到硬件处理完成

5. 本地图像识别 (NPU/AIE)

5.1 数据流位置

NPU 位于数据流的分析分支。它接收 IPU 缩放并转换格式后的图像 (如 RGB 224x224)，执行深度学习推理，输出识别结果。

5.2 T41 AIE (AI Engine)

T41 集成了 AIE (或称 Magik NNA)，专用于 CNN 加速。

工具链 : 使用 Magik Converter 将 Caffe/ONNX/TensorFlow 模型转换为 T41 专用的 .mk 模型文件。
量化: 必须进行 INT8 量化。Magik 工具链提供 Calibration 工具，需准备校准数据集。

5.3 部署流程

模型转换 : magik-transform --model resnet18.onnx --output resnet18.mk --quantize int8
预处理 : 使用 IPU 将 ISP 输出的 NV12 图像 Resize 到模型输入尺寸 (e.g., 224x224) 并转换为 RGB/BGR 平面格式。
推理: 调用 Magik Runtime API。

c 复制代码

// 伪代码示例
void *model_ctx = magik_load_model("resnet18.mk");
void *input_buf = magik_get_input_buffer(model_ctx);

// 使用 IPU 将 Camera 图像直接写入模型输入 Buffer (零拷贝)
ipu_process(cam_phys_addr, magik_get_input_phys(model_ctx));

magik_run(model_ctx); // 硬件推理

float *results = magik_get_output(model_ctx);
// 解析结果...

6. H.265 视频编码

6.1 数据流位置

VPU 位于数据流的编码分支。它直接处理高分辨率图像 (如 4K/1080p)，将其压缩为高效的 H.265 码流，为存储做准备。

6.2 编码参数详解

Profile: Main Profile (H.265)
Level: 5.0 (支持 4K)
GOP : 建议设置为帧率的倍数。I_FRAME_INTERVAL = 60 (2秒一个I帧)。
Bitrate Mode :
- CBR: 恒定码率，波动小，适合网络推流。
- VBR: 可变码率，静态场景省空间，动态场景画质好，适合本地录制。

6.3 零拷贝编码路径

为了极致性能，需打通 ISP -> IPU -> VPU 的物理内存路径。

ISP: 输出 NV12 到预留的物理内存池 (CMA)。
IPU: (可选) 如果需要加水印 (OSD)，在原处修改或拷贝到新物理页。
VPU: 接收物理地址作为输入源，直接读取内存进行编码，输出 H.265 码流。

7. 视频录制存储

7.1 数据流位置

存储模块是数据流的终点。VPU 输出的 H.265 码流在此被封装为文件 (MP4/TS) 并写入 SD 卡或 Flash。

7.2 容器格式选择

MP4 (Fragmented): fMP4。将 moov 移到前面，或者使用分片模式，每秒生成一个 Fragment，断电仅丢失最后一秒数据。
TS (MPEG-TS): 188字节包结构，天然抗损坏，最适合作为行车记录仪等易断电设备的中间格式。

7.3 异常断电保护方案

文件预分配 : fallocate(fd, 0, 0, 100 * 1024 * 1024); // 预分配 100MB
数据落盘 : 关键帧写入后，调用 fdatasync(fd) 确保数据写入物理介质。
索引修复 : 启动时扫描视频目录，检查未正常关闭的 MP4 文件，重建 moov 索引（需要 ffmpeg 或专有工具）。

文档更新时间: 2025-12-02