嵌入式 GUI 图形原理与实战：从 1bpp 位级奥秘到 RGB565 混合渲染架构

1. 引言：资源受限下的极致 UI 挑战

在嵌入式开发领域（特别是基于 Cortex-M 系列 MCU 的手持设备），工程师往往面临着**"视觉效果"与"硬件资源"**的零和博弈。

以一个 1.54 英寸、240x240 分辨率的屏幕为例，如果想要实现类似智能手机的**"动态数字浮于光晕背景"**的效果，传统的全屏刷新方案会瞬间耗尽仅有的几十 KB RAM。

本文将剥离上层 GUI 库的糖衣，深入底层，从像素格式 (BPP) 的原子结构讲起，探讨如何通过 RGB565 与 1bpp 的混合渲染架构，在低端 MCU 上榨干硬件性能，实现极具工业美感的 UI。

2. 第一部分：深度解析像素格式 (BPP) 的原子世界

BPP (Bits Per Pixel)，即每个像素点占用的二进制位数。它决定了画面的"细腻程度"和"存储代价"。让我们在微观层面拆解它们。

2.1 1bpp：二值世界的硬朗美学

1bpp (1-bit per pixel) 是计算机图形学的起点。

物理存储原理：

计算机最小的存储单位是 Byte (8 bits)。在 1bpp 格式下，这 8 个 bit 被拆分给 8 个连续的像素使用。
- 内存视图 ：[P0, P1, P2, P3, P4, P5, P6, P7]
- 逻辑状态 ：0 代表关（背景色），1 代表开（前景色）。
- 存储公式：一张 240x240 的全屏图片占用：
  $\\frac{240 \\times 240 \\text{ pixels}}{8 \\text{ bits/byte}} = 7,200 \\text{ Bytes} \\approx 7 \\text{ KB}$
  评价：极度节省空间，适合内部 Flash。
视觉缺陷：锯齿 (Aliasing)

为什么 1bpp 会有锯齿？

想象我们在方格纸上画一个圆。当圆弧穿过一个格子时，它可能覆盖了这个格子 30% 的面积，也可能覆盖 70%。

但在 1bpp 的世界里，系统必须做一个残酷的二元裁决：
- 覆盖率 < 50% $\\rightarrow$ 0 (白)
- 覆盖率 $\\ge$ 50% $\\rightarrow$ 1 (黑)
  
  这种"非黑即白"的量化误差，导致原本平滑的曲线变成了阶梯状的折线，这就是锯齿。

2.2 2bpp / 4bpp：灰度抗锯齿的"视觉欺骗"

为了消除锯齿，工程师引入了 灰度 (Grayscale) 概念。

2bpp (4级灰度)：每个像素用 2 bits 表示 (00, 01, 10, 11)。
4bpp (16级灰度)：每个像素用 4 bits 表示 (0-15)。
抗锯齿 (Anti-aliasing) 原理：

当线条穿过像素格时，我们不再强制选黑或白，而是根据覆盖面积比例填充颜色。
- 覆盖 30% $\\rightarrow$ 填充 浅灰色
- 覆盖 70% $\\rightarrow$ 填充 深灰色
人眼的漏洞 ：当像素足够小，且边缘存在灰度过渡时，人眼会自动将这些"灰阶"模糊化，大脑会将其处理为"平滑的边缘"。本质上，抗锯齿就是用模糊换取平滑。

2.3 RGB565：真彩色的直通车

位级结构：16 bit (2 Bytes) 表示一个颜色。
- R (红色): 高 5 位
- G (绿色): 中 6 位 (人眼对绿色最敏感，所以多 1 位)
- B (蓝色): 低 5 位
存储代价 ：240x240 图片占用 115.2 KB (是 1bpp 的 16 倍)。
架构优势：

绝大多数嵌入式 TFT 屏幕控制器（如 ST7789, ILI9341）的显存（GRAM）默认接受 RGB565 格式。

这意味着：Flash 中的数据 $\\rightarrow$ DMA 控制器 $\\rightarrow$ SPI 总线 $\\rightarrow$ 屏幕 GRAM，这是一条无 CPU 参与的直通高速公路。

3. 第二部分：字体技术的底层转换 (TTF & Bitmap)

在屏幕上显示数字，本质上是显示图像。我们需要理解 TTF (TrueType Font) 是如何变成 Bitmap (点阵) 的。

3.1 矢量 (Vector) 与栅格化 (Rasterization)

TTF 的本质 ：TTF 文件里存储的不是像素，而是数学公式（贝塞尔曲线）。它描述的是轮廓，例如："从坐标 (0,0) 到 (10,10) 画一条曲率 $k$ 的弧线"。
栅格化：将数学轮廓"映射"到物理像素网格的过程。

3.2 1bpp 模式下的"丢失"风险

在将 TTF 转换为 1bpp 点阵时，存在一个致命的采样问题，特别是对于小字号（<16px）或细体字。

现象：笔画断裂 (Dropout)

假设一个数字 "1" 的笔画宽度在数学上是 0.8 个像素宽。
- 如果它恰好对齐了像素格中心 $\\rightarrow$ 覆盖率 80% $\\rightarrow$ 显示 (1)。
- 如果它恰好跨在两个像素中间 $\\rightarrow$ 左右各覆盖 40% $\\rightarrow$ 均判定为 不显示 (0)。
- 结果：这个 "1" 在屏幕上就消失了，或者变成了虚线。
避坑指南：
1. 字体粗度 (Weight) ：在 1bpp 模式下，必须使用 Bold (粗体) 或 Black (黑体)。粗线条能保证覆盖率始终触发阈值。
2. 字号 (Size) ：1bpp 的最佳甜点区是 32px 以上。像素越多，采样失真越小，工业感越强。

3.3 PNG 图片转 1bpp：阈值与抖动

阈值法 (Threshold) ：设定一个亮度线（如 128）。高于变白，低于变黑。适合 UI 图标、文字，边缘干净。
抖动法 (Dithering) ：通过改变黑白点的疏密来模拟灰度。适合照片。但用于 UI 会显得"脏"且充满噪点，严禁用于数字显示。

4. 第三部分：混合渲染架构设计

目标：在 RGB565 格式的复杂光晕背景 上，显示 1bpp 格式的动态数字，且不使用全屏 Framebuffer。

4.1 为什么不能直接画？

如果先画背景，再用打点函数画 1bpp 数字：
- CPU 频繁切换 SPI 总线进行写操作，效率极低，肉眼可见的"刷屏感"。
如果开辟一个全屏 Buffer 在内存里合成：
- 需要 $240 \\times 240 \\times 2 = 115 \\text{ KB}$ RAM。大多数 MCU（如 STM32F1/F4）都没有这么大的连续 SRAM。

4.2 终极方案：行缓冲 (Line Buffer) 流水线

我们采用**"分而治之"**的策略，结合 DMA 的块传输能力。

架构逻辑 (The Pipeline)

假设我们要渲染一个 $32 \\times 64$ 大小的数字区域：

Buffer 分配：

在栈上或静态区开辟一个仅有一行宽度 的缓冲区：uint16_t line_buf[32]。

RAM 消耗：仅 64 字节！
流水线循环 (针对每一行)：
- Step 1: Fetch (背景回读)
  
  根据当前行号和列号，计算出该行在 Flash 背景图中的绝对地址。
  
  将这 32 个 RGB565 像素拷贝到 line_buf 中。
  
  此时，line_buf 里是纯净的背景。
- Step 2: Blending (字模合成)
  
  计算当前行在 1bpp 字模数组中的位置。
  
  遍历这 32 个 bit：
  - 若 bit 为 0：跳过（保留 line_buf 里的背景色，实现透明）。
  - 若 bit 为 1：写入（将 line_buf 对应位置覆盖为白色 0xFFFF）。
- Step 3: DMA Push (传输)
  
  启动 SPI DMA，将合成好的 line_buf 一口气推送到屏幕。
  
  CPU 在此期间可以去准备下一行的数据（如果是双缓冲模式）。

5. 第四部分：核心算法实现 (C语言)

5.1 位级操作工具

这是处理 1bpp 数据的核心，涉及位移和掩码操作。

复制代码

/**
 * @brief  1bpp 像素提取器
 * @note   用于从压缩的字节流中提取指定坐标的 0/1 状态
 * @param  font: 字模数组指针
 * @param  w:    区域宽度 (必须与字模生成时的宽度一致)
 * @param  x, y: 相对坐标
 * @return 1 (点亮) / 0 (熄灭)
 */
inline uint8_t get_1bpp_pixel(const uint8_t* font, int w, int x, int y) {
    // 1. 计算 Stride (跨度): 一行占用的字节数
    //    公式 (w + 7) / 8 实现向上取整
    int stride = (w + 7) >> 3; 
    
    // 2. 定位 Byte Index: 垂直偏移 + 水平偏移
    int byte_idx = (y * stride) + (x >> 3);
    
    // 3. 定位 Bit Index: 取余数，并假设 MSB First (高位在左)
    int bit_idx = 7 - (x % 8);
    
    // 4. 提取并返回
    return (font[byte_idx] >> bit_idx) & 0x01;
}

5.2 混合渲染引擎