【图像处理】Core Image 与 GPU 渲染管线——让滤镜飞起来

CPU 是一位精英工程师，一次专心做一件事； GPU 是一支万人工厂，每条流水线同时处理一块像素。选对工具，差距可以是 10 倍。

一、GPU vs CPU：图像处理的架构差异

处理一张 4000×3000（1200 万像素）的照片，每个像素需要独立计算。

架构	核心数	时钟频率	每秒操作数（粗估）	典型图像处理耗时
CPU（Apple M2，4 性能核）	4	3.5 GHz	~14 GFLOPS（浮点）	高斯模糊 ~120ms
GPU（Apple M2，10 核）	10 个着色器簇（每簇 128 核）	1.4 GHz	~3.6 TFLOPS	高斯模糊 ~3ms

差距来自什么？

css 复制代码

CPU 处理像素（串行）：
  Pixel[0] → 计算 → Pixel[1] → 计算 → Pixel[2] → ...
  → 1200 万次顺序操作

GPU 处理像素（并行）：
  Pixel[0..N]   → 同时计算（一个 GPU 核处理一个像素）
  → 理论上 1280 个核同时工作，实际受限于带宽

CPU 的优势在于复杂逻辑、分支预测、大缓存 ；GPU 的优势在于数量庞大的简单核心，适合对每个像素做相同操作（SIMT：单指令多线程）。

图像滤镜恰好是 GPU 的主场：对每个像素独立执行同一段着色器程序。

二、Core Image 处理流水线

Apple 的 Core Image 框架把 GPU 渲染封装成了一套声明式 API：

objectivec 复制代码

原始图像数据
    ↓
CIImage（图像描述符，惰性）
    ↓
CIFilter（滤镜图，节点图）
    ↓  ← CIContext 触发渲染
CGImage / MTLTexture / UIImage

关键概念：CIImage 不是像素数据

CIImage 是一个描述，不是内存中的像素数组。它只记录"这是一张什么图，来自哪里，怎么处理"。

swift 复制代码

// 这行代码不做任何像素计算：
let ciImage = CIImage(cgImage: myCGImage)

// 这行也只是在图上挂一个滤镜节点：
let blurred = ciImage.applyingFilter("CIGaussianBlur", parameters: ["inputRadius": 10])

// 只有这行才真正触发 GPU 计算：
let result = context.createCGImage(blurred, from: blurred.extent)

这种惰性求值（Lazy Evaluation）设计让 Core Image 可以把多个滤镜合并成一个 GPU Pass，极大减少显存读写。

三、CIContext 的创建成本

CIContext 是连接 CPU/Swift 代码和 GPU 的桥梁，它负责：

编译 Metal 着色器
管理 GPU 纹理缓存
协调 GPU 命令队列

问题：创建 CIContext 非常昂贵。

scss 复制代码

// 实测（iPhone 14，Debug build）：
let t0 = CACurrentMediaTime()
let ctx = CIContext()                    // Metal 默认
let t1 = CACurrentMediaTime()
print((t1 - t0) * 1000)                 // 输出：约 18ms ~ 32ms

在处理每张图片时创建新的 CIContext 是常见错误：

swift 复制代码

// 错误做法：每次调用都创建新 context，消耗 18-32ms
func applyBlur(to image: CIImage) -> CGImage {
    let context = CIContext()            // 每次都创建！
    return context.createCGImage(image, from: image.extent)!
}

解决方案：复用 CIContext，用对象池管理。

四、CIContextPool 设计

MLImageToolkit 中的 CIContextPool 采用单例 + Metal 优先，CPU 回退的策略：

swift 复制代码

final class CIContextPool {

    static let shared = CIContextPool()
    private init() {}

    // Metal 上下文（GPU 渲染）
    private lazy var metalContext: CIContext? = {
        guard let device = MTLCreateSystemDefaultDevice() else { return nil }
        return CIContext(mtlDevice: device, options: [
            .workingColorSpace: CGColorSpaceCreateDeviceRGB(),
            .outputColorSpace:  CGColorSpaceCreateDeviceRGB()
        ])
    }()

    // CPU 软件渲染（测试 / Metal 不可用时的回退）
    private lazy var cpuContext: CIContext = {
        CIContext(options: [
            .useSoftwareRenderer: true,
            .workingColorSpace: CGColorSpaceCreateDeviceRGB()
        ])
    }()

    /// 获取当前最优上下文
    func context(preferCPU: Bool = false) -> CIContext {
        if preferCPU { return cpuContext }
        return metalContext ?? cpuContext
    }
}

设计要点：

特性	说明
`lazy var`	延迟初始化，不在 app 启动时占用 18ms
Metal 优先	`MTLCreateSystemDefaultDevice()` 失败时自动降级
CPU 回退	模拟器、单元测试环境无 GPU，需要 CPU 渲染
单例共享	整个 app 生命周期只创建一次，完全消除重复创建成本

五、MLBitmap ↔ CIImage 的转换

5.1 坐标系差异

这是 Core Image 最容易踩的坑：

markdown 复制代码

UIKit / MLBitmap 坐标系：
  (0,0) ─────────────→ x
    │
    │
    ↓ y
  原点在左上角，y 轴向下

CIImage 坐标系：
  原点在左下角，y 轴向上（类 OpenGL）
    ↑ y
    │
    │
  (0,0) ─────────────→ x

在 iOS 上直接把 UIImage 转成 CIImage 再渲染回来，图像会上下翻转。必须手动处理。

5.2 MLBitmap → CIImage

swift 复制代码

extension MLBitmap {

    func toCIImage() -> CIImage {
        // 1. 把 MLBitmap 的原始字节包装成 Data（零拷贝）
        let data = Data(bytes: pixels, count: pixels.count)

        // 2. 用 RGBA 格式描述内存布局
        let bitmapInfo = CGBitmapInfo(rawValue: CGImageAlphaInfo.premultipliedLast.rawValue)

        // 3. 创建 CGDataProvider（仍是惰性，不复制数据）
        guard let provider = CGDataProvider(data: data as CFData),
              let cgImage = CGImage(
                width: width,
                height: height,
                bitsPerComponent: 8,
                bitsPerPixel: 32,
                bytesPerRow: width * 4,
                space: CGColorSpaceCreateDeviceRGB(),
                bitmapInfo: bitmapInfo,
                provider: provider,
                decode: nil,
                shouldInterpolate: false,
                intent: .defaultIntent
              )
        else {
            fatalError("MLBitmap → CIImage 转换失败")
        }

        // 4. CIImage 原点在左下，需要翻转 y 轴
        return CIImage(cgImage: cgImage)
            .transformed(by: CGAffineTransform(scaleX: 1, y: -1)
                .concatenating(CGAffineTransform(translationX: 0, y: CGFloat(height))))
    }
}

为什么需要那个 transform？

CIImage(cgImage:) 会把 CGImage 的第一行（上方）映射到 CIImage 坐标的 y=0（下方），导致图像倒置。我们施加一个 y 轴翻转 + 向上平移 height 的变换，把图像重新正过来。

5.3 CIImage → MLBitmap（render 阶段）

swift 复制代码

func ciImageToBitmap(_ ciImage: CIImage, width: Int, height: Int) -> MLBitmap {

    // 关键：render bounds 固定为 (0, 0, width, height)
    // 不能用 ciImage.extent，因为经过 transform 后 extent 可能有偏移
    let renderRect = CGRect(x: 0, y: 0, width: width, height: height)

    let context = CIContextPool.shared.context()
    guard let cgImage = context.createCGImage(ciImage, from: renderRect) else {
        fatalError("CIImage → CGImage 渲染失败")
    }

    // 从 CGImage 读回像素
    var bitmap = MLBitmap(width: width, height: height)
    let bmpContext = CGContext(
        data: &bitmap.pixels,
        width: width,
        height: height,
        bitsPerComponent: 8,
        bytesPerRow: width * 4,
        space: CGColorSpaceCreateDeviceRGB(),
        bitmapInfo: CGBitmapInfo(rawValue: CGImageAlphaInfo.premultipliedLast.rawValue).rawValue
    )
    bmpContext?.draw(cgImage, in: renderRect)
    return bitmap
}

为什么 render bounds 固定为 (0, 0, w, h)？

经过坐标系翻转变换后，ciImage.extent 的原点可能变成 (0, -height)，直接传入 createCGImage 会渲染出全黑或裁剪错误。固定 (0, 0, w, h) 确保始终渲染图像的有效区域。

六、CIFilterBridge 协议设计

为了让自定义滤镜和系统 CIFilter 无缝集成，MLImageToolkit 定义了 CIFilterBridge 协议：

swift 复制代码

/// 所有基于 Core Image 的滤镜都实现此协议
protocol CIFilterBridge {
    /// 将自身应用到 CIImage，返回处理后的 CIImage（仍是惰性）
    func apply(to image: CIImage, extent: CGRect) -> CIImage
}

/// 工厂协议：创建对应的系统 CIFilter（按需懒创建）
protocol CIFilterFactory: CIFilterBridge {
    var filterName: String { get }
    var parameters: [String: Any] { get }
}

extension CIFilterFactory {
    func apply(to image: CIImage, extent: CGRect) -> CIImage {
        image.applyingFilter(filterName, parameters: parameters)
    }
}

具体滤镜只需声明名称和参数：

swift 复制代码

struct CIBoxBlurBridge: CIFilterFactory {
    let radius: Float
    var filterName: String { "CIBoxBlur" }
    var parameters: [String: Any] { ["inputRadius": radius] }
}

struct CIColorControlsBridge: CIFilterFactory {
    let brightness: Float
    let contrast:   Float
    let saturation: Float
    var filterName: String { "CIColorControls" }
    var parameters: [String: Any] {
        [
            "inputBrightness": brightness,
            "inputContrast":   contrast,
            "inputSaturation": saturation
        ]
    }
}

工厂模式的好处 ：新增一个 Core Image 滤镜只需 5 行代码，无需关心 CIContext、坐标系转换、渲染时机等底层细节。

七、惰性求值与 GPU 合并渲染

Core Image 的惰性求值在多滤镜链时效果最显著：

swift 复制代码

// 三个滤镜叠加
let input: CIImage = bitmap.toCIImage()
let step1 = CIBoxBlurBridge(radius: 5).apply(to: input, extent: input.extent)
let step2 = CIColorControlsBridge(brightness: 0.1, contrast: 1.2, saturation: 0.9)
              .apply(to: step1, extent: step1.extent)
let step3 = step2.applyingFilter("CIVignette", parameters: ["inputIntensity": 0.5])

// 上面三步都没有发生任何 GPU 运算
// 只有这一行触发渲染，Core Image 自动把三个滤镜合并成一个 GPU Pass：
let result = CIContextPool.shared.context().createCGImage(step3, from: renderRect)

css 复制代码

没有惰性求值（假如每步都立即渲染）：
  GPU Pass 1：blur    → 显存写入 12M 像素
  GPU Pass 2：color   → 显存读取 + 写入 12M 像素
  GPU Pass 3：vignette→ 显存读取 + 写入 12M 像素
  总显存带宽：72M 像素次读写

使用惰性求值（实际情况）：
  GPU Pass 1：blur + color + vignette 合并 → 显存写入 12M 像素
  总显存带宽：12M 像素次读写（节省 83%）

八、用 CPUWrapped 在测试中注入 CPU 上下文

单元测试环境（模拟器、CI 服务器）通常没有可用的 Metal GPU。为了不跳过 GPU 路径的测试，MLImageToolkit 使用依赖注入模式：

swift 复制代码

// 生产代码：从 Pool 获取最优 context
struct GPUGaussianBlur: ImageFilter {
    let radius: Float
    let contextProvider: () -> CIContext   // 依赖注入点

    init(radius: Float, contextProvider: @escaping () -> CIContext = {
        CIContextPool.shared.context()
    }) {
        self.radius = radius
        self.contextProvider = contextProvider
    }

    func apply(to bitmap: MLBitmap) -> MLBitmap {
        let ciImage = bitmap.toCIImage()
        let blurred = ciImage.applyingFilter("CIGaussianBlur",
                                             parameters: ["inputRadius": radius])
        let ctx = contextProvider()   // 测试时注入 CPU context
        return ciImageToBitmap(blurred, context: ctx,
                               width: bitmap.width, height: bitmap.height)
    }
}

// 测试代码：注入 CPU 软件渲染 context
func testGPUGaussianBlur() {
    let cpuCtx = CIContext(options: [.useSoftwareRenderer: true])
    let filter = GPUGaussianBlur(radius: 5) { cpuCtx }
    let result = filter.apply(to: testBitmap)
    XCTAssertEqual(result.width, testBitmap.width)
    // ...
}

依赖注入原则：让调用方提供依赖（CIContext），而不是在内部硬编码获取方式。测试时注入可控的假实现，生产时使用真实的 GPU Context。

九、性能对比

以 4000×3000 图像的高斯模糊（radius=10）为例，在 iPhone 14 上实测：

方案	耗时	备注
Phase 1 CPU 卷积（Swift 循环）	~380ms	纯 Swift，无 SIMD
vImage/Accelerate（SIMD，Day 12）	~28ms	CPU SIMD 加速
Core Image（Metal GPU）	~4ms	GPU 并行，含首次 kernel 编译
Core Image（复用 Context，非首次）	~3ms	热路径，kernel 已编译

关键结论 ：GPU 处理比 Phase 1 的 CPU 循环快约 100 倍 ；复用 CIContext 与每次创建相比节省 18--32ms。

十、小结

概念	核心内容
GPU vs CPU	GPU 靠核心数量（1000+）胜出，适合大量独立计算
CIImage 惰性	构建滤镜图不触发计算，render 时才执行，可合并多个 Pass
CIContext 成本	创建耗时 5--30ms，必须复用，用 Pool 管理
CIContextPool	Metal 优先，CPU 回退，单例生命周期
坐标系差异	CIImage 原点在左下，y 向上；需要 transform 翻转
render bounds	固定为 `(0, 0, w, h)`，避免 extent 偏移导致黑图
CIFilterBridge	工厂协议统一封装 CIFilter，5 行新增一个滤镜
依赖注入	CPUWrapped context 注入，让 GPU 路径在 CI 中也可测试

思考题

如果一个 CIFilter 链中某个节点依赖前一步的输出才能确定参数（比如自适应对比度：先扫描直方图，再决定拉伸系数），Core Image 的惰性求值还能把它们合并成一个 GPU Pass 吗？为什么？
CIContextPool 使用 lazy var 保证线程安全吗？如果两个线程同时首次调用 metalContext，会发生什么？应该怎么修复？
在把 MLBitmap 转成 CIImage 时，代码中施加了一个 scaleX:1, y:-1 的变换。如果把这个变换去掉，改为在 ciImageToBitmap 里用 CGContext.draw 时翻转坐标系，两种方案哪个性能更好？为什么？

答案：1. 不能合并。Core Image 的合并渲染要求滤镜图是纯函数（输入确定输出），若需要先渲染再读回 CPU 数据再决定下一步参数，就必须分两次 render。这种场景需要手动拆成两次 context.createCGImage 调用。2. 不安全。Swift 的 lazy var 在多线程并发首次访问时会有数据竞争。修复方式：用 DispatchQueue 或 NSLock 保护初始化，或者用 static let 替代（Swift 的 static let 保证线程安全的一次性初始化）。3. 在 toCIImage 里用 transform 更好。transform 会被 Core Image 合并进 GPU 着色器，无额外开销。而在 CGContext 里翻转需要在 CPU 端重新绘制一次，是额外的栅格化操作。

♥️喜欢我的内容，欢迎大家点赞、转发、关注。

♥️本人专注于技术+投资+认知三位一体的内容分享。

往期推荐：

一张图带你了解------卷积到底是什么？

一图了解饱和度：控制色彩鲜艳程度的关键

一图了解OCR的处理流程及相关图像处理技术