C++ 程序员转型 AI Infra 学习路线

博主介绍：程序喵大人

小喵是个五年经验的 C++ 工程师，最近面了某大厂的 AI Infra 岗位。他以为自己熟练完成的是"会写 CUDA"，于是买了一堆 GPU 架构、算子优化的书，结果面试官问了三个问题，他全答不上来：

"你写过 std::move，但你能说说推理引擎里 KV Cache 为什么要用内存池管理吗？"

"推理服务要同时处理几千个请求，你会用纯线程池还是协程？"

"你的代码已经在 GPU 上跑了，为什么 CPU 前后处理管道还是瓶颈？"

小喵面完才明白：AI Infra 的本质不是写 CUDA Kernel，而是用 C++ 构建一个高性能、低延迟、高并发的推理服务。GPU 算子只是其中一环，最难的部分在于怎么让这个系统稳稳跑起来。

AI Infra 很大，包含训练框架、数据管道、推理引擎等多个层面。对于想从事后端开发的 C++ 程序员来说，最直接的入口是大模型推理引擎。你背后的 vLLM、TensorRT-LLM、llama.cpp，底层都是大量的 C++ 代码。

为什么是 C++？不是 Python 不好，而是推理场景对精确内存控制、零拷贝、无 GC 延迟有极高要求。一个推理请求可能涉及几十 GB 的 KV Cache，任何额外的拷贝或内存重新分配，都会直接带来延迟暴涨。

所以，如果你是 C++ 程序员，你的优势不是会写多少个 CUDA Kernel，而是你对系统级性能的理解。

推理引擎最大的性能杀手是内存访问。以 vLLM 为例，它的 PagedAttention 核心思想就是把 KV Cache 分页管理，避免内存波动。这背后的 C++ 基础是什么？

首先是移动语义。面试官很爱问："你说 std::move 一定会发生移动吗？"答案是不一定。std::move 只是一个将左值强制转换为右值引用的类型转换，是否真的移动，取决于目标类是否提供了移动构造函数。

其次是 RVO（返回值优化）。你可能以为这样写很高级：

cpp 复制代码

std::vector<float> get_kv_cache() {
    std::vector<float> cache(1024 * 1024);
    // 填充数据...
    return std::move(cache);  // ❌ 反而可能打断 RVO
}

工程上的正确做法是直接：

cpp 复制代码

return cache;

让编译器自己做 NRVO。多写一个 std::move，可能反而打断优化。

再者是内存池。推理引擎中的张量分配不能每次都走系统分配器，因为 new/delete 频繁调用会导致内存碎片和延迟暴涨。有经验的工程师会预先 reserve，或者用对象池复用已分配的内存。

大模型推理服务不是单线程的事。一个推理实例可能要同时处理成千上万个用户请求，系统的并发模型决定了吞吐率上限。

面试官常问："为什么不用纯线程池？"因为 std::thread 的开销太大了：每个线程需要独立栈、操作系统调度，在高并发场景下这些开销会叠加成巨大的系统负担。

现代 C++ 推理引擎的并发利器通常是：

实际上，vLLM 的异步调度层大量使用了类似协程的思想：当一个请求等待 GPU 运算时，CPU 可以去处理其他请求的预处理和调度，而不是空等。

很多人以为推理引擎的性能只看 GPU，其实 CPU 端的前后处理管道同样是瓶颈。从分词、输入编码、动态批次调度到输出解码，CPU 要做的事不比 GPU 少。

这里有三个高频面试点。

推理引擎里大量使用多态，但热路径上应该用 CRTP 替代虚函数，或者直接静态分发。CPU 缓存未命中的代价在高频场景下是显著的。

cpp 复制代码

struct TokenInfo {
    int id;
    float score;
    bool is_special;
};  // 可能占 12 字节，因为对齐

在高并发场景下，结构体的对齐方式会直接影响数据局部性。合理使用 alignas 或 attribute((packed)) 是性能调试的常规操作。

多线程环境下，编译器重排和 CPU 缓存一致性是难点。volatile 在 C++ 里不保证线程可见性，正确的做法是使用 std::atomic 配合合适的 memory_order。这也是为什么推理引擎里的请求调度层必须使用原子变量来同步状态。

如果你是 C++ 程序员，想转型 AI Infra，不要急着碰 CUDA。先把下面这三件事打稳。

阶段一：固本基础

阶段二：并发工程

阶段三：推理引擎实战

AI Infra 不是什么神秘学问，它的本质是系统工程。GPU 算子很重要，但让一个系统高性能、低延迟、高可用地跑起来，才是 AI Infra 工程师真正的工作。

C++ 程序员在这个方向上有天然优势。你们对内存、并发、性能的理解，正好是推理引擎最需要的底座。别急着去写 CUDA，先把这些基础功练结实。

码字不易，欢迎大家点赞，关注，评论，谢谢！