AI Infra 后端开发工程师 — 学习路线

AI Infra 后端开发工程师 --- 学习路线

目标:3个月可切换到AI Infra后端岗位


能力迁移地图

AI Infra 对应 迁移成本
Goroutine调度/并发控制 思维直接复用
Agent会话生命周期管理 设计模式相同
SSE/WebSocket流式协议 实时系统思维
GPU显存管理/KV-cache 资源约束优化思维
推理延迟优化/负载均衡 时延敏感系统经验
Go微服务/K8s 后端架构相通
Python推理网关开发 直接可用

3个月学习计划

Month 1:Go语言 + 云原生基础

目标:能用Go写生产级后端服务,理解容器化部署

周次 主题 内容 产出
W1 Go基础速成 goroutine/channel/interface/error处理 写过C的人Go基础1周够
W2 Go并发实战 context/sync/semaphore/worker pool 实现一个RTOS-task-scheduler的Go版
W3 gRPC + Protobuf service定义/流式RPC/拦截器/超时重试 写一个EtherCAT从站协议的gRPC版
W4 Docker + K8s入门 Dockerfile/Pod/Service/Deployment/ConfigMap 把W3的服务容器化部署到minikube

关键资源

  • 《Go程序设计语言》前8章
  • gobyexample.com --- 每天刷20个例子
  • github.com/grpc/grpc-go/examples --- 官方gRPC示例

Month 2:消息中间件 + 推理网关理解

目标:理解AI推理服务的后端基础设施

周次 主题 内容 产出
W5 Redis深度 Stream/发布订阅/分布式锁/Lua脚本 用Redis Stream实现一个任务队列
W6 消息队列 Kafka/NATS基础、消费者组、消息可靠性 用NATS实现多Agent消息总线
W7 vLLM推理网关 源码阅读:API server/调度器/显存管理 写vLLM架构分析笔记
W8 HTTP流式协议 SSE实现/WebSocket/长连接管理 实现一个SSE推送服务

关键资源

  • redis.io/docs --- Redis Stream教程
  • github.com/vllm-project/vllm --- 重点看 vllm/entrypoints/openai/api_server.pyvllm/core/scheduler.py
  • nats.io --- NATS官方文档(比Kafka更适合Agent场景)

Month 3:实战项目 --- 自建Agent推理网关

目标:从0搭建一个可运行的多模型推理网关

项目:Mini Hermes Gateway
复制代码
┌──────────────────────────────────────────┐
│              API Gateway (Go)            │
│  /v1/chat/completions  (SSE streaming)  │
│  /v1/models                              │
│  /v1/health                              │
└──────────────┬───────────────────────────┘
               │ gRPC
┌──────────────▼───────────────────────────┐
│         Model Router (Go)                │
│  负载均衡 / 模型选择 / 队列管理          │
└──────┬──────────────┬────────────────────┘
       │              │
┌──────▼──────┐ ┌─────▼──────┐
│ vLLM node 1 │ │ vLLM node 2│
│ (GPU 0)     │ │ (GPU 1)    │
└─────────────┘ └────────────┘
周次 模块 技术点
W9 API Gateway OpenAI兼容API、SSE流式、速率限制
W10 Model Router 轮询/最少连接/显存感知路由
W11 会话管理 Redis会话存储、多轮对话状态机
W12 压测+优化 wrk/vegeta压测、pprof分析、部署文档

简历项目清单(按优先级)

🥇 Mini Hermes Gateway(核心项目)

  • Go实现OpenAI兼容推理网关
  • 支持多模型路由 + SSE流式 + Redis会话管理
  • Docker Compose一键部署
  • 面试价值:直接对应AI Infra日常工作的80%

🥈 RTOS Scheduler in Go(展示并发功底)

  • 用Go实现一个抢占式调度器
  • 支持优先级反转检测、deadline调度
  • 面试价值:证明并发编程深度理解,嵌入式背景正确定价

🥉 gRPC Bridge(展示协议设计能力)

  • 协议栈用gRPC重新实现
  • 支持流式数据传输、从站配置协议
  • 面试价值:证明能从0设计通信协议,这是AI Infra核心能力

4️⃣ vLLM源码分析笔记

  • 推理引擎架构、KV-cache管理、PD分离
  • 公开发在技术博客/GitHub
  • 面试价值:证明你对AI推理系统有深度理解,不是只会调API

每周时间分配

时段 内容 时长
工作日晚上 20:00-22:00 理论学习 + 阅读源码 2h×5=10h
周六 9:00-12:00 项目实战 + 代码 3h
周六 14:00-17:00 项目实战 + 代码 3h
周日 10:00-12:00 整理笔记 + 复盘 2h
每周总计 ~18h

关键里程碑

时间 里程碑 检验标准
第2周末 Go gRPC服务能跑 EtherCAT-gRPC Bridge v0.1
第4周末 K8s部署自己的服务 minikube上3个pod互访
第6周末 vLLM架构吃透 能给别人讲清楚调度器+显存管理
第8周末 SSE流式推送服务 100并发稳定推送
第10周末 Mini Hermes v0.1 单模型推理网关跑通
第12周末 Mini Hermes v1.0 多模型路由+压测报告+部署文档

相关推荐
rosemary5123 小时前
推理框架负责人 — 学习路线 (inference-framework-learning-path)
学习
oy_mail3 小时前
当前主流大语言模型核心优势解析:Gemini、GPT与Claude的能力图谱
人工智能·媒体
极客老王说Agent3 小时前
【企业级Agent】制造业生产预算智能管控系统使用教程:2026企业数智化转型全实战
人工智能·ai·chatgpt
Hua-Jay3 小时前
OpenCV联合C++/Qt 学习笔记(二十五)----监督学习聚类及K均值聚类
c++·笔记·opencv·学习·计算机视觉·聚类
曾响铃3 小时前
堆卡时代终结:AI算力基础设施迎来“系统重构”时刻
人工智能·重构
互联圈运营观察3 小时前
打造半导体产线“数字安全屏障”:极光私有化方案护航高端制造
人工智能
深圳市九鼎创展科技3 小时前
九鼎创展 X7110 开发板(JH7110):国产 RISC-V 多媒体平台全解析
大数据·linux·人工智能·嵌入式硬件·ubuntu·risc-v
ECT-OS-JiuHuaShan3 小时前
存在是微分张量积,标量是参数但不可能是本质。还原论泛化,是语义劫持和以偏概全的逻辑谋杀伪科学庞氏骗局
数据库·人工智能·算法·机器学习·数学建模
跨境猫小妹3 小时前
邮政与燃油附加同步抬升之后跨境卖家如何预留尾程成本缓冲
大数据·人工智能·产品运营·跨境电商·营销策略