AI × 软件工程 / SRE 学习清单(工程师版)
🎯 总目标
成为一名 能在生产环境中"正确、安全、可解释地使用 AI"的软件工程 / SRE 工程师
(对齐 Purdue University 的 AI Working Competency)
🧠 Phase 0:AI 工程认知(第 1--2 周)
🎯 目标
建立 AI ≠ 普通服务 的工程认知,理解其不确定性与风险。
📘 学习清单
-
理解基础概念(不追数学)
- AI / ML / LLM 的区别
- 训练 vs 推理(Training vs Inference)
- Token / Context Window
- Hallucination(幻觉)
- RAG(Retrieval-Augmented Generation)
- Prompting vs Fine-tuning
-
学习资源
- Andrew Ng《AI for Everyone》(只看"能做什么 / 不能做什么")
- OpenAI 官方文档:LLM Basics & Limitations
🛠 行动任务(必须完成)
- 撰写文档:
《AI 服务 vs 传统微服务的工程差异》- 不确定性
- 可测试性
- 失败模式
- 人类兜底点
📦 阶段产出
-
AI_for_Software_Engineers.md
💬 Phase 1:LLM 工具 & Prompt 工程(第 3--8 周)
🎯 目标
让 Prompt 像接口定义一样稳定、可复用、可解释。
📘 学习清单
-
Prompt 工程核心模式
- Role Prompt
- Few-shot Prompt
- 输出格式约束(JSON / YAML)
- Failure Case 说明
-
学习资源
- OpenAI Prompt Engineering 官方指南
- DeepLearning.AI《Prompt Engineering for Developers》
🛠 行动任务(关键)
-
总结 3 类工程 Prompt 模板
- 分析型(Analysis)
- 生成型(Generate)
- 校验型(Critic / Review)
-
真实工程场景 Prompt 实验(至少 3 个)
- 代码解释 / 重构
- 日志 / 错误分析
- 设计文档初稿
-
对每个场景:
- 编写 2--3 版 Prompt
- 对比输出差异
- 总结优劣原因
📦 阶段产出
-
prompt_patterns_for_engineers.md - Prompt A/B 对比实验记录
💻 Phase 2:AI + 软件工程实践(第 2--4 个月)
🎯 目标
将 AI 真正引入代码仓库,成为工程系统的一部分。
📘 学习清单
-
掌握 LLM API 工程基础(推荐 Python)
- API 调用
- Timeout / Retry
- 错误处理
- 成本控制
- 输出 JSON Schema 校验
-
LangChain(只学 20%)
- PromptTemplate
- Output Parser
- Simple Chain
🛠 行动项目(必做)
🔨 项目 1:AI Code Review Bot(简化版)
-
输入:PR diff / 代码片段
-
输出(结构化 JSON):
- 风险点
- 可读性建议
- 潜在 bug(非保证)
-
工程要求
- Prompt 模板清晰
- 输出可校验
- 明确人类最终决策
📦 阶段产出
- GitHub 项目仓库
- README,说明:
- AI 用在哪里
- 为什么不能全自动
- 已知失败模式
⚙️ Phase 3:AI + SRE / 生产系统(第 4--6 个月)
🎯 目标
用 SRE 思维管理 AI 系统的不确定性。
📘 学习清单
-
SRE 核心概念
- SLI / SLO
- Incident Response
- Postmortem
(推荐:Google SRE Book 选读)
-
AI 特有风险
- Prompt Injection
- 数据泄露
- 过度信任 AI
- AI 输出错误是否算事故?
🛠 行动项目(进阶)
🔨 项目 2:AI Incident Assistant
-
输入:
- Incident timeline
- Logs / Metrics
-
输出:
- 潜在根因(建议)
- 影响评估
- Postmortem 草稿
-
明确声明:
- AI 不做最终判断
- 人类责任边界
📦 阶段产出
- AI + SRE 设计文档
- 风险分析 & Failure Modes 章节
🔄 Phase 4:持续学习 & 决策能力(长期)
🎯 目标
持续具备 AI-ready 工程师 的判断力与适应能力。
📘 长期清单
-
订阅资源(选 2--3 个即可)
- DeepLearning.AI Newsletter
- OpenAI / Anthropic 官方博客
- Hacker News(只看标题)
-
每季度一次 AI 工程评估
- 是否值得迁移新模型?
- 成本 / 延迟 / 稳定性变化?
- 风险是否可控?
📦 长期能力资产
- Prompt 模板库
- AI 工程设计文档
- AI + SRE 项目经验
- 清晰的 AI 决策沟通能力
🎓 最终能力总结(对齐 Purdue AI Working Competency)
- ✅ 理解并使用 AI(工程级)
- ✅ 清晰识别并沟通 AI 决策
- ✅ 在生产环境中安全使用 AI
- ✅ 持续适应 AI 技术演进