AI × 软件工程 / SRE 学习清单（工程师版）

云计算小黄同学2025-12-26 8:10

AI × 软件工程 / SRE 学习清单（工程师版）

🎯 总目标

成为一名 能在生产环境中"正确、安全、可解释地使用 AI"的软件工程 / SRE 工程师

（对齐 Purdue University 的 AI Working Competency）

🧠 Phase 0：AI 工程认知（第 1--2 周）

🎯 目标

建立 AI ≠ 普通服务 的工程认知，理解其不确定性与风险。

📘 学习清单

理解基础概念（不追数学）
- AI / ML / LLM 的区别
- 训练 vs 推理（Training vs Inference）
- Token / Context Window
- Hallucination（幻觉）
- RAG（Retrieval-Augmented Generation）
- Prompting vs Fine-tuning
学习资源
- Andrew Ng《AI for Everyone》（只看"能做什么 / 不能做什么"）
- OpenAI 官方文档：LLM Basics & Limitations

🛠 行动任务（必须完成）

撰写文档：
《AI 服务 vs 传统微服务的工程差异》
- 不确定性
- 可测试性
- 失败模式
- 人类兜底点

📦 阶段产出

AI_for_Software_Engineers.md

💬 Phase 1：LLM 工具 & Prompt 工程（第 3--8 周）

🎯 目标

让 Prompt 像接口定义一样稳定、可复用、可解释。

📘 学习清单

Prompt 工程核心模式
- Role Prompt
- Few-shot Prompt
- 输出格式约束（JSON / YAML）
- Failure Case 说明
学习资源
- OpenAI Prompt Engineering 官方指南
- DeepLearning.AI《Prompt Engineering for Developers》

🛠 行动任务（关键）

总结 3 类工程 Prompt 模板
- 分析型（Analysis）
- 生成型（Generate）
- 校验型（Critic / Review）
真实工程场景 Prompt 实验（至少 3 个）
- 代码解释 / 重构
- 日志 / 错误分析
- 设计文档初稿
对每个场景：
- 编写 2--3 版 Prompt
- 对比输出差异
- 总结优劣原因

📦 阶段产出

prompt_patterns_for_engineers.md
Prompt A/B 对比实验记录

💻 Phase 2：AI + 软件工程实践（第 2--4 个月）

🎯 目标

将 AI 真正引入代码仓库，成为工程系统的一部分。

📘 学习清单

掌握 LLM API 工程基础（推荐 Python）
- API 调用
- Timeout / Retry
- 错误处理
- 成本控制
- 输出 JSON Schema 校验
LangChain（只学 20%）
- PromptTemplate
- Output Parser
- Simple Chain

🛠 行动项目（必做）

🔨 项目 1：AI Code Review Bot（简化版）

输入：PR diff / 代码片段
输出（结构化 JSON）：
- 风险点
- 可读性建议
- 潜在 bug（非保证）
工程要求
- Prompt 模板清晰
- 输出可校验
- 明确人类最终决策

📦 阶段产出

GitHub 项目仓库
README，说明：
- AI 用在哪里
- 为什么不能全自动
- 已知失败模式

⚙️ Phase 3：AI + SRE / 生产系统（第 4--6 个月）

🎯 目标

用 SRE 思维管理 AI 系统的不确定性。

📘 学习清单

SRE 核心概念
- SLI / SLO
- Incident Response
- Postmortem
  （推荐：Google SRE Book 选读）
AI 特有风险
- Prompt Injection
- 数据泄露
- 过度信任 AI
- AI 输出错误是否算事故？

🛠 行动项目（进阶）

🔨 项目 2：AI Incident Assistant

输入：
- Incident timeline
- Logs / Metrics
输出：
- 潜在根因（建议）
- 影响评估
- Postmortem 草稿
明确声明：
- AI 不做最终判断
- 人类责任边界

📦 阶段产出

AI + SRE 设计文档
风险分析 & Failure Modes 章节

🔄 Phase 4：持续学习 & 决策能力（长期）

🎯 目标

持续具备 AI-ready 工程师 的判断力与适应能力。

📘 长期清单

订阅资源（选 2--3 个即可）
- DeepLearning.AI Newsletter
- OpenAI / Anthropic 官方博客
- Hacker News（只看标题）
每季度一次 AI 工程评估
- 是否值得迁移新模型？
- 成本 / 延迟 / 稳定性变化？
- 风险是否可控？

📦 长期能力资产

Prompt 模板库
AI 工程设计文档
AI + SRE 项目经验
清晰的 AI 决策沟通能力

🎓 最终能力总结（对齐 Purdue AI Working Competency）

✅ 理解并使用 AI（工程级）
✅ 清晰识别并沟通 AI 决策
✅ 在生产环境中安全使用 AI
✅ 持续适应 AI 技术演进

上一篇：Linux系统下的软链接和硬链接的区别和使用

下一篇：GitLab 配置 SSH 密钥完整教程

相关推荐

NanoClaw 深度剖析：一个"AI 原生"架构的个人助手是如何运转的？

🦞OpenClaw 让 MacMini 脱销了，而我拿出了6年陈的安卓机

AI 可以让 WIFI 实现监控室内人体位置和姿态，无需摄像头？

前端·人工智能·ai编程

是一碗螺丝粉

5分钟上手LangChain.js：用DeepSeek给你的App加上AI能力

前端·人工智能·langchain

两万五千个小时

落地实现 Anthropic Multi-Agent Research System

人工智能·python·架构

用户481593019591

揭秘GPT-4与LLaMA背后的加速黑科技：KV Cache、MQA、GQA、稀疏注意力与MoE全解析

用户519149584845

Cisco SMA 暴露面检测工具 - 快速识别CVE-2025-20393风险

人工智能·aigc

AI工具的“超级外挂”：从零手把手教你搭建私人 MCP 服务器

马腾化云东

Agent开发应知应会（langfuse）：Langfuse Score概念详解和实战应用

人工智能·llm·ai编程

热门推荐

01GitHub 镜像站点 02【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 03OpenClaw 使用和管理 MCP 完全指南 04Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 05OpenClaw + 飞书（Feishu）环境搭建指南 06Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 07Window 10部署openclaw报错node.exe : npm error code 128 08AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 09AI Agent 平台横评：ZeroClaw vs OpenClaw vs Nanobot 10OpenClaw优化飞书API 额度已耗尽问题