AI × 软件工程 / SRE 学习清单(工程师版)

AI × 软件工程 / SRE 学习清单(工程师版)

🎯 总目标

成为一名 能在生产环境中"正确、安全、可解释地使用 AI"的软件工程 / SRE 工程师

(对齐 Purdue University 的 AI Working Competency)


🧠 Phase 0:AI 工程认知(第 1--2 周)

🎯 目标

建立 AI ≠ 普通服务 的工程认知,理解其不确定性与风险。


📘 学习清单

  • 理解基础概念(不追数学)

    • AI / ML / LLM 的区别
    • 训练 vs 推理(Training vs Inference)
    • Token / Context Window
    • Hallucination(幻觉)
    • RAG(Retrieval-Augmented Generation)
    • Prompting vs Fine-tuning
  • 学习资源

    • Andrew Ng《AI for Everyone》(只看"能做什么 / 不能做什么")
    • OpenAI 官方文档:LLM Basics & Limitations

🛠 行动任务(必须完成)

  • 撰写文档:
    《AI 服务 vs 传统微服务的工程差异》
    • 不确定性
    • 可测试性
    • 失败模式
    • 人类兜底点

📦 阶段产出

  • AI_for_Software_Engineers.md

💬 Phase 1:LLM 工具 & Prompt 工程(第 3--8 周)

🎯 目标

让 Prompt 像接口定义一样稳定、可复用、可解释


📘 学习清单

  • Prompt 工程核心模式

    • Role Prompt
    • Few-shot Prompt
    • 输出格式约束(JSON / YAML)
    • Failure Case 说明
  • 学习资源

    • OpenAI Prompt Engineering 官方指南
    • DeepLearning.AI《Prompt Engineering for Developers》

🛠 行动任务(关键)

  • 总结 3 类工程 Prompt 模板

    • 分析型(Analysis)
    • 生成型(Generate)
    • 校验型(Critic / Review)
  • 真实工程场景 Prompt 实验(至少 3 个)

    • 代码解释 / 重构
    • 日志 / 错误分析
    • 设计文档初稿
  • 对每个场景:

    • 编写 2--3 版 Prompt
    • 对比输出差异
    • 总结优劣原因

📦 阶段产出

  • prompt_patterns_for_engineers.md
  • Prompt A/B 对比实验记录

💻 Phase 2:AI + 软件工程实践(第 2--4 个月)

🎯 目标

将 AI 真正引入代码仓库,成为工程系统的一部分。


📘 学习清单

  • 掌握 LLM API 工程基础(推荐 Python)

    • API 调用
    • Timeout / Retry
    • 错误处理
    • 成本控制
    • 输出 JSON Schema 校验
  • LangChain(只学 20%)

    • PromptTemplate
    • Output Parser
    • Simple Chain

🛠 行动项目(必做)

🔨 项目 1:AI Code Review Bot(简化版)
  • 输入:PR diff / 代码片段

  • 输出(结构化 JSON):

    • 风险点
    • 可读性建议
    • 潜在 bug(非保证)
  • 工程要求

    • Prompt 模板清晰
    • 输出可校验
    • 明确人类最终决策

📦 阶段产出

  • GitHub 项目仓库
  • README,说明:
    • AI 用在哪里
    • 为什么不能全自动
    • 已知失败模式

⚙️ Phase 3:AI + SRE / 生产系统(第 4--6 个月)

🎯 目标

SRE 思维管理 AI 系统的不确定性


📘 学习清单

  • SRE 核心概念

    • SLI / SLO
    • Incident Response
    • Postmortem
      (推荐:Google SRE Book 选读)
  • AI 特有风险

    • Prompt Injection
    • 数据泄露
    • 过度信任 AI
    • AI 输出错误是否算事故?

🛠 行动项目(进阶)

🔨 项目 2:AI Incident Assistant
  • 输入:

    • Incident timeline
    • Logs / Metrics
  • 输出:

    • 潜在根因(建议)
    • 影响评估
    • Postmortem 草稿
  • 明确声明:

    • AI 不做最终判断
    • 人类责任边界

📦 阶段产出

  • AI + SRE 设计文档
  • 风险分析 & Failure Modes 章节

🔄 Phase 4:持续学习 & 决策能力(长期)

🎯 目标

持续具备 AI-ready 工程师 的判断力与适应能力。


📘 长期清单

  • 订阅资源(选 2--3 个即可)

    • DeepLearning.AI Newsletter
    • OpenAI / Anthropic 官方博客
    • Hacker News(只看标题)
  • 每季度一次 AI 工程评估

    • 是否值得迁移新模型?
    • 成本 / 延迟 / 稳定性变化?
    • 风险是否可控?

📦 长期能力资产

  • Prompt 模板库
  • AI 工程设计文档
  • AI + SRE 项目经验
  • 清晰的 AI 决策沟通能力

🎓 最终能力总结(对齐 Purdue AI Working Competency)

  • ✅ 理解并使用 AI(工程级)
  • ✅ 清晰识别并沟通 AI 决策
  • ✅ 在生产环境中安全使用 AI
  • ✅ 持续适应 AI 技术演进
相关推荐
冬奇Lab4 小时前
Workflow 系列(03):状态管理——持久化、幂等性与版本绑定
人工智能·工作流引擎
冬奇Lab4 小时前
每日一个开源项目(第146篇):openpilot - 开源自动驾驶辅助系统,曾在 Consumer Reports 评测中超过特斯拉 Autopilot
人工智能·开源·自动驾驶
吴佳浩6 小时前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程
IT_陈寒6 小时前
Java的Date类又坑了我一次,改用时间戳真香
前端·人工智能·后端
码农胖大海6 小时前
AI额度不够用的解决方案
人工智能
后端小肥肠7 小时前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent
feiyu_gao7 小时前
从零搭建个人 AI 工作台:一个管理者的 3 个月实验
人工智能·aigc·团队管理
程序员cxuan8 小时前
一句话,让你用上 GPT-5.6
人工智能·后端·程序员
机器之心8 小时前
AI圈刚开始谈Loop Engineering,两位95后博士已经盯上了人类闭环数据
人工智能·openai