AI × 软件工程 / SRE 学习清单(工程师版)

AI × 软件工程 / SRE 学习清单(工程师版)

🎯 总目标

成为一名 能在生产环境中"正确、安全、可解释地使用 AI"的软件工程 / SRE 工程师

(对齐 Purdue University 的 AI Working Competency)


🧠 Phase 0:AI 工程认知(第 1--2 周)

🎯 目标

建立 AI ≠ 普通服务 的工程认知,理解其不确定性与风险。


📘 学习清单

  • 理解基础概念(不追数学)

    • AI / ML / LLM 的区别
    • 训练 vs 推理(Training vs Inference)
    • Token / Context Window
    • Hallucination(幻觉)
    • RAG(Retrieval-Augmented Generation)
    • Prompting vs Fine-tuning
  • 学习资源

    • Andrew Ng《AI for Everyone》(只看"能做什么 / 不能做什么")
    • OpenAI 官方文档:LLM Basics & Limitations

🛠 行动任务(必须完成)

  • 撰写文档:
    《AI 服务 vs 传统微服务的工程差异》
    • 不确定性
    • 可测试性
    • 失败模式
    • 人类兜底点

📦 阶段产出

  • AI_for_Software_Engineers.md

💬 Phase 1:LLM 工具 & Prompt 工程(第 3--8 周)

🎯 目标

让 Prompt 像接口定义一样稳定、可复用、可解释


📘 学习清单

  • Prompt 工程核心模式

    • Role Prompt
    • Few-shot Prompt
    • 输出格式约束(JSON / YAML)
    • Failure Case 说明
  • 学习资源

    • OpenAI Prompt Engineering 官方指南
    • DeepLearning.AI《Prompt Engineering for Developers》

🛠 行动任务(关键)

  • 总结 3 类工程 Prompt 模板

    • 分析型(Analysis)
    • 生成型(Generate)
    • 校验型(Critic / Review)
  • 真实工程场景 Prompt 实验(至少 3 个)

    • 代码解释 / 重构
    • 日志 / 错误分析
    • 设计文档初稿
  • 对每个场景:

    • 编写 2--3 版 Prompt
    • 对比输出差异
    • 总结优劣原因

📦 阶段产出

  • prompt_patterns_for_engineers.md
  • Prompt A/B 对比实验记录

💻 Phase 2:AI + 软件工程实践(第 2--4 个月)

🎯 目标

将 AI 真正引入代码仓库,成为工程系统的一部分。


📘 学习清单

  • 掌握 LLM API 工程基础(推荐 Python)

    • API 调用
    • Timeout / Retry
    • 错误处理
    • 成本控制
    • 输出 JSON Schema 校验
  • LangChain(只学 20%)

    • PromptTemplate
    • Output Parser
    • Simple Chain

🛠 行动项目(必做)

🔨 项目 1:AI Code Review Bot(简化版)
  • 输入:PR diff / 代码片段

  • 输出(结构化 JSON):

    • 风险点
    • 可读性建议
    • 潜在 bug(非保证)
  • 工程要求

    • Prompt 模板清晰
    • 输出可校验
    • 明确人类最终决策

📦 阶段产出

  • GitHub 项目仓库
  • README,说明:
    • AI 用在哪里
    • 为什么不能全自动
    • 已知失败模式

⚙️ Phase 3:AI + SRE / 生产系统(第 4--6 个月)

🎯 目标

SRE 思维管理 AI 系统的不确定性


📘 学习清单

  • SRE 核心概念

    • SLI / SLO
    • Incident Response
    • Postmortem
      (推荐:Google SRE Book 选读)
  • AI 特有风险

    • Prompt Injection
    • 数据泄露
    • 过度信任 AI
    • AI 输出错误是否算事故?

🛠 行动项目(进阶)

🔨 项目 2:AI Incident Assistant
  • 输入:

    • Incident timeline
    • Logs / Metrics
  • 输出:

    • 潜在根因(建议)
    • 影响评估
    • Postmortem 草稿
  • 明确声明:

    • AI 不做最终判断
    • 人类责任边界

📦 阶段产出

  • AI + SRE 设计文档
  • 风险分析 & Failure Modes 章节

🔄 Phase 4:持续学习 & 决策能力(长期)

🎯 目标

持续具备 AI-ready 工程师 的判断力与适应能力。


📘 长期清单

  • 订阅资源(选 2--3 个即可)

    • DeepLearning.AI Newsletter
    • OpenAI / Anthropic 官方博客
    • Hacker News(只看标题)
  • 每季度一次 AI 工程评估

    • 是否值得迁移新模型?
    • 成本 / 延迟 / 稳定性变化?
    • 风险是否可控?

📦 长期能力资产

  • Prompt 模板库
  • AI 工程设计文档
  • AI + SRE 项目经验
  • 清晰的 AI 决策沟通能力

🎓 最终能力总结(对齐 Purdue AI Working Competency)

  • ✅ 理解并使用 AI(工程级)
  • ✅ 清晰识别并沟通 AI 决策
  • ✅ 在生产环境中安全使用 AI
  • ✅ 持续适应 AI 技术演进
相关推荐
2501_941333102 小时前
改进SOLOv2系列__R50_FPN_1x_COCO__建筑工地车辆与人员目标检测
人工智能·目标检测·目标跟踪
ar01232 小时前
AR眼镜工厂质检应用:让质量把控更智能、更高效
人工智能·ar
CS创新实验室2 小时前
课程提纲:神经网络基础和工程实践
人工智能·深度学习·神经网络
kuankeTech2 小时前
生鲜进出口贸易数字化转型:智慧外贸ERP解决方案破解行业痛点
大数据·人工智能·开源软件·软件开发·erp
liliangcsdn2 小时前
对多模态扩散模型UNet架构的探索
大数据·人工智能
杜子不疼.2 小时前
AI Agent 开发指南:LangChain + 工具调用,构建自动化任务流
人工智能·langchain·自动化
西西弗Sisyphus2 小时前
神经网络的正向传播和反向传播 包括可视化源码
人工智能·深度学习·神经网络·反向传播·正向传播
charlie1145141912 小时前
嵌入式现代C++:何时用 C++、用哪些 C++ 特性(折中与禁用项)
开发语言·c++·笔记·学习
Lethehong3 小时前
昇腾Atlas 800T平台下Qwen-14B大语言模型的SGLang适配与性能实测
人工智能·语言模型·sglang·昇腾npu