导读
总纲:outline.md · 前端:front/all.md · 后端:backend/all.md
AI 应用开发的学习路径:先会用 API 做出东西,再理解 RAG 与 Agent,然后补模型部署与微调,最后做多 Agent 工程化落地。不必从 PyTorch 手写网络开始,但 Transformer、Embedding、Function Calling 等概念需要建立清晰心智模型。
1大模型认知与 Prompt;
2LLM API 与结构化输出;
3RAG 检索增强;
4Agent 与工具调用;
5应用框架(LangChain / LangGraph);
6模型部署与推理;
7微调(按需);
8多 Agent 与 MCP;
9平台工程与生产化;
10实战案例。
面向背景:有前端 / 全栈经验,目标是把 Agent 能力接入真实业务(对话 UI、知识库、工作流编排),而非做算法研究员。
写作形式 :原理笔记 + 动手实验 + 本地 Q&A(ai/ 子目录,待建)+ 与前后端的交叉引用。
模块地图
| 编号 | 主题 | 本地目录 | 状态 |
|---|---|---|---|
| 1 | 大模型认知与 Prompt 工程 | 1. LLM-Prompt/ |
待写 |
| 2 | LLM API 与模型选型 | 2. LLM-API/ |
待写 |
| 3 | RAG 检索增强生成 | 5. RAG-Knowledge/ |
待写 |
| 4 | Agent 与工具调用 | 4. Agent-Practice/ |
待写 |
| 5 | 应用框架 | 3. LangChain/ |
待写 |
| 6 | 模型部署与本地推理 | 6. Deploy-Platform/ |
待写 |
| 7 | 微调(按需深入) | 7. Fine-Tuning/ |
待写 |
| 8 | 多 Agent 与 MCP | 8. Multi-Agent-MCP/ |
原理文已有 |
| 9 | 平台工程与生产化 | 9. Production/ |
待写 |
| 10 | 实战案例 | 10. Case-Study/ |
待写 |
推荐学习路线
text
Phase A 认知(1 Prompt → 2 API) ← 1--2 周,快速出 Demo
Phase B 应用(3 RAG → 4 Agent → 5 框架) ← 核心能力,与业务最近
Phase C 模型(6 部署 → 7 微调按需) ← 需要私有化或领域适配时深入
Phase D 工程(8 多 Agent / MCP → 9 生产化) ← 企业级落地
Phase E 案例(10 行业实战) ← 串联 front / backend
| 里程碑 | 完成标准 |
|---|---|
| M1 | 用 API 完成一个带流式输出的对话页(对接 front §10 SSE) |
| M2 | 完成 RAG 问答 Demo:文档上传 → 检索 → 带引用回答 |
| M3 | 完成单 Agent Demo:至少 2 个 Tool(查 API + 查知识库) |
| M4 | 本地部署 Qwen / Llama(Ollama 或 vLLM)+ Dify 工作流 |
| M5 | 读通 多 Agent 通用原理 并实现最小 Orchestrator |
| M6 | 一个端到端企业场景案例(金融知识库 + 工作流 + 前端 UI) |
1. 大模型认知与 Prompt 工程
1.1 核心概念
- 大模型是什么:预训练 → 指令对齐 →(可选)微调
- Token、上下文窗口、上下文长度与成本
- Temperature、Top-p、Top-k:随机性与可控性
- 幻觉:成因、grounding、引用溯源
- 开源 vs 闭源:Llama、Qwen、DeepSeek、GPT、Claude 等选型维度
- AIGC 能力谱系:文本 / 代码 / 多模态(了解)
1.2 Prompt 工程
- System / User / Assistant 消息结构
- Few-shot、Zero-shot、Chain-of-Thought
- 结构化输出:JSON Mode、Function Calling、Pydantic 约束
- Prompt 模板化与版本管理
- 常见反模式:指令冲突、上下文污染、过度约束
1.3 动手目标
- 用任意 API 实现:摘要、分类、抽取三类任务
- 对比同一任务在不同 Prompt 下的稳定性
2. LLM API 与模型选型
2.1 API 使用
- OpenAI 兼容接口(OpenAI / Azure / 国内大模型开放平台)
- Anthropic Messages API(了解)
- 流式输出:SSE chunk 解析(衔接 front §10 SSE)
- 错误处理:限流、超时、重试、fallback 模型
- 成本估算:input/output token 计费
2.2 模型选型
- 按场景:通用对话 / 代码 / 长上下文 / 推理
- 按部署:云端 API vs 本地私有化
- Embedding 模型选型(与 RAG 强相关)
- 评测维度:准确率、延迟、成本、合规
2.3 动手目标
- 封装统一的 LLM Client(支持流式 + 重试 + 多模型路由)
3. RAG 检索增强生成
企业落地最高频的能力:用私有知识弥补模型不知道的业务细节。
3.1 知识流水线
- 文档解析:PDF / Word / Markdown / HTML / 表格
- 分块策略:chunk size、overlap、按标题 / 语义切分
- Embedding 与向量库:OpenAI / BGE / M3E;Milvus / pgvector / Chroma
- 检索:向量检索、关键词(BM25)、混合检索
- 增强:Rerank、HyDE、查询改写、多路召回
- 生成:上下文注入、引用标注、拒答策略
3.2 评估与迭代
- 检索质量:Recall@K、MRR
- 生成质量:faithfulness、人工抽检
- bad case 分析 → 调 chunk / 调 prompt / 补数据
3.3 主流工具
- LangChain Retriever / LCEL
- LlamaIndex(数据连接器丰富)
- 自研 pipeline(企业常见)
3.4 动手目标
- 论文 / 文档阅读助手:上传 PDF → 问答 → 带页码引用
- 人事 / 业务知识库:结构化 + 非结构化混合检索
4. Agent 与工具调用
4.1 设计模式(主流)
- ReAct:推理 ↔ 行动交替
- Plan-and-Execute:先规划再逐步执行
- Reflection:自我 critique、失败重试
- Tool Use / Function Calling:模型决定调哪个工具、传什么参数
4.2 工具设计
- Schema 定义:名称、描述、参数类型(描述质量决定调用成功率)
- 工具原则:幂等、最小权限、可观测、错误信息可读
- 与后端 API 对接(衔接 backend/all.md §9)
- 代码执行:沙箱(Docker / E2B / WASM)
4.3 记忆
- 短期:对话上下文、滑动窗口、摘要压缩
- 长期:向量记忆、用户偏好、会话持久化(Redis / DB)
4.4 动手目标
- 订单 / 表格查询助手:自然语言 → SQL 或 API 调用 → 结构化回复
- 至少实现:查知识库 + 调 REST API 两个 Tool
5. 应用框架
框架是胶水层,理解原理比死记 API 更重要。主流以 LangChain + LangGraph 为主,LlamaIndex 偏 RAG,可按场景组合。
5.1 LangChain 核心
- Model I/O:Prompt Template → LLM → Output Parser
- Chain / LCEL 组合
- Memory、Retriever、Agent Executor
- Callbacks 与调试
5.2 LangGraph(2024--2026 主流 Agent 编排)
- 有状态图:节点、边、条件分支
- 循环与人工介入(Human-in-the-loop)
- 与 CrewAI、AutoGen 的定位对比(了解)
5.3 其他
- LlamaIndex:索引类型、Query Engine
- Semantic Kernel(.NET / 跨语言,了解)
- 低代码:Dify、Coze、FastGPT 的工作流模型
5.4 动手目标
- 用 LangGraph 实现一个带分支的 RAG + Agent 工作流
- 用 Gradio / Streamlit 快速搭 Demo UI
6. 模型部署与本地推理
6.1 推理基础
- Transformer 架构(自注意力、Encoder/Decoder)--- 理解即可
- GPT(生成式)vs BERT(理解式)vs T5(了解)
- 量化:INT8 / INT4、GGUF、AWQ、GPTQ
- 显存估算:参数量 × 精度 ≈ 占用
6.2 部署方案(主流)
- Ollama:本地一键拉模型、OpenAI 兼容端点
- vLLM / TGI / llama.cpp:生产级吞吐
- LM Studio:本地 GUI 调试
- HuggingFace Hub:模型下载、Transformers pipeline
- Qwen / Llama / DeepSeek 等开源模型部署与量化
6.3 Embedding 部署
- Ollama Embedding、本地 BGE
- 与 RAG pipeline 联调
6.4 动手目标
- Ollama 部署 Qwen2 + OpenAI SDK 调用
- 对比云端 API vs 本地模型的延迟与质量
7. 微调(按需深入)
多数业务场景 RAG + Prompt + 工具 已够用;微调适用于风格固化、领域术语、小模型能力提升等场景。
7.1 方法
- 全量微调 FFT(成本高,少做)
- 参数高效微调 PEFT:LoRA、QLoRA、Adapter
- 指令微调 vs 继续预训练(了解)
- 显存优化:梯度检查点、DeepSpeed、Flash Attention
7.2 工具链
- HuggingFace PEFT / TRL
- LLaMA-Factory:界面化微调(主流入门)
- Unsloth、ms-swift(ModelScope)
- 数据集格式:Alpaca、ShareGPT、JSONL
7.3 评估
- loss 曲线、验证集 perplexity
- 业务指标:人工评测、A/B 对比 base 模型
7.4 动手目标(选做)
- Qwen2 小数据集 LoRA 微调(如客服话术 / 金融术语)
- 命名实体识别(NER)或语义相似度任务(分类 / 匹配类)
8. 多 Agent 与 MCP
2025--2026 工程热点:多 Agent 分工协作 + MCP 标准化工具接入(Cursor、Claude Desktop 等已广泛支持)。
8.1 多 Agent
- 四大模式:Reflection、Tool Use、Planning、Multi-Agent
- 任务 DAG、依赖驱动编排、并行执行
- 角色分工:规划者 / 执行者 / 审查者
- 执行-反思闭环(Reflect Loop)
- 本地详解 :多 Agent 通用原理 --- 详解
- 参考架构:Claude Code 架构(./Claude Code架构.md)
8.2 MCP(Model Context Protocol)
- Server / Client / Resources / Tools / Prompts
- 与 Function Calling 的关系:MCP 是工具层的标准化协议
- 自写 MCP Server 暴露业务 API / 文件 / 数据库
8.3 框架对照
| 框架 | 特点 | 适用 |
|---|---|---|
| LangGraph | 图编排、状态机、可循环 | 复杂 Agent 工作流 |
| CrewAI | 角色 + 任务分工 | 多角色协作原型 |
| AutoGen | 对话式多 Agent | 研究 / 原型 |
| 自研 Orchestrator | 完全可控 | 企业生产平台 |
8.4 动手目标
- 手写最小 Orchestrator:任务拆分 → 子 Agent 并行 → 汇总
- 为一个内部 API 编写 MCP Server
9. 平台工程与生产化
从 Demo 到产品:可观测、可评测、可管控。
9.1 Agent 平台(Dify 类)
- 工作流引擎:节点、分支、变量、子流程
- 对话应用 vs 工作流应用
- 知识库管理、Skill / Plugin 注册
- 模型路由、多租户、权限
- SSE 流式编排(衔接 front UI + backend SSE 端点)
9.2 生产化 checklist
- Prompt Caching / KV Cache:降本增效
- 限流、配额、成本监控
- 安全:Prompt 注入、工具越权、数据外泄、输出审核
- 可观测:LangSmith / Langfuse / 自研 trace;每步输入输出可回溯
- 评测:回归用例集、红队测试、线上 bad case 闭环
- 版本:Prompt / 知识库 / 工作流版本管理与灰度
9.3 与前后端衔接
| 层 | 职责 | 索引 |
|---|---|---|
| 前端 | 对话 UI、流式 Markdown、文件上传 | front/all.md §10 |
| 后端 | BFF、SSE、鉴权、业务 API、向量库 | backend/all.md §9 |
| Agent | 编排、RAG、Tool、模型路由 | 本目录 |
10. 实战案例
10.1 通用 Demo(练手)
- 课程助教机器人(RAG + 对话)
- 论文阅读助手(PDF RAG + 引用)
- 本地知识库 + Ollama + Dify 聊天机器人
10.2 领域案例(结合金融业务)
- 金融文档知识库问答(私有 PDF → 指标抽取 → 可检索)
- 金融问句语义相似度(匹配 / 去重)
- 信托产品净值查询 + AI 解读报告(三阶段串联,见 outline.md)
10.3 企业 Agent 平台(个人项目方向)
- 业务人员配置工作流、统一对话入口
- Skill 复用、SSE 编排、与现有 Spring Boot 后端集成
- 踩坑记录:SSE 断连、上下文爆炸、工具幻觉、评测闭环
附录 A:主流技术栈速查
| 类别 | 主流选型 |
|---|---|
| 云端 API | OpenAI、Claude、通义、DeepSeek、Moonshot |
| 本地推理 | Ollama、vLLM、llama.cpp |
| RAG 向量库 | pgvector、Milvus、Chroma、Qdrant |
| 应用框架 | LangChain、LangGraph、LlamaIndex |
| 低代码平台 | Dify、Coze、FastGPT |
| 微调 | LLaMA-Factory、Unsloth、ms-swift |
| 工具协议 | Function Calling、MCP |
| 可观测 | Langfuse、LangSmith、OpenTelemetry |