AI agent开发

导读

总纲：outline.md · 前端：front/all.md · 后端：backend/all.md
AI 应用开发的学习路径：先会用 API 做出东西，再理解 RAG 与 Agent，然后补模型部署与微调，最后做多 Agent 工程化落地。不必从 PyTorch 手写网络开始，但 Transformer、Embedding、Function Calling 等概念需要建立清晰心智模型。
1大模型认知与 Prompt；

2LLM API 与结构化输出；

3RAG 检索增强；

4Agent 与工具调用；

5应用框架（LangChain / LangGraph）；

6模型部署与推理；

7微调（按需）；

8多 Agent 与 MCP；

9平台工程与生产化；

10实战案例。

面向背景：有前端 / 全栈经验，目标是把 Agent 能力接入真实业务（对话 UI、知识库、工作流编排），而非做算法研究员。

写作形式 ：原理笔记 + 动手实验 + 本地 Q&A（ai/ 子目录，待建）+ 与前后端的交叉引用。

模块地图

编号	主题	本地目录	状态
1	大模型认知与 Prompt 工程	`1. LLM-Prompt/`	待写
2	LLM API 与模型选型	`2. LLM-API/`	待写
3	RAG 检索增强生成	`5. RAG-Knowledge/`	待写
4	Agent 与工具调用	`4. Agent-Practice/`	待写
5	应用框架	`3. LangChain/`	待写
6	模型部署与本地推理	`6. Deploy-Platform/`	待写
7	微调（按需深入）	`7. Fine-Tuning/`	待写
8	多 Agent 与 MCP	`8. Multi-Agent-MCP/`	原理文已有
9	平台工程与生产化	`9. Production/`	待写
10	实战案例	`10. Case-Study/`	待写

里程碑	完成标准
M1	用 API 完成一个带流式输出的对话页（对接 front §10 SSE）
M2	完成 RAG 问答 Demo：文档上传 → 检索 → 带引用回答
M3	完成单 Agent Demo：至少 2 个 Tool（查 API + 查知识库）
M4	本地部署 Qwen / Llama（Ollama 或 vLLM）+ Dify 工作流
M5	读通多 Agent 通用原理并实现最小 Orchestrator
M6	一个端到端企业场景案例（金融知识库 + 工作流 + 前端 UI）

1. 大模型认知与 Prompt 工程

1.1 核心概念

大模型是什么：预训练 → 指令对齐 →（可选）微调
Token、上下文窗口、上下文长度与成本
Temperature、Top-p、Top-k：随机性与可控性
幻觉：成因、grounding、引用溯源
开源 vs 闭源：Llama、Qwen、DeepSeek、GPT、Claude 等选型维度
AIGC 能力谱系：文本 / 代码 / 多模态（了解）

1.2 Prompt 工程

System / User / Assistant 消息结构
Few-shot、Zero-shot、Chain-of-Thought
结构化输出：JSON Mode、Function Calling、Pydantic 约束
Prompt 模板化与版本管理
常见反模式：指令冲突、上下文污染、过度约束

1.3 动手目标

用任意 API 实现：摘要、分类、抽取三类任务
对比同一任务在不同 Prompt 下的稳定性

2. LLM API 与模型选型

2.1 API 使用

OpenAI 兼容接口（OpenAI / Azure / 国内大模型开放平台）
Anthropic Messages API（了解）
流式输出：SSE chunk 解析（衔接 front §10 SSE）
错误处理：限流、超时、重试、fallback 模型
成本估算：input/output token 计费

2.2 模型选型

按场景：通用对话 / 代码 / 长上下文 / 推理
按部署：云端 API vs 本地私有化
Embedding 模型选型（与 RAG 强相关）
评测维度：准确率、延迟、成本、合规

2.3 动手目标

封装统一的 LLM Client（支持流式 + 重试 + 多模型路由）

3. RAG 检索增强生成

企业落地最高频的能力：用私有知识弥补模型不知道的业务细节。

3.1 知识流水线

文档解析：PDF / Word / Markdown / HTML / 表格
分块策略：chunk size、overlap、按标题 / 语义切分
Embedding 与向量库：OpenAI / BGE / M3E；Milvus / pgvector / Chroma
检索：向量检索、关键词（BM25）、混合检索
增强：Rerank、HyDE、查询改写、多路召回
生成：上下文注入、引用标注、拒答策略

3.2 评估与迭代

检索质量：Recall@K、MRR
生成质量：faithfulness、人工抽检
bad case 分析 → 调 chunk / 调 prompt / 补数据

3.3 主流工具

LangChain Retriever / LCEL
LlamaIndex（数据连接器丰富）
自研 pipeline（企业常见）

3.4 动手目标

论文 / 文档阅读助手：上传 PDF → 问答 → 带页码引用
人事 / 业务知识库：结构化 + 非结构化混合检索

4. Agent 与工具调用

4.1 设计模式（主流）

ReAct：推理 ↔ 行动交替
Plan-and-Execute：先规划再逐步执行
Reflection：自我 critique、失败重试
Tool Use / Function Calling：模型决定调哪个工具、传什么参数

4.2 工具设计

Schema 定义：名称、描述、参数类型（描述质量决定调用成功率）
工具原则：幂等、最小权限、可观测、错误信息可读
与后端 API 对接（衔接 backend/all.md §9）
代码执行：沙箱（Docker / E2B / WASM）

4.3 记忆

短期：对话上下文、滑动窗口、摘要压缩
长期：向量记忆、用户偏好、会话持久化（Redis / DB）

4.4 动手目标

订单 / 表格查询助手：自然语言 → SQL 或 API 调用 → 结构化回复
至少实现：查知识库 + 调 REST API 两个 Tool

5. 应用框架

框架是胶水层，理解原理比死记 API 更重要。主流以 LangChain + LangGraph 为主，LlamaIndex 偏 RAG，可按场景组合。

5.1 LangChain 核心

Model I/O：Prompt Template → LLM → Output Parser
Chain / LCEL 组合
Memory、Retriever、Agent Executor
Callbacks 与调试

5.2 LangGraph（2024--2026 主流 Agent 编排）

有状态图：节点、边、条件分支
循环与人工介入（Human-in-the-loop）
与 CrewAI、AutoGen 的定位对比（了解）

5.3 其他

LlamaIndex：索引类型、Query Engine
Semantic Kernel（.NET / 跨语言，了解）
低代码：Dify、Coze、FastGPT 的工作流模型

5.4 动手目标

用 LangGraph 实现一个带分支的 RAG + Agent 工作流
用 Gradio / Streamlit 快速搭 Demo UI

6. 模型部署与本地推理

6.1 推理基础

Transformer 架构（自注意力、Encoder/Decoder）--- 理解即可
GPT（生成式）vs BERT（理解式）vs T5（了解）
量化：INT8 / INT4、GGUF、AWQ、GPTQ
显存估算：参数量 × 精度 ≈ 占用

6.2 部署方案（主流）

Ollama：本地一键拉模型、OpenAI 兼容端点
vLLM / TGI / llama.cpp：生产级吞吐
LM Studio：本地 GUI 调试
HuggingFace Hub：模型下载、Transformers pipeline
Qwen / Llama / DeepSeek 等开源模型部署与量化

6.3 Embedding 部署

Ollama Embedding、本地 BGE
与 RAG pipeline 联调

6.4 动手目标

Ollama 部署 Qwen2 + OpenAI SDK 调用
对比云端 API vs 本地模型的延迟与质量

7. 微调（按需深入）

多数业务场景 RAG + Prompt + 工具 已够用；微调适用于风格固化、领域术语、小模型能力提升等场景。

7.1 方法

全量微调 FFT（成本高，少做）
参数高效微调 PEFT：LoRA、QLoRA、Adapter
指令微调 vs 继续预训练（了解）
显存优化：梯度检查点、DeepSpeed、Flash Attention

7.2 工具链

HuggingFace PEFT / TRL
LLaMA-Factory：界面化微调（主流入门）
Unsloth、ms-swift（ModelScope）
数据集格式：Alpaca、ShareGPT、JSONL

7.3 评估

loss 曲线、验证集 perplexity
业务指标：人工评测、A/B 对比 base 模型

7.4 动手目标（选做）

Qwen2 小数据集 LoRA 微调（如客服话术 / 金融术语）
命名实体识别（NER）或语义相似度任务（分类 / 匹配类）

8. 多 Agent 与 MCP

2025--2026 工程热点：多 Agent 分工协作 + MCP 标准化工具接入（Cursor、Claude Desktop 等已广泛支持）。

8.1 多 Agent

四大模式：Reflection、Tool Use、Planning、Multi-Agent
任务 DAG、依赖驱动编排、并行执行
角色分工：规划者 / 执行者 / 审查者
执行-反思闭环（Reflect Loop）
本地详解 ：多 Agent 通用原理 --- 详解
参考架构： $Claude Code 架构$ (./Claude Code架构.md)

8.2 MCP（Model Context Protocol）

Server / Client / Resources / Tools / Prompts
与 Function Calling 的关系：MCP 是工具层的标准化协议
自写 MCP Server 暴露业务 API / 文件 / 数据库

8.3 框架对照

框架	特点	适用
LangGraph	图编排、状态机、可循环	复杂 Agent 工作流
CrewAI	角色 + 任务分工	多角色协作原型
AutoGen	对话式多 Agent	研究 / 原型
自研 Orchestrator	完全可控	企业生产平台

8.4 动手目标

手写最小 Orchestrator：任务拆分 → 子 Agent 并行 → 汇总
为一个内部 API 编写 MCP Server

9. 平台工程与生产化

从 Demo 到产品：可观测、可评测、可管控。

9.1 Agent 平台（Dify 类）

工作流引擎：节点、分支、变量、子流程
对话应用 vs 工作流应用
知识库管理、Skill / Plugin 注册
模型路由、多租户、权限
SSE 流式编排（衔接 front UI + backend SSE 端点）

9.2 生产化 checklist

Prompt Caching / KV Cache：降本增效
限流、配额、成本监控
安全：Prompt 注入、工具越权、数据外泄、输出审核
可观测：LangSmith / Langfuse / 自研 trace；每步输入输出可回溯
评测：回归用例集、红队测试、线上 bad case 闭环
版本：Prompt / 知识库 / 工作流版本管理与灰度

9.3 与前后端衔接

层	职责	索引
前端	对话 UI、流式 Markdown、文件上传	front/all.md §10
后端	BFF、SSE、鉴权、业务 API、向量库	backend/all.md §9
Agent	编排、RAG、Tool、模型路由	本目录

10. 实战案例

10.1 通用 Demo（练手）

课程助教机器人（RAG + 对话）
论文阅读助手（PDF RAG + 引用）
本地知识库 + Ollama + Dify 聊天机器人

10.2 领域案例（结合金融业务）

金融文档知识库问答（私有 PDF → 指标抽取 → 可检索）
金融问句语义相似度（匹配 / 去重）
信托产品净值查询 + AI 解读报告（三阶段串联，见 outline.md）

10.3 企业 Agent 平台（个人项目方向）

业务人员配置工作流、统一对话入口
Skill 复用、SSE 编排、与现有 Spring Boot 后端集成
踩坑记录：SSE 断连、上下文爆炸、工具幻觉、评测闭环

附录 A：主流技术栈速查

类别	主流选型
云端 API	OpenAI、Claude、通义、DeepSeek、Moonshot
本地推理	Ollama、vLLM、llama.cpp
RAG 向量库	pgvector、Milvus、Chroma、Qdrant
应用框架	LangChain、LangGraph、LlamaIndex
低代码平台	Dify、Coze、FastGPT
微调	LLaMA-Factory、Unsloth、ms-swift
工具协议	Function Calling、MCP
可观测	Langfuse、LangSmith、OpenTelemetry

导读

模块地图

推荐学习路线

1. 大模型认知与 Prompt 工程

1.1 核心概念

1.2 Prompt 工程

1.3 动手目标

2. LLM API 与模型选型

2.1 API 使用

2.2 模型选型

2.3 动手目标

3. RAG 检索增强生成

3.1 知识流水线

3.2 评估与迭代

3.3 主流工具

3.4 动手目标

4. Agent 与工具调用

4.1 设计模式（主流）

4.2 工具设计

4.3 记忆

4.4 动手目标

5. 应用框架

5.1 LangChain 核心

5.2 LangGraph（2024--2026 主流 Agent 编排）

5.3 其他

5.4 动手目标

6. 模型部署与本地推理

6.1 推理基础

6.2 部署方案（主流）

6.3 Embedding 部署

6.4 动手目标

7. 微调（按需深入）

7.1 方法

7.2 工具链

7.3 评估

7.4 动手目标（选做）

8. 多 Agent 与 MCP

8.1 多 Agent

8.2 MCP（Model Context Protocol）

8.3 框架对照

8.4 动手目标

9. 平台工程与生产化

9.1 Agent 平台（Dify 类）

9.2 生产化 checklist

9.3 与前后端衔接

10. 实战案例

10.1 通用 Demo（练手）

10.2 领域案例（结合金融业务）

10.3 企业 Agent 平台（个人项目方向）

附录 A：主流技术栈速查