从零开始学习ai agent开发

从 FastGPT 到 Agent:我的 AI 工程学习路线图

写这篇文章的目的,是提醒自己持续输出,也记录自己在 AI Agent 方向上的学习过程。

最近越来越明显地感觉到:

AI Agent 正在从"概念"变成"工程"。

如果只是停留在 Prompt、RAG、聊天机器人层面,很快就会遇到瓶颈。

相比追逐每天更新的大模型新闻,我更希望把时间花在理解 Agent 的底层架构和工程实现上。

经过一段时间的学习和源码分析后,我给自己定下了一条路线图。


我的学习路线图

第一阶段:Dify

目标:

理解 AI 应用平台是如何搭建的。

重点关注:

  • Workflow
  • RAG
  • Tool Calling
  • Model Provider

学习结果:

能够理解一个 AI 应用从用户请求到模型返回的完整链路。


第二阶段:LangGraph

目标:

理解 Agent 的运行机制。

重点关注:

  • StateGraph
  • Agent Loop
  • Memory
  • Checkpoint

学习结果:

能够实现带状态、带循环、带分支的 Agent。


第三阶段:OpenHands

目标:

理解 Agent 如何真正执行任务。

重点关注:

  • Agent 如何操作真实世界
  • Agent 如何写代码
  • Agent 如何调用 Shell
  • Agent 如何自我修复

学习结果:

理解 Coding Agent 的完整执行闭环。


如果只选一个项目啃源码

很多人会问:

FastGPT、Dify、LangGraph 应该先看哪个?

如果让我选最值得花一个月深入研究的项目,我不会选 FastGPT。

我会选:

  • Dify
  • LangGraph
  • OpenHands

因为这三个项目分别代表了 Agent 系统的三个核心部分。

Dify:产品架构

负责:

  • 应用管理
  • Workflow
  • RAG
  • Tool
  • 模型管理
  • 插件系统

它更像一个 AI 应用操作系统。


LangGraph:Agent 内核

负责:

  • 状态管理
  • 节点执行
  • 分支控制
  • Agent Loop

它解决的是:

Agent 如何思考。


OpenHands:执行器

负责:

  • Shell 操作
  • 文件修改
  • 编码任务
  • 环境交互

它解决的是:

Agent 如何行动。


再看 FastGPT

当理解了上面三个项目后,再回头看 FastGPT,会发现它本质上是:

text 复制代码
Dify 的应用平台思想
+
LangGraph 的工作流思想
+
RAG 知识库能力
=
企业 AI 应用系统

FastGPT 更偏向:

  • 企业知识库
  • RAG
  • 流程编排
  • 应用发布

而 Dify 的抽象层级更高。


Dify 架构理解

Dify 官方定位:

开源 LLM 应用开发平台。

包含:

  • AI Workflow
  • RAG Pipeline
  • Agent
  • Model Provider
  • Observability

整体架构如下:

text 复制代码
用户
 ↓
Web Console
 ↓
API Service
 ↓
Application Layer
 ├─ Chat App
 ├─ Workflow App
 ├─ Agent App
 └─ Completion App
 ↓
Capability Layer
 ├─ LLM
 ├─ RAG
 ├─ Tools
 ├─ Workflow Engine
 └─ Plugin System
 ↓
Infrastructure
 ├─ PostgreSQL
 ├─ Redis
 ├─ Weaviate
 ├─ Celery
 ├─ Sandbox
 └─ Plugin Daemon

一次聊天请求如何执行

例如:

用户:

text 复制代码
帮我总结这个产品说明书

执行链路:

text 复制代码
Chat Request
 ↓
Load App Config
 ↓
Load Conversation
 ↓
Dataset Retrieval
 ↓
Prompt Assemble
 ↓
LLM Invoke
 ↓
Response Stream
 ↓
Log Save

核心思想:

模型并不直接知道知识库内容,而是在回答前动态检索相关内容。


Dify 的 RAG 架构

文档入库

text 复制代码
上传文档
 ↓
Worker
 ↓
解析
 ↓
切片
 ↓
Embedding
 ↓
向量库

问答检索

text 复制代码
用户问题
 ↓
Embedding
 ↓
向量召回
 ↓
Rerank
 ↓
上下文组装
 ↓
LLM
 ↓
回答

RAG 的本质不是:

text 复制代码
让模型记住文档

而是:

text 复制代码
回答前先找资料
再让模型回答

Workflow 的本质

很多人第一次接触 Workflow 会觉得神秘。

实际上它本质上就是:

text 复制代码
图执行引擎

例如:

text 复制代码
开始
 ↓
LLM
 ↓
条件判断
 ↓
HTTP请求
 ↓
代码执行
 ↓
结束

运行时:

text 复制代码
读取配置
 ↓
执行节点
 ↓
保存结果
 ↓
找到下一节点
 ↓
直到结束

本质类似:

  • LangGraph
  • n8n
  • Airflow

只是面向 AI 场景进行了封装。


LangChain 和 LangGraph

这是很多人最容易混淆的地方。

LangChain

更像:

text 复制代码
组件工具箱

负责:

  • Prompt
  • Model
  • Tool
  • Parser
  • RAG

例如:

python 复制代码
prompt | model | parser

LangGraph

更像:

text 复制代码
流程引擎

负责:

  • 状态管理
  • 分支
  • 循环
  • Agent

例如:

text 复制代码
用户问题
 ↓
意图识别
 ↓
工具调用
 ↓
结果检查
 ↓
是否重试
 ↓
最终回答

为什么不建议跳过 LangChain Core

很多人会问:

我能直接学 LangGraph 吗?

答案:

可以。

但不要跳过 LangChain Core。

因为 LangGraph 底层大量依赖:

python 复制代码
langchain_core

常见组件:

  • Prompt
  • Message
  • Runnable
  • Tool
  • Structured Output

实际上现在主流写法已经不是:

python 复制代码
LLMChain
ConversationChain

而是:

python 复制代码
prompt
 |
model
 |
parser

即 Runnable 架构。


我推荐的学习顺序

如果你已经有后端开发经验:

第一阶段:

  • Prompt
  • Chat Model
  • Tool Calling
  • Structured Output
  • RAG

第二阶段:

  • LangChain Core
  • Runnable
  • Tool
  • Message
  • State

第三阶段:

  • LangGraph
  • StateGraph
  • Conditional Edge
  • Memory
  • Checkpoint
  • Human In The Loop

第四阶段:

  • OpenHands
  • Coding Agent
  • MCP
  • 多 Agent

最后

对于后端开发者来说,理解 Agent 最快的方法,不是看教程,而是亲手做一个项目。

例如:

text 复制代码
ERP Agent

用户:

text 复制代码
帮我查询前100条工单

Agent:

text 复制代码
意图识别
 ↓
选择 Tool
 ↓
调用 ERP 接口
 ↓
格式化结果
 ↓
返回

这个项目会同时让你理解:

  • Tool Calling
  • Agent Loop
  • 状态管理
  • MCP
  • LangGraph

当你真正把这样的项目跑通之后,再回头看 Dify、FastGPT、OpenHands,会发现它们解决的其实是同一个问题:

如何让大模型从"会聊天",变成"会工作"。

相关推荐
zyk_computer1 小时前
AI Agent ,让循环收敛的那套闭环控制系统
人工智能·后端·python·ai·架构·agent·ai agent
2401_872418781 小时前
Slide AI — 智能课件学习助手
人工智能·学习
Luhui_Dev1 小时前
Anthropic 的 Claude Code 翻车经验
人工智能
碳基硅坊1 小时前
用Gemma 4和Obsidian打造本地AI第二大脑
人工智能·知识图谱·obsidian·gemma 4
你住过的屋檐2 小时前
【claude code】claude code在windows下安装使用教程,以及在idea中使用claude code自动AI写代码
人工智能·windows·intellij-idea
m0_图灵灵2 小时前
吴恩达《深度学习》之深度剖析Batch Norm 作用机制的本质
人工智能·深度学习·batch
InsightCore2 小时前
iOS 27改了一个15年的手势,苹果决定让你的肌肉记忆失效
人工智能
AI客栈2 小时前
云原生存储与网络方案选型:从 CSI 到 CNI 的架构决策与落地实践
人工智能
柠檬味的Cat2 小时前
GEO优化系统是什么?具体做什么,有什么用?
大数据·人工智能·aigc