从零开始学习ai agent开发

从 FastGPT 到 Agent:我的 AI 工程学习路线图

写这篇文章的目的,是提醒自己持续输出,也记录自己在 AI Agent 方向上的学习过程。

最近越来越明显地感觉到:

AI Agent 正在从"概念"变成"工程"。

如果只是停留在 Prompt、RAG、聊天机器人层面,很快就会遇到瓶颈。

相比追逐每天更新的大模型新闻,我更希望把时间花在理解 Agent 的底层架构和工程实现上。

经过一段时间的学习和源码分析后,我给自己定下了一条路线图。


我的学习路线图

第一阶段:Dify

目标:

理解 AI 应用平台是如何搭建的。

重点关注:

  • Workflow
  • RAG
  • Tool Calling
  • Model Provider

学习结果:

能够理解一个 AI 应用从用户请求到模型返回的完整链路。


第二阶段:LangGraph

目标:

理解 Agent 的运行机制。

重点关注:

  • StateGraph
  • Agent Loop
  • Memory
  • Checkpoint

学习结果:

能够实现带状态、带循环、带分支的 Agent。


第三阶段:OpenHands

目标:

理解 Agent 如何真正执行任务。

重点关注:

  • Agent 如何操作真实世界
  • Agent 如何写代码
  • Agent 如何调用 Shell
  • Agent 如何自我修复

学习结果:

理解 Coding Agent 的完整执行闭环。


如果只选一个项目啃源码

很多人会问:

FastGPT、Dify、LangGraph 应该先看哪个?

如果让我选最值得花一个月深入研究的项目,我不会选 FastGPT。

我会选:

  • Dify
  • LangGraph
  • OpenHands

因为这三个项目分别代表了 Agent 系统的三个核心部分。

Dify:产品架构

负责:

  • 应用管理
  • Workflow
  • RAG
  • Tool
  • 模型管理
  • 插件系统

它更像一个 AI 应用操作系统。


LangGraph:Agent 内核

负责:

  • 状态管理
  • 节点执行
  • 分支控制
  • Agent Loop

它解决的是:

Agent 如何思考。


OpenHands:执行器

负责:

  • Shell 操作
  • 文件修改
  • 编码任务
  • 环境交互

它解决的是:

Agent 如何行动。


再看 FastGPT

当理解了上面三个项目后,再回头看 FastGPT,会发现它本质上是:

text 复制代码
Dify 的应用平台思想
+
LangGraph 的工作流思想
+
RAG 知识库能力
=
企业 AI 应用系统

FastGPT 更偏向:

  • 企业知识库
  • RAG
  • 流程编排
  • 应用发布

而 Dify 的抽象层级更高。


Dify 架构理解

Dify 官方定位:

开源 LLM 应用开发平台。

包含:

  • AI Workflow
  • RAG Pipeline
  • Agent
  • Model Provider
  • Observability

整体架构如下:

text 复制代码
用户
 ↓
Web Console
 ↓
API Service
 ↓
Application Layer
 ├─ Chat App
 ├─ Workflow App
 ├─ Agent App
 └─ Completion App
 ↓
Capability Layer
 ├─ LLM
 ├─ RAG
 ├─ Tools
 ├─ Workflow Engine
 └─ Plugin System
 ↓
Infrastructure
 ├─ PostgreSQL
 ├─ Redis
 ├─ Weaviate
 ├─ Celery
 ├─ Sandbox
 └─ Plugin Daemon

一次聊天请求如何执行

例如:

用户:

text 复制代码
帮我总结这个产品说明书

执行链路:

text 复制代码
Chat Request
 ↓
Load App Config
 ↓
Load Conversation
 ↓
Dataset Retrieval
 ↓
Prompt Assemble
 ↓
LLM Invoke
 ↓
Response Stream
 ↓
Log Save

核心思想:

模型并不直接知道知识库内容,而是在回答前动态检索相关内容。


Dify 的 RAG 架构

文档入库

text 复制代码
上传文档
 ↓
Worker
 ↓
解析
 ↓
切片
 ↓
Embedding
 ↓
向量库

问答检索

text 复制代码
用户问题
 ↓
Embedding
 ↓
向量召回
 ↓
Rerank
 ↓
上下文组装
 ↓
LLM
 ↓
回答

RAG 的本质不是:

text 复制代码
让模型记住文档

而是:

text 复制代码
回答前先找资料
再让模型回答

Workflow 的本质

很多人第一次接触 Workflow 会觉得神秘。

实际上它本质上就是:

text 复制代码
图执行引擎

例如:

text 复制代码
开始
 ↓
LLM
 ↓
条件判断
 ↓
HTTP请求
 ↓
代码执行
 ↓
结束

运行时:

text 复制代码
读取配置
 ↓
执行节点
 ↓
保存结果
 ↓
找到下一节点
 ↓
直到结束

本质类似:

  • LangGraph
  • n8n
  • Airflow

只是面向 AI 场景进行了封装。


LangChain 和 LangGraph

这是很多人最容易混淆的地方。

LangChain

更像:

text 复制代码
组件工具箱

负责:

  • Prompt
  • Model
  • Tool
  • Parser
  • RAG

例如:

python 复制代码
prompt | model | parser

LangGraph

更像:

text 复制代码
流程引擎

负责:

  • 状态管理
  • 分支
  • 循环
  • Agent

例如:

text 复制代码
用户问题
 ↓
意图识别
 ↓
工具调用
 ↓
结果检查
 ↓
是否重试
 ↓
最终回答

为什么不建议跳过 LangChain Core

很多人会问:

我能直接学 LangGraph 吗?

答案:

可以。

但不要跳过 LangChain Core。

因为 LangGraph 底层大量依赖:

python 复制代码
langchain_core

常见组件:

  • Prompt
  • Message
  • Runnable
  • Tool
  • Structured Output

实际上现在主流写法已经不是:

python 复制代码
LLMChain
ConversationChain

而是:

python 复制代码
prompt
 |
model
 |
parser

即 Runnable 架构。


我推荐的学习顺序

如果你已经有后端开发经验:

第一阶段:

  • Prompt
  • Chat Model
  • Tool Calling
  • Structured Output
  • RAG

第二阶段:

  • LangChain Core
  • Runnable
  • Tool
  • Message
  • State

第三阶段:

  • LangGraph
  • StateGraph
  • Conditional Edge
  • Memory
  • Checkpoint
  • Human In The Loop

第四阶段:

  • OpenHands
  • Coding Agent
  • MCP
  • 多 Agent

最后

对于后端开发者来说,理解 Agent 最快的方法,不是看教程,而是亲手做一个项目。

例如:

text 复制代码
ERP Agent

用户:

text 复制代码
帮我查询前100条工单

Agent:

text 复制代码
意图识别
 ↓
选择 Tool
 ↓
调用 ERP 接口
 ↓
格式化结果
 ↓
返回

这个项目会同时让你理解:

  • Tool Calling
  • Agent Loop
  • 状态管理
  • MCP
  • LangGraph

当你真正把这样的项目跑通之后,再回头看 Dify、FastGPT、OpenHands,会发现它们解决的其实是同一个问题:

如何让大模型从"会聊天",变成"会工作"。

相关推荐
冬奇Lab37 分钟前
Workflow 系列(06):安全——跨步骤注入传播与四层防御
人工智能·工作流引擎
冬奇Lab42 分钟前
每日一个开源项目(第149篇):RAG-Anything - 把图片、表格、公式当成一等公民的多模态 RAG 框架
人工智能·开源
米小虾1 小时前
AI Agent 安全实战指南:当智能体开始"不听话",开发者该如何应对?
人工智能·安全·agent
IT_陈寒3 小时前
Vite的热更新突然不香了,排查三小时差点砸键盘
前端·人工智能·后端
阿里云大数据AI技术5 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu12275 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队5 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇5 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Token炼金师6 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc