从零开始，亲手开发你的第一个AI大模型（一）基础知识

本文较长，建议点赞收藏。更多AI大模型开发学习视频籽料，都在这>>Github<<

我们将使用 Google 开源的 Agent Development Kit（ADK），结合 Gemini 大语言模型和 MCP 工具协议，从零构建一个智能航班查询 Agent，实现以下功能：

💡 当用户输入诸如"帮我查查从亚特兰大到拉斯维加斯 5 月 5 号的航班"这样的请求时，Agent 会自动调用 MCP 接口，查找实时航班信息，并以结构化方式返回给用户。

实现过程中，你将学会：

什么是 ADK，它如何让你像"搭积木"一样构建 Agent；
如何用 MCP 连接外部工具，如航班搜索 API；
如何使用 Gemini 模型赋予 Agent 智能对话能力；
如何通过 ADK 的运行器和会话服务构建完整应用框架。

🙋什么是 ADK（Agent Development Kit）？

ADK 是 Google 开源的 Python 工具包，用于开发、评估与部署智能 AI 代理系统。它支持从简单的单代理任务，到复杂的多代理编排工作流，具有模块化、可扩展的架构设计。它致力于让开发者快速构建、组合和部署智能 AI Agent 应用。

它本质上提供了一种模块化框架，让你：

像拼乐高一样组合 Agent；
像注册插件一样集成工具；
像写脚本一样定义业务逻辑；

并支持多种运行模式（如交互式调用、多轮对话、异步执行等）。

ADK 本身并不提供大模型，它是一个 Agent 编排与运行系统。你可以通过它接入 Gemini、Claude、OpenAI 等模型，也可以接入 MCP、LangChain、RAG、函数调用等工具链。

简单来说：

MCP 提供"工具接口"；

Gemini 提供"语言大脑"；

ADK 提供"流程骨架"；

这三者配合，就能构建起真正实用的 AI Agent。

🙋在 ADK 中，Agent 是什么？

在 ADK（Agent Development Kit）中，Agent（智能体）是系统的核心单位。可以将 Agent 理解为一个具备感知（Perception）、推理（Reasoning）、计划（Planning）和执行（Action）能力的自主智能单元。每一个 Agent 通过调用工具（Tools）、协调任务流（Workflow）和使用语言模型（LLM）等能力来完成复杂任务。

但 ADK 中的 Agent 不是一个大模型，也不是一个 chatbot，而是一个由多个组件组合而成的智能执行体。我们可以把它看作一个"任务调度大脑"，其本质是"结构化智能 + 语义驱动 + 工具调用 + 状态记忆"。

🔧 一个 Agent 通常由以下部分组成：

组成部分	作用说明
LLM（大语言模型）	作为智能核心，负责理解用户指令、生成内容、调用工具的指令等
Tools（工具）	外部功能模块，比如航班搜索、数据库查询、天气 API 等
Planner（任务规划器）	把复杂任务拆解成步骤，决定执行顺序
Memory（记忆）	保留历史对话、已执行步骤、变量状态等，用于多轮对话或流程追踪
Executor（执行器）	根据规划结果调用工具、处理返回结果，并继续推进任务流程
AgentContext	一个"运行环境"，用于管理每次任务中的上下文、日志、缓存、中间变量等

ADK提供的三种Agent类型

1. LLM Agents（如 LlmAgent、Agent）

使用大型语言模型（LLM）来进行上下文理解、逻辑推理、任务规划与执行决策。
非常适合应对需要语言理解、动态应变与非结构化任务的场景。
本文后续构建的AI正是基于这一类型，配合 MCPTools 使用。

2. Workflow Agents（如 SequentialAgent、ParallelAgent、LoopAgent）

用于在无需语言模型干预的情况下，按照特定逻辑顺序调用其他 Agent。
更适合执行稳定、结构化、可重复的工作流程。
可以理解为"流程控制器"，例如串行执行多个 Agent 的任务。

3. Custom Agents（基于 BaseAgent 自定义扩展）

用户可以通过继承和拓展 BaseAgent，自由实现定制逻辑、集成特定工具或构建个性化的任务执行方案。
适合高级开发者搭建复杂的智能系统。

这三种 Agent 设计模式形成了 ADK 强大的组合式智能能力：语言驱动 + 工具调用 + 任务编排。

🙋ADK 中的 Tools 是什么？

Agent 的强大不仅来自语言模型本身，更重要的是其可以借助外部能力，也就是"工具（Tools）"来扩展行动力。

简单来说，Tool 就是 Agent 拥有的一项"技能"。

✅ Tool 的定义

在 ADK 中，Tool 表示一个授予 AI Agent 的具体能力，允许其执行特定操作或与外部世界互动，而不仅仅是进行文字生成或语言推理。

一个 Tool 通常是一个模块化的代码组件，比如：

一个 Python 函数（Function）
一个类的方法（Method）
另一个 Agent（作为可调用工具）

它们的作用是：完成被定义好的任务，比如查询数据库、生成图像、调用 API、搜索网页、执行代码等。

🧠 Agent 如何调用 Tool？

Agent 会通过函数调用机制（Function Calling） 动态使用工具。调用流程通常如下：

Agent 理解当前上下文和任务目标
判断是否需要调用工具，如果是，则生成对应函数的调用格式与参数
执行调用工具，并获取返回结果
将工具结果融入自身后续行为或回复中

这一过程对开发者是"可配置"的，对终端用户是"无感知"的。Agent 就像一个能够灵活组合工具的智能程序员。

🛠️ Tool 的种类

ADK 支持多种类型的工具，以满足不同的智能任务需求：

Function Tools：专门为某个应用或工作流构建的自定义函数组件
- Functions / Methods：传统 Python 同步函数（def）或类方法
- Agents-as-Tools：将其他 Agent 作为 Tool 使用，形成模块化的智能行为组合。
- Long-Running Function Tools：设计用于处理异步或耗时较长的操作，比如等待网页响应、生成复杂图像、训练模型等。
Built-in Tools（内置工具）
- 网络搜索工具
- 代码执行器
- 文本向量搜索 / RAG 工具
- ADK 自带的常用工具集，如：
Third-Party Tools（第三方工具）
- 通过集成外部生态如 LangChain、CrewAI 等，快速扩展工具系统

🤖ADK 中的 Agent ≠ 普通 Chatbot

特性	普通 Chatbot	ADK 中的 Agent
响应能力	基于 prompt 的简单问答	基于语义和工具组合的复杂任务响应
工具使用	靠插件或函数调用，通常写死	工具是可组合、可调度的，具备自动选择和调用能力
状态感知	很弱，多轮对话能力有限	内建记忆组件，能跨多轮对话保留上下文
任务能力	主要是聊天、摘要、回答	可以完成任务执行、数据处理、调用外部 API、执行链式逻辑等

🧩一个 Agent 实际上像什么？

可以类比为一个"智能操作系统进程"：

指令接收：用户发出自然语言请求（类似发送"指令"）
任务规划：内部使用 Planner 分解任务
工具调用：通过 Tool 连接各类系统 API
决策判断：LLM 分析上下文并决定后续动作
执行返回：Executor 完成任务并返回最终结果

🏗️在 ADK 中定义 Agent 的代码长什么样？

ADK 用 Agent 类封装了整个逻辑，你可以像这样定义一个 Agent：

ini 复制代码

agent = Agent(
    llm=GeminiModel(),
    tools=[FlightSearchTool(), WeatherTool()],
    planner=SimplePlanner(),
    memory=InMemoryStore()
)

调用也很自然：

ini 复制代码

response = agent.run("帮我查一下明天下午从上海飞往北京的航班")

ADK 会自动：

识别意图；
选择 FlightSearchTool；
格式化调用请求；
获取结果后整理回复；
返回最终答案。

✅ 总结一句话：

ADK 中的 Agent 是一个由语言模型驱动的、能够理解任务、自动调用工具并管理流程的智能执行单元。
更多AI大模型开发学习视频籽料，都在这>>Github<<