Agent搭建和使用
理论部分
与传统AI的区别
Agent智能体是一个能够自己思考并行动的智能程序,与我们平时用的聊天AI不同。
传统的AI大多使用Prompt触发模型实现回答问题,即给大模型输入一段文本,触发模型生成回答。Prompt本身没有行动能力,而是其主要作用是触发模型生成回答。
而Agent软件实体,即每部包含了一个大模型,且配备了规划模块、记忆模型和工具接口等。使得Agent能够理解任务目标,自主规划步骤、调用工具和执行操作等,并通过记忆模块进行自我纠正和规范。
其实你使用传统大模型和Agent时应该深有体会,当你和传统大模型说"帮我我用代码写一个天气预测系统",它会给你直接输出每个部分的代码。而你使用Agent时,他会直接帮你建好文件,写好每个文件的代码。
以下是Prompt和Agent的对比:
| Prompt | Agent | |
|---|---|---|
| 本质 | 文本 | 智能系统 |
| 行动能力 | 无,等待模型输出回答 | 有,可调用API接口、操作文件等 |
| 任务执行 | 一对一对话,一问一答 | 设定目标后,可连续执行多步,直到完成 |
| 记忆 | 本身不记忆,但可依赖历史对话 | 拥有专门的短期记忆(当前任务上下文)和长期记忆(向量数据库RAG、知识库) |
| 自主性 | 零自主性,完全被动 | 高自主性,可以自行决策、试错、调整计划 |
本质上,Prompt是Agent的组件,Agent内部大模型需要被Prompt引导,所以Agent的设计者会写很多系统级Prompt来设定Agent行为,例如"你是一个有用的助手,你应该逐步思考,并使用可用工具...",而且现在也衍生出了Skill实现对Agent行为设定。
Agent实现原理
AI Agent通常通过四个核心组件构成:大模型+规划能力+记忆+工具使用。
- • 大模型LLM:这是Agent的大脑,负责接收任务、理解分析、推理和决策。
- • 规划能力:这是将复杂的任务借助大模型进行分解和规划,并根据子任务执行情况的分析和反馈,对任务的规划进行调整。
- • 记忆(经验):记忆主要是存储经验和技能,可以分为长期记忆和短期记忆。长期记忆是记住用户的喜好、个人信息和向量数据库等;而短期记忆是指当前对话和刚刚执行的任务的。
- • 工具使用:根据决策和思考的结果,调用工具进行行动。外部工具例如API接口、数据库和硬件设备等。
Agent工作流程主要如下:

可以看出,Agent具有自主性和反馈能力,可以实现不同试错和调整实现任务。
Agent发展历史
AI Agent的起点可追溯至20世纪中期的思想萌芽。在1950年,艾伦·图灵在其论文中就探讨了智能机器的可能性,为Agent概念埋下伏笔。80年代中后期,"Agent"一词被正式引入人工智能领域,最初指代能够使用传感器感知环境并自主采取行动的计算实体。
Agent发展:
| 发展阶段 | 时间 | 关键事件/模型 | 核心特点与意义 |
|---|---|---|---|
| 基于规则和早期机器学习阶段 (专注单一任务,缺乏通用性) | 1997年 | IBM深蓝战胜国际象棋冠军 | 展示基于规则与搜索的AI在特定博弈领域的能力,通用性极低 |
| 2016年 | 谷歌AlphaGo战胜围棋高手 | 引入深度学习和蒙特卡洛树搜索,让Agent在未知环境中自主学习成为可能,标志着强化学习驱动的Agent走向成熟,但未突破"单一任务"局限 | |
| 基于大语言模型的快速发展阶段 (大模型赋予通用理解能力) | 2018年 | 谷歌发布BERT | 开启大语言模型时代 |
| 2019年 | OpenAI推出GPT系列 | 大幅提升AI Agent的文本生成和知识储备能力 | |
| 2023年 | LLaMA、BLOOM等开源大模型发布 | 降低行业门槛,促进技术生态多元化 | |
| 2025年 (AI Agent元年) | DeepSeek-R1、Manus等自主Agent产品出现 | 拓展开源模型能力边界,标志着真正的自主Agent进入执行复杂任务的新阶段 |
Agent未来展望
| 趋势方向 | 核心变化 | 关键特点 / 示例 |
|---|---|---|
| 从工作流驱动到模型驱动 | 设计重心从应用层转向模型训练层 | 第一代:预编排提示词与工具路径,难扩展 下一代:强化学习+推理,动态规划策略、主动调用工具 |
| 多智能体协同 | 从单一智能体转向多专家协同 | 任务拆解给不同角色Agent,分而治之,提升复杂任务完成质量 |
| 更强的自主性与智能化 | 从被动执行到主动决策 | 深入理解人类意图,更强逻辑推理,能处理多步复杂任务 |
| 深度行业化与定制化 | 从通用能力到垂直领域深耕 | 专业Agent(医疗、金融、制造等),个性化适配用户偏好 |
| 多模态交互能力 | 从纯文本到融合感官信息 | 结合语音、视觉、触觉,实现更自然的人机交互 |
| 持续学习与自适应 | 从静态部署到动态进化 | 从经验中学习,适应环境变化,自我优化策略 |
Agent搭建
目前,Agent智能体应用已经较为成熟,比如Coze和Dify等,都是具有代表性的平台。并通过实践带大家用不同的平台,实现Agent智能体项目搭建。
Coze
介绍
Coze是字节跳动在2024年2月推出的一站式AI智能体(Agent)开发与应用平台。它的核心理念是"零代码、低成本",提供了可视化页面,实现通过拖拽插件、知识库和设定工作流来创建智能体。
特点
| 特性维度 | 具体内容 |
|---|---|
| 核心理念 | 零代码开发,让AI智能体创建触手可及 |
| 目标用户 | 无编程基础的个人、创作者、职场人士、中小企业 |
| 核心能力 | 多模态生成、可视化工作流、海量插件、私有知识库、多平台发布 |
| 典型场景 | 营销内容创作、智能客服、办公自动化、数据分析、教育培训 |
| 发布渠道 | 一键发布到抖音、飞书、微信、企业微信、Discord等,并支持API/SDK接入 |
| 主要优势 | 与字节跳动生态(豆包大模型、抖音等)深度整合,功能覆盖全面 |
| 开源情况 | 核心组件已开源 (Apache 2.0),支持私有化部署 |
此外,Coze2.0还引入了Agent Skills概念,实现将工作流、工具调用等封装成科复用的技能包。同时,还提供了丰富的插件来扩展智能体的能力,通过RAG技术,使任务更准确和专业。
搭建实例
搭建一个"会议纲要总结小助手"体会通过Coze搭建智能体的流程。
①打开扣子网页(网址:https://www.coze.cn/home),进行账号注册和登录

②新建项目
点击新建项目 ;点击智能体,根据需求输入附件、选择技能包和使用的模型等;然后点击发送按钮。具体如下图:

③平台自动搭建
之后,平台会根据你的设置进行自动搭建,并在页面左侧输出搭建的过程和反馈,你可以根据反馈再次进行提交你的要求,调整智能体。同时,可以在页面右侧进行此效果测试。

④会议纪要助手已经部署好了,可以用网页 和 API 两种方式开始使用。如果想在自己的应用里调用,可以调用 API 说明;如果只是自己用,可以直接使用网页版。
方式一:通过网页版使用
如果你不需要进行二次开发,可以直接在扣子页面进行使用,这就是你亲手搭建的会议助手,能完全符合你的实际需求,并稳定地完成你的任务。

如果你需要二次开发,可以点击部署,通过生成的API接口在自己开发的应用内调用。这就是第二种使用方式:API调用。

**方式二:**通过 API 调用
如果需要把 Agent 接入你自己的系统或应用,可以通过 API 调用。下面是详细的调用步骤和说明。
请求参数示例:
以下是调用此 Agent 的请求参数示例,为了清晰,这里使用了未加密的格式。实际请求时,根据开发语言的 HTTP 库,将参数放入请求体中发送即可。
{
"inputs": {
"user_query": "请总结这段文本的核心内容:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的科学。"
}
}
Dify
介绍
Dify是一个开源的AI应用开发平台,其核心理念是"让非工程师也能构建生产级AI应用"。它通过提供可视化编排、内置RAG引擎和强大的模型支持,极大地降低了AI应用的开发门槛,让企业能够快速、安全地将大模型能力落地到实际业务中。
特点
| 特性维度 | 具体内容 |
|---|---|
| 核心理念 | 降低AI应用开发门槛,让非工程师也能快速构建生产级应用 |
| 目标用户 | 企业开发者、AI产品经理、数据分析师、希望快速将AI落地的团队 |
| 核心能力 | 可视化工作流编排、企业级RAG引擎、多模型统一接入、LLMOps全链路监控 |
| 典型场景 | 智能客服、企业知识库问答、金融风控、自动化数据洞察报告生成等 |
| 主要优势 | 强大的RAG能力、多模型无缝切换、企业级数据安全和私有化支持、全链路LLMOps监控 |
| 开源情况 | 项目创立于2023年3月,采用Apache 2.0许可证,已在GitHub上获得大量关注 |
搭建实例
①打开Dify网站:https://cloud.dify.ai/

②使用邮箱和验证码进行登录

③开始搭建Agent,选择Agent→创建空白应用

④进行搭建,常规操作:选择Agent、输入Agent项目名、进行描述,最后进行点击创建

⑤根据实际需求进行下载工具、添加工具



⑥根据应用功能进行输入提示词,变量和其他,即可搭建Agent项目,实现实际功能

1)设置变量输入,以下为实例:

2)不设置变量输入,直接对话输入:

实际的开发和应用,需要根据实际需求和模拟效果来进行调整,以上只是简单的搭建流程的展现。