Agent搭建和使用

理论部分

与传统AI的区别

Agent智能体是一个能够自己思考并行动的智能程序，与我们平时用的聊天AI不同。

传统的AI大多使用Prompt触发模型实现回答问题，即给大模型输入一段文本，触发模型生成回答。Prompt本身没有行动能力，而是其主要作用是触发模型生成回答。

而Agent软件实体，即每部包含了一个大模型，且配备了规划模块、记忆模型和工具接口等。使得Agent能够理解任务目标，自主规划步骤、调用工具和执行操作等，并通过记忆模块进行自我纠正和规范。

其实你使用传统大模型和Agent时应该深有体会，当你和传统大模型说"帮我我用代码写一个天气预测系统"，它会给你直接输出每个部分的代码。而你使用Agent时，他会直接帮你建好文件，写好每个文件的代码。

以下是Prompt和Agent的对比：

	Prompt	Agent
本质	文本	智能系统
行动能力	无，等待模型输出回答	有，可调用API接口、操作文件等
任务执行	一对一对话，一问一答	设定目标后，可连续执行多步，直到完成
记忆	本身不记忆，但可依赖历史对话	拥有专门的短期记忆(当前任务上下文)和长期记忆(向量数据库RAG、知识库)
自主性	零自主性，完全被动	高自主性，可以自行决策、试错、调整计划

本质上，Prompt是Agent的组件，Agent内部大模型需要被Prompt引导，所以Agent的设计者会写很多系统级Prompt来设定Agent行为，例如"你是一个有用的助手，你应该逐步思考，并使用可用工具..."，而且现在也衍生出了Skill实现对Agent行为设定。

Agent实现原理

AI Agent通常通过四个核心组件构成：大模型+规划能力+记忆+工具使用。

• 大模型LLM：这是Agent的大脑，负责接收任务、理解分析、推理和决策。
• 规划能力：这是将复杂的任务借助大模型进行分解和规划，并根据子任务执行情况的分析和反馈，对任务的规划进行调整。
• 记忆（经验）：记忆主要是存储经验和技能，可以分为长期记忆和短期记忆。长期记忆是记住用户的喜好、个人信息和向量数据库等；而短期记忆是指当前对话和刚刚执行的任务的。
• 工具使用：根据决策和思考的结果，调用工具进行行动。外部工具例如API接口、数据库和硬件设备等。

Agent工作流程主要如下：

可以看出，Agent具有自主性和反馈能力，可以实现不同试错和调整实现任务。

Agent发展历史

AI Agent的起点可追溯至20世纪中期的思想萌芽。在1950年，艾伦·图灵在其论文中就探讨了智能机器的可能性，为Agent概念埋下伏笔。80年代中后期，"Agent"一词被正式引入人工智能领域，最初指代能够使用传感器感知环境并自主采取行动的计算实体。

Agent发展：

发展阶段	时间	关键事件/模型	核心特点与意义
基于规则和早期机器学习阶段（专注单一任务，缺乏通用性）	1997年	IBM深蓝战胜国际象棋冠军	展示基于规则与搜索的AI在特定博弈领域的能力，通用性极低
	2016年	谷歌AlphaGo战胜围棋高手	引入深度学习和蒙特卡洛树搜索，让Agent在未知环境中自主学习成为可能，标志着强化学习驱动的Agent走向成熟，但未突破"单一任务"局限
基于大语言模型的快速发展阶段（大模型赋予通用理解能力）	2018年	谷歌发布BERT	开启大语言模型时代
	2019年	OpenAI推出GPT系列	大幅提升AI Agent的文本生成和知识储备能力
	2023年	LLaMA、BLOOM等开源大模型发布	降低行业门槛，促进技术生态多元化
	2025年（AI Agent元年）	DeepSeek-R1、Manus等自主Agent产品出现	拓展开源模型能力边界，标志着真正的自主Agent进入执行复杂任务的新阶段

Agent未来展望

趋势方向	核心变化	关键特点 / 示例
从工作流驱动到模型驱动	设计重心从应用层转向模型训练层	第一代：预编排提示词与工具路径，难扩展下一代：强化学习+推理，动态规划策略、主动调用工具
多智能体协同	从单一智能体转向多专家协同	任务拆解给不同角色Agent，分而治之，提升复杂任务完成质量
更强的自主性与智能化	从被动执行到主动决策	深入理解人类意图，更强逻辑推理，能处理多步复杂任务
深度行业化与定制化	从通用能力到垂直领域深耕	专业Agent（医疗、金融、制造等），个性化适配用户偏好
多模态交互能力	从纯文本到融合感官信息	结合语音、视觉、触觉，实现更自然的人机交互
持续学习与自适应	从静态部署到动态进化	从经验中学习，适应环境变化，自我优化策略

Agent搭建

目前，Agent智能体应用已经较为成熟，比如Coze和Dify等，都是具有代表性的平台。并通过实践带大家用不同的平台，实现Agent智能体项目搭建。

Coze

介绍

Coze是字节跳动在2024年2月推出的一站式AI智能体（Agent）开发与应用平台。它的核心理念是"零代码、低成本"，提供了可视化页面，实现通过拖拽插件、知识库和设定工作流来创建智能体。

特点

特性维度	具体内容
核心理念	零代码开发，让AI智能体创建触手可及
目标用户	无编程基础的个人、创作者、职场人士、中小企业
核心能力	多模态生成、可视化工作流、海量插件、私有知识库、多平台发布
典型场景	营销内容创作、智能客服、办公自动化、数据分析、教育培训
发布渠道	一键发布到抖音、飞书、微信、企业微信、Discord等，并支持API/SDK接入
主要优势	与字节跳动生态（豆包大模型、抖音等）深度整合，功能覆盖全面
开源情况	核心组件已开源 (Apache 2.0)，支持私有化部署

此外，Coze2.0还引入了Agent Skills概念，实现将工作流、工具调用等封装成科复用的技能包。同时，还提供了丰富的插件来扩展智能体的能力，通过RAG技术，使任务更准确和专业。

搭建实例

搭建一个"会议纲要总结小助手"体会通过Coze搭建智能体的流程。

①打开扣子网页（网址：https://www.coze.cn/home），进行账号注册和登录

②新建项目

点击新建项目 ；点击智能体，根据需求输入附件、选择技能包和使用的模型等；然后点击发送按钮。具体如下图：

③平台自动搭建

之后，平台会根据你的设置进行自动搭建，并在页面左侧输出搭建的过程和反馈，你可以根据反馈再次进行提交你的要求，调整智能体。同时，可以在页面右侧进行此效果测试。

④会议纪要助手已经部署好了，可以用网页和 API 两种方式开始使用。如果想在自己的应用里调用，可以调用 API 说明；如果只是自己用，可以直接使用网页版。

方式一：通过网页版使用

如果你不需要进行二次开发，可以直接在扣子页面进行使用，这就是你亲手搭建的会议助手，能完全符合你的实际需求，并稳定地完成你的任务。

如果你需要二次开发，可以点击部署，通过生成的API接口在自己开发的应用内调用。这就是第二种使用方式：API调用。

**方式二：**通过 API 调用

如果需要把 Agent 接入你自己的系统或应用，可以通过 API 调用。下面是详细的调用步骤和说明。

请求参数示例：

以下是调用此 Agent 的请求参数示例，为了清晰，这里使用了未加密的格式。实际请求时，根据开发语言的 HTTP 库，将参数放入请求体中发送即可。

复制代码

  {
    "inputs": {
        "user_query": "请总结这段文本的核心内容：人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的科学。"
    }
}

Dify

介绍

Dify是一个开源的AI应用开发平台，其核心理念是"让非工程师也能构建生产级AI应用"。它通过提供可视化编排、内置RAG引擎和强大的模型支持，极大地降低了AI应用的开发门槛，让企业能够快速、安全地将大模型能力落地到实际业务中。

特点

特性维度	具体内容
核心理念	降低AI应用开发门槛，让非工程师也能快速构建生产级应用
目标用户	企业开发者、AI产品经理、数据分析师、希望快速将AI落地的团队
核心能力	可视化工作流编排、企业级RAG引擎、多模型统一接入、LLMOps全链路监控
典型场景	智能客服、企业知识库问答、金融风控、自动化数据洞察报告生成等
主要优势	强大的RAG能力、多模型无缝切换、企业级数据安全和私有化支持、全链路LLMOps监控
开源情况	项目创立于2023年3月，采用Apache 2.0许可证，已在GitHub上获得大量关注