Agent搭建和使用

Agent搭建和使用

理论部分

与传统AI的区别

Agent智能体是一个能够自己思考并行动的智能程序,与我们平时用的聊天AI不同。

传统的AI大多使用Prompt触发模型实现回答问题,即给大模型输入一段文本,触发模型生成回答。Prompt本身没有行动能力,而是其主要作用是触发模型生成回答。

而Agent软件实体,即每部包含了一个大模型,且配备了规划模块、记忆模型和工具接口等。使得Agent能够理解任务目标,自主规划步骤、调用工具和执行操作等,并通过记忆模块进行自我纠正和规范。

其实你使用传统大模型和Agent时应该深有体会,当你和传统大模型说"帮我我用代码写一个天气预测系统",它会给你直接输出每个部分的代码。而你使用Agent时,他会直接帮你建好文件,写好每个文件的代码。

以下是Prompt和Agent的对比:

Prompt Agent
本质 文本 智能系统
行动能力 无,等待模型输出回答 有,可调用API接口、操作文件等
任务执行 一对一对话,一问一答 设定目标后,可连续执行多步,直到完成
记忆 本身不记忆,但可依赖历史对话 拥有专门的短期记忆(当前任务上下文)和长期记忆(向量数据库RAG、知识库)
自主性 零自主性,完全被动 高自主性,可以自行决策、试错、调整计划

本质上,Prompt是Agent的组件,Agent内部大模型需要被Prompt引导,所以Agent的设计者会写很多系统级Prompt来设定Agent行为,例如"你是一个有用的助手,你应该逐步思考,并使用可用工具...",而且现在也衍生出了Skill实现对Agent行为设定。

Agent实现原理

AI Agent通常通过四个核心组件构成:大模型+规划能力+记忆+工具使用。

  • 大模型LLM:这是Agent的大脑,负责接收任务、理解分析、推理和决策。
  • 规划能力:这是将复杂的任务借助大模型进行分解和规划,并根据子任务执行情况的分析和反馈,对任务的规划进行调整。
  • 记忆(经验):记忆主要是存储经验和技能,可以分为长期记忆和短期记忆。长期记忆是记住用户的喜好、个人信息和向量数据库等;而短期记忆是指当前对话和刚刚执行的任务的。
  • 工具使用:根据决策和思考的结果,调用工具进行行动。外部工具例如API接口、数据库和硬件设备等。

Agent工作流程主要如下

可以看出,Agent具有自主性和反馈能力,可以实现不同试错和调整实现任务。

Agent发展历史

AI Agent的起点可追溯至20世纪中期的思想萌芽。在1950年,艾伦·图灵在其论文中就探讨了智能机器的可能性,为Agent概念埋下伏笔。80年代中后期,"Agent"一词被正式引入人工智能领域,最初指代能够使用传感器感知环境并自主采取行动的计算实体。

Agent发展:

发展阶段 时间 关键事件/模型 核心特点与意义
基于规则和早期机器学习阶段 (专注单一任务,缺乏通用性) 1997年 IBM深蓝战胜国际象棋冠军 展示基于规则与搜索的AI在特定博弈领域的能力,通用性极低
2016年 谷歌AlphaGo战胜围棋高手 引入深度学习和蒙特卡洛树搜索,让Agent在未知环境中自主学习成为可能,标志着强化学习驱动的Agent走向成熟,但未突破"单一任务"局限
基于大语言模型的快速发展阶段 (大模型赋予通用理解能力) 2018年 谷歌发布BERT 开启大语言模型时代
2019年 OpenAI推出GPT系列 大幅提升AI Agent的文本生成和知识储备能力
2023年 LLaMA、BLOOM等开源大模型发布 降低行业门槛,促进技术生态多元化
2025年 (AI Agent元年) DeepSeek-R1、Manus等自主Agent产品出现 拓展开源模型能力边界,标志着真正的自主Agent进入执行复杂任务的新阶段

Agent未来展望

趋势方向 核心变化 关键特点 / 示例
从工作流驱动到模型驱动 设计重心从应用层转向模型训练层 第一代:预编排提示词与工具路径,难扩展 下一代:强化学习+推理,动态规划策略、主动调用工具
多智能体协同 从单一智能体转向多专家协同 任务拆解给不同角色Agent,分而治之,提升复杂任务完成质量
更强的自主性与智能化 从被动执行到主动决策 深入理解人类意图,更强逻辑推理,能处理多步复杂任务
深度行业化与定制化 从通用能力到垂直领域深耕 专业Agent(医疗、金融、制造等),个性化适配用户偏好
多模态交互能力 从纯文本到融合感官信息 结合语音、视觉、触觉,实现更自然的人机交互
持续学习与自适应 从静态部署到动态进化 从经验中学习,适应环境变化,自我优化策略

Agent搭建

目前,Agent智能体应用已经较为成熟,比如Coze和Dify等,都是具有代表性的平台。并通过实践带大家用不同的平台,实现Agent智能体项目搭建。

Coze

介绍

Coze是字节跳动在2024年2月推出的一站式AI智能体(Agent)开发与应用平台。它的核心理念是"零代码、低成本",提供了可视化页面,实现通过拖拽插件、知识库和设定工作流来创建智能体。

特点
特性维度 具体内容
核心理念 零代码开发,让AI智能体创建触手可及
目标用户 无编程基础的个人、创作者、职场人士、中小企业
核心能力 多模态生成、可视化工作流、海量插件、私有知识库、多平台发布
典型场景 营销内容创作、智能客服、办公自动化、数据分析、教育培训
发布渠道 一键发布到抖音、飞书、微信、企业微信、Discord等,并支持API/SDK接入
主要优势 与字节跳动生态(豆包大模型、抖音等)深度整合,功能覆盖全面
开源情况 核心组件已开源 (Apache 2.0),支持私有化部署

此外,Coze2.0还引入了Agent Skills概念,实现将工作流、工具调用等封装成科复用的技能包。同时,还提供了丰富的插件来扩展智能体的能力,通过RAG技术,使任务更准确和专业。

搭建实例

搭建一个"会议纲要总结小助手"体会通过Coze搭建智能体的流程。

①打开扣子网页(网址:https://www.coze.cn/home),进行账号注册和登录

②新建项目

点击新建项目 ;点击智能体,根据需求输入附件、选择技能包和使用的模型等;然后点击发送按钮。具体如下图:

③平台自动搭建

之后,平台会根据你的设置进行自动搭建,并在页面左侧输出搭建的过程和反馈,你可以根据反馈再次进行提交你的要求,调整智能体。同时,可以在页面右侧进行此效果测试。

④会议纪要助手已经部署好了,可以用网页API 两种方式开始使用。如果想在自己的应用里调用,可以调用 API 说明;如果只是自己用,可以直接使用网页版。

方式一:通过网页版使用

如果你不需要进行二次开发,可以直接在扣子页面进行使用,这就是你亲手搭建的会议助手,能完全符合你的实际需求,并稳定地完成你的任务。

如果你需要二次开发,可以点击部署,通过生成的API接口在自己开发的应用内调用。这就是第二种使用方式:API调用。

**方式二:**通过 API 调用

如果需要把 Agent 接入你自己的系统或应用,可以通过 API 调用。下面是详细的调用步骤和说明。

请求参数示例:

以下是调用此 Agent 的请求参数示例,为了清晰,这里使用了未加密的格式。实际请求时,根据开发语言的 HTTP 库,将参数放入请求体中发送即可。

复制代码
  {
    "inputs": {
        "user_query": "请总结这段文本的核心内容:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的科学。"
    }
}

Dify

介绍

Dify是一个开源的AI应用开发平台,其核心理念是"让非工程师也能构建生产级AI应用"。它通过提供可视化编排、内置RAG引擎和强大的模型支持,极大地降低了AI应用的开发门槛,让企业能够快速、安全地将大模型能力落地到实际业务中。

特点
特性维度 具体内容
核心理念 降低AI应用开发门槛,让非工程师也能快速构建生产级应用
目标用户 企业开发者、AI产品经理、数据分析师、希望快速将AI落地的团队
核心能力 可视化工作流编排、企业级RAG引擎、多模型统一接入、LLMOps全链路监控
典型场景 智能客服、企业知识库问答、金融风控、自动化数据洞察报告生成等
主要优势 强大的RAG能力、多模型无缝切换、企业级数据安全和私有化支持、全链路LLMOps监控
开源情况 项目创立于2023年3月,采用Apache 2.0许可证,已在GitHub上获得大量关注
搭建实例

①打开Dify网站:https://cloud.dify.ai/

②使用邮箱和验证码进行登录

③开始搭建Agent,选择Agent→创建空白应用

④进行搭建,常规操作:选择Agent、输入Agent项目名、进行描述,最后进行点击创建

⑤根据实际需求进行下载工具、添加工具

⑥根据应用功能进行输入提示词,变量和其他,即可搭建Agent项目,实现实际功能

1)设置变量输入,以下为实例:

2)不设置变量输入,直接对话输入:

实际的开发和应用,需要根据实际需求和模拟效果来进行调整,以上只是简单的搭建流程的展现。

相关推荐
码农的神经元1 小时前
2026年华中杯 A题:城市绿色物流配送调度
人工智能
小超同学你好1 小时前
面向 LLM 的程序设计 14:RAG 与检索块进入上下文的工程化——分块、元数据、去重与注入模板
人工智能·语言模型
ん贤2 小时前
如何设计一个灵活、高效、安全的 AI 工具系统
人工智能·安全·go
OpenBayes2 小时前
强化文字渲染与海报排版:百度开源文生图模型 ERNIE-Image-Turbo;告别大模型「遗忘」:微软 OpenMementos 上下文压缩训练数据集上线
人工智能·深度学习·百度·语言模型·微软·开源
雷帝木木2 小时前
Python 并发编程高级技巧详解:从原理到实践
人工智能·python·深度学习·机器学习
一个天蝎座 白勺 程序猿2 小时前
AI入门踩坑实录:我换了3种语言才敢说,Python真的是入门唯一选择吗?
开发语言·人工智能·python·ai
Hui_AI7202 小时前
保险条款NLP解析与知识图谱搭建:让AI准确理解保险产品的技术方案
开发语言·人工智能·python·算法·自然语言处理·开源·开源软件
雷帝木木2 小时前
Python Web 框架对比与实战:Django vs Flask vs FastAPI
人工智能·python·深度学习·机器学习
万粉变现经纪人2 小时前
如何解决 pip install jaxlib[cuda] 报错 CUDA 版本与轮子标签不匹配 问题
人工智能·python·深度学习·tensorflow·pandas·scikit-learn·pip