AI Agent 入门指南:从 LLM 到智能体

AI. AI. AI. 最近耳朵里是不是总是被这些词轰炸?特别是"Agent"、"AI Agent"、"智能体"、"Agentic"...... 感觉一夜之间,AI 就从我们熟悉的聊天框里蹦出来,要拥有"独立思考"和"自主行动"的能力了?

说实话,一开始我也被这些词搞得有点晕。很多解释要么太技术化,各种框架、算法扑面而来;要么又太基础,讲了半天还是感觉没抓住重点。

如果你跟我一样,不是程序员,没有深厚的技术背景,但平时一直在用 ChatGPT、文心一言、通义千问这些 AI 工具,也想搞明白 AI Agent 到底是什么,以及它将来可能会如何影响我们的生活和工作,那恭喜你,这篇文章就是为你写的!

今天,我就用最简单、最贴近生活的例子,带你一起走完一个"1-2-3"的学习路径:从你熟悉的 LLM(大型语言模型),到 AI 工作流(AI Workflow),再到最终的 AI Agent(AI 智能体)。相信我,那些听起来吓人的"RAG"、"ReAct",拆开了看一点都不复杂!

咱们,这就开始!

第一层:你熟悉的"超级大脑"------大型语言模型(LLM)

咱们先从最熟悉的第一层说起。你平时用的那些强大的 AI 聊天机器人,比如 ChatGPT、Google Gemini、Claude、国内的文心一言、通义千问等等,它们的核心其实都是构建在大型语言模型(LLM)这个基础上的应用。

你可以想象一下,LLM 就像一个拥有海量知识的"超级大脑"。我们人类(你)给它一个输入(也就是 Prompt,你的问题或指令),它就根据它在训练中学到的海量数据,给出一个输出(它的回答或生成的内容)。

举个最简单的例子:我让 ChatGPT 帮我写一封约咖啡的邮件。我的 Prompt 就是输入,它瞬间生成的那封比我本人写得流畅、客气一百倍的邮件,就是输出。到这里是不是感觉很简单?没啥难的!

但是,问题来了。如果我问 ChatGPT:"我下周三跟 Elon Husky 约咖啡是几点?"

你懂的,就算你没试过,你也知道它肯定会懵圈,然后回复你一句"我不知道你的个人日程信息"。为什么?因为它没法访问我的个人日历!

这就暴露了大型语言模型的两个关键"软肋":

  1. 知识不全: 它们虽然学了很多互联网上的公共数据,但对我们个人的私密信息、公司内部的数据,或者某些实时变化的信息(比如我的最新日历、最新的天气),是一无所知的。

  2. 太"被动": 它们就像一个被动等指令的机器人。你问一句,它答一句。你给它个 Prompt,它给个 Output。它不会主动去外部世界获取信息,也不会自己决定去做点什么。

记住 LLM 的这两个特点,我们继续往下走,看看怎么解决这些问题。

第二层:听话的"流水线工人"------AI 工作流(AI Workflow)

既然 LLM 自己不知道我的日历,那我们能不能给它"赋能"呢?这就是 AI 工作流要做的事情。

我们可以在 LLM 的外面,搭建一个"工作流程"。比如,我这个人类,可以预设一个逻辑:"以后只要我问关于个人日程的问题,我的指令先不要直接给 LLM,而是先触发一个'查日历'的动作。查到日历数据后,把数据连同我的问题一起,打包喂给 LLM,让它根据这些信息回答。"

如果按照这个逻辑实现了,下次我再问"我下周三跟 Elon Husky 的咖啡约会是几点?",我的这个问题就会先触发"查日历"这个步骤。系统查到日历信息(比如是下午 3 点),然后把"我下周三跟 Elon Husky 约会是下午 3 点"这个信息,连同我的问题,一起发给 LLM。LLM 收到信息后,就能准确地回答我了!

看起来很智能对不对?但新问题又来了。如果我紧接着问:"那天下雨吗?"

这时候,我的这个"查日历"工作流就又会"卡壳"了。为什么?因为它只能严格遵循我预设好的那个"路径":永远是"查日历"。我的日历里可没有天气信息!

这就是 AI 工作流的一个根本特点:它只能严格、机械地遵循人类预设好的、固定不变的"路径"或"步骤"去执行任务。 它就像一条"流水线",每一步做什么都是我们人类提前设计好的。用技术话说,这个固定的路径,就是它的"控制逻辑",是人来编写和控制的。

就算我把这个流程搞得更复杂:比如先查日历,再通过天气 API 查天气,甚至再加一个文语转换模型把最终答案读出来。听起来功能很强大了,对不对?但本质上,它依然只是一个 AI 工作流。 为什么?因为它每一步做什么,调用哪个工具,都是我这个人类提前设定好的。只要是由人类在做决策,决定一步一步怎么走,它就还不是 AI Agent。

顺便提一个你可能听过的高级词:"RAG "(Retrieval Augmented Generation,检索增强生成)。这个词在 AI 圈子里被说得很多,听起来很高大上。其实你简单理解,它就是一种特殊的 AI 工作流!它的核心功能就是:在 AI 模型生成回答之前,先去外部世界(比如你的文档库、数据库、互联网)"检索"相关的"增强"信息,然后把信息喂给模型,让它基于这些信息生成更准确、更及时的回答。 所以,"检索"+"生成",就是 RAG 的本质,它是一种让 LLM 突破自身知识限制的有效工作流。你看,是不是没那么复杂了?

我之前用 Make.com 搭建过一个很典型的 AI 工作流,你听听是不是这个逻辑:

  1. 我把收集到的新闻文章链接放到一个 Google Sheets 表格里。

  2. 我的这个自动化工作流启动后,先去读取 Google Sheets 里的链接。

  3. 然后把链接发给 Perplexity,让 Perplexity 帮我总结文章内容。

  4. 接着把 Perplexity 总结好的内容,发给 Claude(一个 LLM),并配合我预设好的一个 Prompt,让 Claude 帮我写成适合发 LinkedIn 和 Instagram 的社交媒体推文。

  5. 最后设置成每天早上 8 点自动运行一次。

你看,这就是一个标准的工作流:每一步都由我这个人类事先设定好了------先表格、再 Perplexity、然后 Claude、最后定时。人是这个流程的决策者和设计者,它只是按部就班地执行。

再加一个点:如果我对 Claude 生成的 LinkedIn 推文不满意(比如我觉得它写得不够吸引人),我得手动去修改那个给 Claude 的 Prompt,然后重新运行一下这个工作流。这个"试错-调整-再运行"的过程,现在还是由我这个人类在完成。记住这一点,因为待会儿讲 Agent 的时候,它就不同了!

第三层:能"思考"和"行动"的自主个体------AI Agent

好,终于来到第三层,也是最近最让人兴奋的概念:AI Agent(AI 智能体)

核心区别是什么?还记得刚才的 AI 工作流吗?是人类 决定每一步怎么走。而 AI Agent 最关键的变化在于:把那个做决策的人类,换成了一个 LLM!

简单来说,一个真正的 AI Agent,不再是一个只等你下指令、按固定流程跑的机器人。它更像是一个拥有某个"目标"后,能够自己去思考、自己去行动,想方设法达成目标的"智能体"。

它的核心能力体现在两个方面(这也是为什么很多 Agent 框架被称为 ReAct 的原因,ReAct = Re ason + Act):

  1. 它必须能"思考"(Reason): 当你给 Agent 一个目标(比如"帮我写一篇基于最新新闻的社交媒体推文")时,它不会傻等指示。它会自己动脑子,像人一样"思考":怎么做最有效率? 我需要新闻内容,是自己去网上找然后复制粘贴吗?好像太慢了。哦,我可以只收集新闻链接,然后调用一个工具自动抓取内容并总结!这个方案听起来不错!它会自己选择最佳的路径和方法。

  2. 它必须能"行动"(Act): 光想没用,Agent 必须能把想法付诸实践。它会自己去调用各种外部工具来完成任务。比如,它决定要收集链接并抓取内容,它会自己选择并调用合适的工具(比如一个搜索引擎 API、一个网页抓取工具、或者像 Make.com 那样能连接各种服务的平台)来执行这些操作。再比如,要写推文,它会自己决定调用哪个 LLM,使用什么样的 Prompt,并把之前获取到的新闻总结作为输入。

所以,当一个 AI 接收到一个任务/目标后,如果它能够:

  • 自己"思考" 达成目标的步骤和方法(Reason)

  • 自己"行动" 去调用工具执行这些步骤(Act)

  • 自己"观察" 行动的结果是否符合预期

  • 自己"决定" 是否需要调整计划或重复步骤(Iterate)

  • 直到最终达成目标

那它就是一个 AI Agent!关键是:决策者从人类变成了 LLM 自己。

还记得刚才我在 AI 工作流里手动修改 Prompt 吗?在 Agent 的世界里,它还能做得更多:

一个高级的 AI Agent,甚至拥有自主迭代(Iterate)和优化的能力。比如,它写完第一版的 LinkedIn 推文后,可能会自己调用另一个 LLM 来"评价"这篇推文质量如何,是否符合要求。如果评价反馈说"不行,不够吸引人",Agent 会根据这个反馈,自己调整推文的内容或写作策略,然后再让评价 LLM 检查,直到写出它认为最佳的版本。整个"生成-评价-修改"的循环,Agent 自己就能完成,不需要我这个人类一直盯着、手动修改。

再举个更具象的例子。AI 领域的牛人吴恩达(Andrew Ng)之前演示过一个 AI 视觉 Agent。你给它一个目标:"在视频素材里找到所有出现'滑雪的人'的片段"。

这个 Agent 在后台做了什么呢?它首先会"思考":一个"滑雪的人"大概长什么样?(嗯,应该是一个人在雪地里,穿着滑雪板,可能速度很快?)然后它开始"行动":它会自己去浏览视频里的每一帧画面,调用图像识别或动作捕捉等工具,尝试识别出符合它"思考"出来的特征的画面。一旦找到了它认为是"滑雪的人"的画面,它就会给对应的视频片段打上标签,并把这些片段提取出来呈现给你。

这个过程最厉害的地方在于:识别"滑雪的人"、判断画面、打标签、提取片段,整个复杂的任务,是这个 Agent 自己根据目标,自主地进行"思考"和"行动"来完成的,而不是预先由人类把视频都看一遍,手动给每一段打好各种标签(比如'滑雪者'、'雪山'、'雪地'等等),Agent 只是按照人类打好的标签去检索。 这种根据目标自主规划和执行的能力,就是 Agent 和传统工作流的根本区别。

总结一下:从 LLM 到 Agent 的进阶之路

好了,咱们一起回顾一下今天走过的"1-2-3"路径:

  1. 第一层 LLM: 你给输入,它给输出,很被动,知识有限。

  2. 第二层 AI 工作流: 你给输入,并给它设定好固定的步骤(人类是决策者),它按照你的步骤去调用外部工具(比如查日历、查天气、查数据库)获取信息,再给 LLM 处理,最终给输出。流程固定,需要人类来调整和优化。

  3. 第三层 AI Agent: 你给一个目标,LLM 自己会"思考"(Reason),决定要采取哪些"行动"(Act),自己去调用工具,自己观察结果,甚至能自主"迭代"优化,最终达成目标(LLM 是决策者)。 它是一个更智能、更自主的"个体"。

AI Agent 正在让 AI 从一个被动的工具,变成一个能理解你的意图、自主规划并执行任务的"智能助理"。虽然目前可能很多 Agent 还不完美,但毫无疑问,它们代表着 AI 应用的一个重要发展方向,也预示着未来我们的工作和生活方式可能会因此发生改变。

希望这篇文章能帮你揭开 AI Agent 的神秘面纱,让你不再觉得这些词高不可攀。理解了这些基础概念,你就能更好地把握 AI 发展的脉搏啦!

相关推荐
星期天要睡觉5 分钟前
深度学习——数据增强(Data Augmentation)
人工智能·深度学习
南山二毛1 小时前
机器人控制器开发(导航算法——导航栈关联坐标系)
人工智能·架构·机器人
大数据张老师1 小时前
【案例】AI语音识别系统的标注分区策略
人工智能·系统架构·语音识别·架构设计·后端架构
xz2024102****1 小时前
吴恩达机器学习合集
人工智能·机器学习
anneCoder1 小时前
AI大模型应用研发工程师面试知识准备目录
人工智能·深度学习·机器学习
骑驴看星星a2 小时前
没有深度学习
人工智能·深度学习
youcans_2 小时前
【医学影像 AI】YoloCurvSeg:仅需标注一个带噪骨架即可实现血管状曲线结构分割
人工智能·yolo·计算机视觉·分割·医学影像
空白到白2 小时前
机器学习-决策树
人工智能·决策树·机器学习
奇舞精选2 小时前
超越Siri的耳朵:ASR与Whisper零代码部署实战指南
前端·人工智能·aigc
说私域2 小时前
兴趣电商内容数据洞察未来市场走向研究——基于开源AI智能名片链动2+1模式S2B2C商城小程序的实践
人工智能·小程序