从入门到辞职｜从ChatGPT到OpenClaw，跟上智能时代的进化

如果你是最近才开始接触AI，可能会被ChatGPT、AI绘画、智能机器人等五花八门的应用惊艳到，也可能会对"大模型""多模态""深度学习"这些词汇感到困惑。其实，我们现在感受到的AI热潮，并非一蹴而就，而是近几年技术持续迭代、逐步爆发的结果。这篇文章会用最直白的方式，从模型，工程，框架几个方面，帮你快速摸清AI的成长脉络，读懂当下的AI热潮背后的来龙去脉。（本文也是作者在学习时的一些笔记和想法）

大语言模型，AI的核心

AI模型是AI的核心，就像汽车的发动机一样。它决定了AI的能力和表现。近年来，随着计算能力的提升和数据的积累，AI模型经历了从简单到复杂、从单一到多模态的发展过程。

2020年

事情还要回到2020年，OpenAI发布了GPT-3，这个拥有1750亿参数的语言模型震惊了整个科技界。它不仅能够生成流畅的文本，还能进行翻译、写作、编程等多种任务，展示了AI在自然语言处理方面的巨大潜力。也就是这一年开始，越来越多的公司，开发者开始关注并且还是使用AI模型。OpenAI也是凭借GPT-3的成功，成为了AI领域的领军企业，推动了整个行业的发展。

2022年

这仅仅是AI爆发的开端。时间来到2022年，Midjourney、Stable Diffusion等图像生成模型相继崛起，彻底打破了AI在视觉领域的应用局限，让AI绘画、图像生成等场景从概念走向现实，极大拓展了AI在视觉领域的应用边界。同年，Github Copilot正式发布，这一里程碑式的产品标志着AI在编程领域的重大突破------AI不仅能够精准理解人类的自然语言需求，还能生成高质量、可直接复用的代码，大幅降低了编程门槛，极大提升了开发者的工作效率。

2023年

之后进入2023年，GPT-4发布，它不仅在语言理解和生成方面有了显著提升，还引入了多模态能力，能够处理文本、图像等多种输入。模型开始卷通用性和专业性，既能满足大众用户的需求，也能为专业领域提供定制化的解决方案。与此同时，Google推出了Gemini、Anthropic推出了Claude、阿里推出千问，Moonshot推出了Kimi、百度推出了文心一言，大模型呈现"百花齐放"的局面。AI正式进入普通用户的视野，成为了我们日常生活的一部分。

2024年

虽然模型的能力在不断提升，但随着模型规模的增加，训练成本和资源消耗也在急剧上升。训练大模型成为了大型科技公司的专利，普通开发者和小公司很难参与到模型的训练和创新中来，这也导致了AI领域的创新主要集中在少数几家大公司手中。但是到了2024年底，DeepSeek横空出世，其宣称的557.6万美元的训练成本，震惊了整个行业，让这些动辄几千万美元的训练成本一下子变得亲民了许多。并且DeepSeek是完全开源的，这让垄断了AI模型训练的巨头们感受到了前所未有的压力，迫使他们不得不重新审视自己的商业模式和创新策略。AI大厂互相卷价格卷性能，这也让普通用户和开发者受益，能够以更低的成本使用和训练AI模型，让AI技术在更多的人群中传播开来。

2025年-现在

随着各种模型的迭代，人们不在满足于它在对话框里带来作用，各种Agent层出不穷，它们能帮你规划旅行，总结文档，做研究...但是这些Agent的作用往往很局限，只能负责单一功能，多个Agent之间仍需要人工来"牵线搭桥"。直到Manus的出现，他向人们展示了什么是Agent的未来，不需要过多的干预和指引，只需要告诉他你的需求，他便能自动进行规划，任务拆解再到执行，最后将结果呈现给你。Manus是云端的，相当于一个待雇佣的员工。一直到后来的OpenClaw，将这种能力带给了所有人！你只需要在本地部署一个OpenClaw，便拥有了一个专属于你自己的"贾维斯"，一人成军的时代，真的来了。

工程化，AI的四肢

随着时间的推移，我们也发现，各个厂商的模型在性能上逐渐趋于同质化，创新点越来越少，模型的迭代速度也开始放缓。但AI模型本身从一开始就存在一些问题，比如的AI幻觉，在运行开源模型llama3.2时问它"9.11和9.9哪个大"，它的回答是"9.11 和 9.9 之间的差值是 0.02。"，就是既没有理解问题的意思，也没有正确计算出结果。再比如我们每次和AI进行对话后，还需要手动的将我们的答案提取后再复制到其他软件中才能使用。我们要怎么解决这些问题并且将如此强大的能力用在我们日常生活工作中呢？这就需要工程化的手段来弥补模型的不足了。

Tool，让AI从聊天框走出来

回到GPT-3时代，这个时候的AI模型还只是一个单一的语言模型，只能和用户进行一来一回的对话，无法满足复杂的应用需求，也无法将大语言模型嵌入到实际的业务场景中去。但是大语言模型的一个好处就是，它什么都懂，所以它知道JSON，并且由于JSON是一种很通用的数据格式，大模型天然适合理解自然语言问题并且把答案转换成JSON格式的输出。

所以换种思路，我们只需要跟模型进行对话，让它输出JSON格式的结果，然后我们再用程序去解析这个JSON，就可以把大语言模型的能力嵌入到各种应用场景中去了。比如，我们让模型帮我写一封邮件，然后让它输出成JSON格式的内容：

json 复制代码

{
  "to": "test@example.com",
  "subject": "Test",
  "body": "This is a test email."
}

在接收到这个JSON之后，我们的程序就可以很方便地把它转换成一封真正的邮件发送出去。这样一来，我们就把大语言模型的能力嵌入到了邮件发送这个具体的应用场景中去了。这就引出了我们今天很重要的一个概念，工具调用（Tool Calling）。

工具调用，让AI脑子有了双手，能够将思想变为行动。通过工具调用，我们可以让大语言模型调用各种各样的工具，比如数据库查询、API调用、文件操作等等，从而实现更加复杂和多样化的应用场景。比如，我们可以让模型调用一个天气API，获取当前的天气信息，然后将其输出给用户；并且工具调用对大模型输出进行了约束，让它只能输出特定格式的结果，再结合上重试等机制，就大大降低了模型输出不准确或者不相关内容的风险，提高了模型的可靠性和实用性。

MCP，让AI拥有了通用插槽

随着工具调用的普及，一个新的问题又出现了：不同的工具、不同的业务场景，需要AI适配不同的调用规则。比如，调用天气API需要传入"城市编码"，调用数据库需要写SQL语句，调用邮件工具需要按JSON格式输出。如果每新增一个工具，就需要重新训练模型、调整适配逻辑，不仅效率极低，还会让系统变得杂乱无章，难以维护。就像有的国家用两孔插座，有的用三孔插座，没有一个通用接口，十分麻烦。而MCP（模型控制协议），就是工程化解决方案中给AI打造的"通用插槽"，它的核心作用是统一所有工具、场景的调用标准，让AI无需单独适配每个工具，就能快速对接各类资源。简单来说，MCP就像是一个"翻译官"，一边对接AI的自然语言输出，一边对接各类工具的调用规则，把AI的需求转换成工具能理解的指令，同时把工具的返回结果转换成AI能处理的格式。

MCP的出现，不仅降低了AI对接工具的难度，还提升了系统的灵活性和可扩展性。无论是新增工具、替换工具，还是切换业务场景，只要遵循MCP的通用标准，就能快速完成适配，无需对AI模型本身进行修改。这就像我们家里的通用插座，不管是手机充电器、电脑适配器，还是台灯，只要插头符合标准，就能直接使用，大大提升了使用效率------而MCP，就是AI工程化体系中的"通用插座标准"。

Memory，让AI不再忘事

大模型的能力虽然强大，但它的短期记忆有限，无法在一次对话中记住过多的信息，也无法跨会话保持上下文的连续性。比如你在一开始告诉AI的信息，在经过十几轮对话之后，AI可能就会忘记了，或者在不同的对话中，AI可能会给出前后矛盾的回答。这就导致了AI在处理复杂任务或者长时间交互时，容易出现忘事或者前后矛盾的情况。并且每次有相似的问题需要提问，我们都需要重新输入之前的信息，这不仅增加了用户的负担，也降低了AI的使用体验。让对话变成了一次性的交流，而不是一个持续的、连贯的过程。

Memory（记忆）机制的引入，就是为了弥补大模型短期记忆的不足，让AI能够更好地理解和利用历史信息，从而提升其在复杂任务中的表现。通过Memory机制，AI可以将重要的信息存储起来，并在需要的时候进行调用，这样就能够保持对话的连贯性和一致性，同时也能更好地理解用户的需求和意图。

RAG，让AI读懂海量信息

大语言模型有一个明显的短板：它的知识范围局限于训练数据，对于训练数据之后出现的新信息、行业内的专属文档、企业内部的私密数据，它一无所知。也就是说，AI只能回答它"知道"的问题，而对于它"未知"的问题，它就只能瞎猜了，这也是很多AI幻觉的根源所在，他所回答的答案没有任何事实依据。而RAG（检索增强生成）技术，就是工程化用来解决这个问题的"海量信息阅读器"，它能让AI快速检索、理解海量文档，结合文档内容给出精准答案，彻底摆脱对训练数据的依赖。

首先我们需要把海量的文档进行预处理，提取出其中的关键信息，并将这些信息存储在一个高效的检索系统中（一般是向量数据库）。当用户提出一个问题时，AI首先会通过RAG技术在这个检索系统中寻找相关的文档，然后将这些文档的内容与用户的问题结合起来传给大模型进行处理。也就是信息预处理、信息检索、信息融合三个步骤。通过RAG技术，AI不仅能够回答它"知道"的问题，还能准确回答它"未知"的问题并且给出有事实依据的答案，大大提升了AI的实用性和可靠性，减少幻觉。

Skill，让AI能按照经验办事

将大模型比喻成一个脑容量很大的天才的话，我们很清楚它能很快的进行学习理解，但是对于未知的领域或者复杂的任务，它就像一个无头苍蝇一样，不知道该怎么做，一会按照这个想法，一会又是另一套路子。对于我们的工作来说，这会是一个很大的隐患，首先我们不想要答案变成盲盒，每次都需要抽奖。其次我们有很好的解决方案，我们希望AI能够按照我们提供的解决方案来办事，而不是自己瞎想一套新的方案来做。比如我们有一个很固定的代码debug流程，比如先查看报错，然后查看日志，再查看代码，最后定位问题并且解决问题。我们希望AI能够按照这个流程来帮我们debug，而不是每次都想一套新的流程来帮我们debug，这样效率会很低，并且不稳定。

如何将我们的工作流，工作经验告诉AI？这就得提到Skill了，它相当于是一份工作手册，Skill是Anthropic提出的一个概念，在实际使用的时候就是一个md文件，里面包含了这个技能的描述、使用方法、输入输出格式等信息。当AI需要使用这个技能时，就会加载这个md文件，根据其中的指导来完成任务。

Skill（技能）机制的引入，就是为了让AI能够按照经验办事，遵循既定的流程和规则来完成任务。通过Skill机制，我们可以将一些常见的解决方案、操作流程或者专业知识封装成一个个"技能"，当AI需要处理相关的任务时，就可以加载这些技能来指导它的行为，从而提升效率和稳定性。

Agent，将以上能力整合成为一个独立的"人"

Tool让AI有了"双手"，能执行具体操作；Memory让AI有了"记忆"，能记住关键信息；MCP让AI有了"通用接口"，能灵活对接各类工具；RAG让AI有了"知识库"，能读懂海量信息；Skill让AI有了"经验"，能完成流程化任务------当我们把这些能力全部整合起来，就形成了AI Agent，一个能像人类一样独立思考、独立行动的"智能个体"。

如果说大语言模型是AI的"大脑"，工程化的各项技术是AI的"四肢和器官"，那么Agent就是把这些"器官"整合起来，形成的一个完整的"人"。它不需要人类的过多干预，只需接收一个明确的目标，就能自主分析需求、规划步骤、调用工具、整合资源、处理异常，最终完成任务------这也是AI从"工具"向"助手"进化的核心标志。并且随着技术的发展，Agent的能力也在不断的进化，像以上提到的这些技术，也不是从一开始就有的，而是随着Agent的发展逐步引入的。

Agent Teams，让AI进行协作

单个Agent的能力再强，也有其局限------就像一个人无法同时完成多个专业性极强的复杂任务，比如一边开发，一边测试，一边运维，一边还要处理客户反馈，这些任务需要不同的专业知识和技能，并且Agent在不同的角色之前切换时极其容易错乱，所以单个Agent很难胜任。而Agent Teams的概念，就是为了让多个Agent能够协同工作，分工合作来完成复杂的任务。每个Agent可以专注于自己擅长的领域，然后通过一个协调机制来让这些Agent之间进行沟通和协作，从而高效地完成整个项目的开发、测试、部署和维护。

框架，AI的骨架

AI框架，就像是人的骨架一样，支撑着整个AI系统的结构和运作，将各种模型、工具、技术整合在一起，形成一个完整的AI生态系统。随着AI技术的不断发展，越来越多的框架应运而生，帮助开发者更高效地构建和部署AI应用。下面介绍几种比较有代表性的AI框架：

LangGraph

github.com/langchain-a...

基于图结构的流程编排框架，核心优势是可回溯、可修改的确定性流程控制，支持状态管理和循环/分支逻辑定义，每一步的执行结果都会被持久化，可实现步骤回溯、错误修正和流程迭代。比较适合简单的流程化AI应用（如固定话术的客服机器人、步骤明确的文档处理工具）。如果入门还可以试一下LangChain，支持简单的线性流程编排，适合初学者快速上手。

CrewAI

github.com/crewaiinc/c...

面向多智能体协同的框架，支持任务自动拆分、智能角色分配和结果校验+返工，无需手动定义每个角色的具体操作，只需输入目标和角色描述，框架会自动调度各智能体完成分工协作。可适用于多任务协同的应用（如自动写报告、简单调研汇总工具），不用深入掌握协同逻辑。

Microsoft AutoGen

github.com/microsoft/a...

基于多智能体对话协作的框架，核心特性是智能体间自然对话分工、支持代码执行沙箱，智能体可通过对话协商任务分配，代码执行时会在隔离沙箱中运行，避免误操作影响本地环境，还支持多轮迭代修正。适合复杂应用比如代码生成、脚本开发。

LlamaIndex Workflows

github.com/run-llama/w...

聚焦文档处理与检索的工作流框架，核心优势是高效检索文档关键信息、支持检索驱动的流程触发，能快速从海量文档中提取有用信息，再根据提取的信息自动触发后续操作（如生成总结、回答问题）。适合重点是文档问答、文档总结、知识库查询类应用。

Aden Hive

github.com/adenhq/hive

具备动态规划能力的多智能体框架，核心特性是目标驱动的自动规划、流程自适应调整，无需提前定义具体步骤，只需输入最终目标，框架会自动创建Agent Teams，规划执行步骤、分配任务，遇到阻碍时能自动调整步骤（如某一步无法执行，自动替换执行方案）。适合复杂目标的实现（如多行业调研、复杂报告生成），并且不需要自行构建Agent。

最后

时代在进步，技术在迭代，就算是现在我们也已经能亲身体会到AI带来的便利了，与其说AI会取代我们的工作，不如说AI会让我们的工作更高效、更有创造力。就像当年计算机的出现一样，虽然它取代了很多传统的手工计算工作，但同时也创造了无数新的职业和机会。AI也是一样，它会取代一些重复性、低价值的工作，但同时也会创造出更多需要人类智慧和创造力的新岗位。所以，与其担心被AI取代，不如积极拥抱AI，学习如何与AI协作，让它成为我们工作和生活中的得力助手。