聊聊大模型开发的发展历程

ChatGPT 问世 - AI 时代到来的 '吹号人'

2022.11.30 OpenAI 发布了划时代产品 ChatGPT。在随后的几天、几周内迅速发酵，瞬间火遍全球。

在 ChatGPT 问世后，第一次体验该产品，我相信你应该跟我一样，都被其震撼住了，仿佛是在跟一个真人聊天一样。

在随后的工作中，更是改变了我的工作方式，更多的时候是问 ChatGPT，而不是问 google、baidu。因为他在检索、知识总结这块的能力真的很强，比你自己 google 效率更高。

但是那时候 ChatGPT 有一个比较严重的问题，虽然它不懂，但是他会化身为懂王，开始装懂，然后给你一段看起来很正确，但是其实一点都用不了的代码。

RAG - 解决大模型幻觉

为了减缓大模型幻觉问题，RAG 被引入！

RAG 理论来自于2020年Facebook的论文 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks。

RAG 的原理是：大模型在回答问题前，先到外部的知识库检索相关资料，最后再整合检索到的资料进行输出。这样大模型的输出来源就有依据，能有效减少幻觉问题。

当然 RAG 不仅减少了大模型的幻觉问题，还解决了大模型知识时效性差的问题。因为可以查外部时效性高的知识库。

在 RAG 被应用到大模型后，很多公司基于 LLM + RAG 构建企业自身的知识库。

大模型百花齐放，LangChain 开发框架到来

随着 ChatGPT 爆火，各个科技公司开始纷纷跟进。2023 年大型公司纷纷推出自己的大模型，大量的开发者基于大模型开发应用。经典的就是中国创业者研发的 AI聊天软件，大家都是懂王，懂的都懂。

为了降低基于大模型开发的成本，2023 年 LangChain 开发框架问世，降低不同大模型接入成本，提供通用的功能，例如简化不同的大模型的接入、RAG 实现、管理对话记忆等。

AutoGPT 被提出，AI Agent 开始被大众熟知

总有聪明人想让 AI 做更多的事情。于是呢：

2023年4月，AutoGPT发布，可自主执行任务的 AI 应用被大量关注。
2023年6月，OpenAI团队负责人翁丽莲发表博客《LLM Powered Autonomous Agents》，系统阐述了基于 LLM 的 AI Agent 架构, AI Agent 开始「刺激」起来了。

原本 AI 还能当个人(聊天)，现在只能开始当「工具人」(助手，自主执行任务)。

Function Calling - 解决大模型信息孤岛

2023年6月，OpenAI在GPT-4中正式引入了 Function Calling。这玩意能做什么呢？为什么被引入呢？我们来看一个应用场景。

你问大模型：今天泉州天气如何？

大模型的数据都是预训练的，因此大模型肯定不清楚今天泉州天气怎样

那么怎样才能让大模型知道泉州天气如何呢？很简单，让应用程序帮大模型获取泉州天气，然后把结果返回给大模型，最后再由大模型整合结果输出给用户。

那这里又产生一个问题，应用程序肯定知道要传哪些参数，但是肯定不知道这些参数的值，那么就必须由大模型从用户的对话中，提取出天气 API 参数，告诉应用程序，应用程序才能拿着参数去调用天气 API。

那么解决这个问题的方式就很清晰了：
应用程序告诉大模型，我可以帮你获取天气，但是你得告诉我对应的城市以及日期，然后大模型会从用户对话中提取对应的城市、日期并返回给应用程序

OpenAI 也是这么设计它的 Function Calling API 的。

在对话 API 中，有一个 tools 参数

json 复制代码

{
    "type": "function",
    "name": "get_horoscope",
    "description": "Get today's horoscope for an astrological sign.",
    "parameters": {
        "type": "object",
        "properties": {
            "sign": {
                "type": "string",
                "description": "An astrological sign like Taurus or Aquarius",
            },
        },
        "required": ["sign"],
    },
}

name：程序中的方法名
description：该方法能提供什么
parameters：调用该方法需要什么参数

大模型会根据用户的对话自主判断是否要由应用程序协助获取当前天气，如果需要的话，会在返回中告知应用程序。

MCP 协议 - 终结重复造轮

有了 Function Calling 之后，能开发出好玩的 AI 应用了。但是同时也有一个弊端。假如你又重新开发了一个 AI 应用，这个应用又同样有查询天气的功能，难道把代码抄一遍？

聪明人已经开始在想办法解决重复开发的问题。

2024.11 Anthropic 提出 MCP（模型上下文协议），用于解决重复造轮问题，统一大模型调用外部工具的协议。

这一时刻涌现出很多运行在本地的 MCP 客户端。典型代表如：IDE 编程助手 Cursor。同时也加速 AI 成为个人超级助手的趋势。

多模态Agent - 从只能看懂文字进化到能看懂世界

打开你的想象力，人类肯定不满足于 Agent 只能处理简单的文字，2024 年斯坦福李飞飞团队等研究机构发布了多篇关于"Agent AI"和"多模态交互智能体"的综述论文，系统性地定义了这类系统。

多模态 Agent 定义：能理解、处理和生成多种模态数据（如文本、图像、语音、视频、传感器数值）能力的智能体系统。

2024年下半年至2025年------随着GPT-4V等原生多模态大模型的出现，产业界开始大规模投入研发能够同时理解文本、图像、音频、视频的智能体。

从个人角度理解，这基本是迈出了通往 AGI 关键的一步！

A2A 协议 - 打破智能体孤岛

有了多 Agent，那么 Agent 与 Agent 如果需要互相协作要怎么办呢？

2025年4月9日，谷歌在Google Cloud Next大会上宣布开源A2A协议，这是一个 Agent 与 Agent 之间交互的协议。

2025年6月24日，谷歌将该协议捐赠给Linux基金会，亚马逊、微软、思科、Salesforce等超过100家科技巨头宣布加入支持。

结语

以上就是我对 Agent 开发这块的个人理解，算是一个发展过程的梳理吧。我个人认为，AI 会改变世界，Agent 开发也会越来越火、越来越普及。作为开发者，咱们也该跟上这波潮流，投入到Agent开发中去。