《Agent开发工程师成长指南》- 第2章 第1节:GPT到底是什么?从语言模型到智能体“大脑”的演进之路

第一卷:大模型基础篇

第2章 大模型基础原理

第1节:GPT到底是什么?从语言模型到智能体"大脑"的演进之路

《Agent开发工程师成长指南》系列教程


引言

在正式学习Prompt、RAG、Agent之前。

我们必须先回答一个最基础的问题:

GPT到底是什么?

很多人每天都在使用ChatGPT。

但真正理解GPT工作原理的人并不多。

有人认为:

复制代码
GPT是搜索引擎

有人认为:

复制代码
GPT是知识库

还有人认为:

复制代码
GPT是超级数据库

事实上。

这些理解都不准确。

因为:

GPT本质上既不是搜索引擎,也不是数据库,而是一种概率预测模型。

理解这一点。

是后续学习Agent开发的基础。


一、GPT到底是什么?

GPT全称:

复制代码
Generative Pre-trained Transformer

中文:

复制代码
生成式预训练Transformer模型

名字虽然很长。

实际上可以拆成三个部分:


G:Generative(生成式)

表示:

复制代码
能够生成内容

例如:

生成:

  • 文章

  • 代码

  • PPT

  • 邮件

  • SQL


而不仅仅是选择答案。


P:Pre-trained(预训练)

表示:

复制代码
提前学习大量知识

模型在训练阶段:

阅读了海量文本。

例如:

  • 书籍

  • 论文

  • 网站

  • 技术文档


从中学习语言规律。


T:Transformer

表示:

复制代码
模型底层架构

Transformer是目前绝大部分大模型的基础架构。

例如:

  • GPT系列

  • Claude系列

  • Gemini系列

  • Qwen系列

  • DeepSeek系列

本质都建立在Transformer体系之上。


二、GPT最核心的能力是什么?

很多人以为:

GPT会思考。


实际上更准确地说:

GPT最核心能力是:

复制代码
预测下一个Token

例如:

输入:

复制代码
中国的首都是

模型内部会计算:

复制代码
北京

出现的概率最高。


于是输出:

复制代码
北京

再例如:

输入:

复制代码
Java是一门

模型可能预测:

复制代码
编程语言

概率最高。

于是输出:

复制代码
编程语言

从底层来看。

GPT一直在重复:

复制代码
预测下一个Token

这个过程。


三、什么是Token?

学习大模型。

必须理解Token。


很多新人会误认为:

复制代码
1个汉字 = 1个Token

实际上并不准确。


例如:

复制代码
你好

可能被拆成:

复制代码
你
好

而:

复制代码
ChatGPT

可能被拆成:

复制代码
Chat
GPT

甚至:

复制代码
Agent开发工程师

也可能拆成多个Token。


因此:

Token不是字符。

而是模型理解语言的最小单位。


四、为什么GPT看起来像在思考?

这是很多人最疑惑的问题。


既然GPT只是预测Token。

为什么它能:

  • 写代码

  • 解数学题

  • 写论文

  • 设计架构

看起来像人在思考?


原因是:

涌现能力(Emergent Ability)


当模型参数规模达到一定程度后。

会突然出现很多能力。

例如:

复制代码
推理能力

复制代码
归纳能力

复制代码
规划能力

这些能力并不是程序员写进去的。

而是在大规模训练过程中自然形成的。


这也是大模型革命的核心原因之一。


五、GPT和搜索引擎有什么区别?

很多初学者会混淆。


搜索引擎:

例如:

复制代码
Google

Bing

工作方式:

复制代码
用户提问
 ↓
搜索网页
 ↓
返回结果

本质:

复制代码
检索

GPT:

复制代码
用户提问
 ↓
模型推理
 ↓
生成答案

本质:

复制代码
生成

因此:

搜索引擎回答:

复制代码
网页里有什么

GPT回答:

复制代码
模型认为应该输出什么

这也是为什么GPT会产生幻觉。


六、GPT为什么会产生幻觉?

例如:

你问:

复制代码
火星上最大的城市叫什么?

现实中:

复制代码
火星没有城市

但模型可能回答:

复制代码
某某城市

为什么?

因为GPT本质任务是:

复制代码
生成最合理的答案

而不是:

复制代码
验证事实

当缺乏真实知识时。

模型依然会尝试生成内容。


这就是:

复制代码
Hallucination

即:

复制代码
幻觉

这也是后面RAG出现的重要原因。


七、GPT为什么能成为Agent的大脑?

因为Agent需要三个核心能力:


理解

例如:

复制代码
帮我分析销售数据

Agent必须理解:

复制代码
用户真正想做什么

推理

例如:

复制代码
应该先查数据
还是先生成报告?

规划

例如:

复制代码
查询数据
 ↓
分析数据
 ↓
生成图表
 ↓
生成PPT

这些能力。

都来自GPT。


因此:

Agent架构中:

复制代码
GPT
=
大脑

而:

复制代码
Tool
=
双手

复制代码
Memory
=
记忆

复制代码
Workflow
=
执行流程

共同构成完整Agent系统。


八、GPT的发展历程

理解GPT的发展。

有助于理解整个AI行业。


GPT-1(2018)

参数:

复制代码
1.17亿

证明:

复制代码
Transformer可行

GPT-2(2019)

参数:

复制代码
15亿

开始展现文本生成能力。


GPT-3(2020)

参数:

复制代码
1750亿

Few-Shot能力出现。


ChatGPT(2022)

真正引爆AI时代。


GPT-4(2023)

推理能力大幅提升。


推理模型时代(2024-2026)

例如:

  • o系列模型

  • DeepSeek-R1


开始具备:

复制代码
思维链推理能力

九、GPT的能力边界

虽然GPT很强。

但并不是万能。


它不知道:

实时数据

例如:

复制代码
今天股票价格

企业私有知识

例如:

复制代码
公司内部制度

用户本地文件

例如:

复制代码
电脑里的文档

因此:

需要:

RAG

补充知识。


Tool Calling

连接系统。


Agent

执行任务。


这也是后面章节要学习的内容。


十、作为Agent工程师需要掌握到什么程度?

好消息是:

你不需要成为算法专家。


对于Agent工程师:

掌握:

GPT是什么


Transformer是什么


Token是什么


Context是什么


幻觉为什么产生


就已经足够。


重点不是训练模型。

而是:

复制代码
利用模型创造价值

面试题

问题1

GPT全称是什么?

参考答案:

GPT全称是 Generative Pre-trained Transformer,即生成式预训练Transformer模型。


问题2

GPT最核心的工作原理是什么?

参考答案:

预测下一个Token,通过不断预测后续Token生成完整内容。


问题3

GPT为什么会产生幻觉?

参考答案:

因为GPT的目标是生成概率最高的内容,而不是验证事实真实性,当缺乏知识时仍可能生成看似合理但错误的信息。


问题4

为什么GPT能够成为Agent的大脑?

参考答案:

因为GPT具备理解、推理和规划能力,可以帮助Agent完成任务分析、决策和执行规划。


本章小结

本节我们学习了:

✅ GPT的完整含义

✅ GPT的核心工作原理

✅ Token概念

✅ GPT与搜索引擎区别

✅ 幻觉产生原因

✅ GPT为什么能成为Agent的大脑

从下一节开始。

我们将进入真正的大模型底层世界。

学习支撑整个GPT体系的核心架构。

下一篇:

《第2章 第2节:Transformer架构详解------改变AI世界的革命性发明》