第一卷:大模型基础篇
第2章 大模型基础原理
第1节:GPT到底是什么?从语言模型到智能体"大脑"的演进之路
《Agent开发工程师成长指南》系列教程
引言
在正式学习Prompt、RAG、Agent之前。
我们必须先回答一个最基础的问题:
GPT到底是什么?
很多人每天都在使用ChatGPT。
但真正理解GPT工作原理的人并不多。
有人认为:
GPT是搜索引擎
有人认为:
GPT是知识库
还有人认为:
GPT是超级数据库
事实上。
这些理解都不准确。
因为:
GPT本质上既不是搜索引擎,也不是数据库,而是一种概率预测模型。
理解这一点。
是后续学习Agent开发的基础。
一、GPT到底是什么?
GPT全称:
Generative Pre-trained Transformer
中文:
生成式预训练Transformer模型
名字虽然很长。
实际上可以拆成三个部分:
G:Generative(生成式)
表示:
能够生成内容
例如:
生成:
-
文章
-
代码
-
PPT
-
邮件
-
SQL
而不仅仅是选择答案。
P:Pre-trained(预训练)
表示:
提前学习大量知识
模型在训练阶段:
阅读了海量文本。
例如:
-
书籍
-
论文
-
网站
-
技术文档
从中学习语言规律。
T:Transformer
表示:
模型底层架构
Transformer是目前绝大部分大模型的基础架构。
例如:
-
GPT系列
-
Claude系列
-
Gemini系列
-
Qwen系列
-
DeepSeek系列
本质都建立在Transformer体系之上。
二、GPT最核心的能力是什么?
很多人以为:
GPT会思考。
实际上更准确地说:
GPT最核心能力是:
预测下一个Token
例如:
输入:
中国的首都是
模型内部会计算:
北京
出现的概率最高。
于是输出:
北京
再例如:
输入:
Java是一门
模型可能预测:
编程语言
概率最高。
于是输出:
编程语言
从底层来看。
GPT一直在重复:
预测下一个Token
这个过程。
三、什么是Token?
学习大模型。
必须理解Token。
很多新人会误认为:
1个汉字 = 1个Token
实际上并不准确。
例如:
你好
可能被拆成:
你
好
而:
ChatGPT
可能被拆成:
Chat
GPT
甚至:
Agent开发工程师
也可能拆成多个Token。
因此:
Token不是字符。
而是模型理解语言的最小单位。
四、为什么GPT看起来像在思考?
这是很多人最疑惑的问题。
既然GPT只是预测Token。
为什么它能:
-
写代码
-
解数学题
-
写论文
-
设计架构
看起来像人在思考?
原因是:
涌现能力(Emergent Ability)
当模型参数规模达到一定程度后。
会突然出现很多能力。
例如:
推理能力
归纳能力
规划能力
这些能力并不是程序员写进去的。
而是在大规模训练过程中自然形成的。
这也是大模型革命的核心原因之一。
五、GPT和搜索引擎有什么区别?
很多初学者会混淆。
搜索引擎:
例如:
Google
Bing
工作方式:
用户提问
↓
搜索网页
↓
返回结果
本质:
检索
GPT:
用户提问
↓
模型推理
↓
生成答案
本质:
生成
因此:
搜索引擎回答:
网页里有什么
GPT回答:
模型认为应该输出什么
这也是为什么GPT会产生幻觉。
六、GPT为什么会产生幻觉?
例如:
你问:
火星上最大的城市叫什么?
现实中:
火星没有城市
但模型可能回答:
某某城市
为什么?
因为GPT本质任务是:
生成最合理的答案
而不是:
验证事实
当缺乏真实知识时。
模型依然会尝试生成内容。
这就是:
Hallucination
即:
幻觉
这也是后面RAG出现的重要原因。
七、GPT为什么能成为Agent的大脑?
因为Agent需要三个核心能力:
理解
例如:
帮我分析销售数据
Agent必须理解:
用户真正想做什么
推理
例如:
应该先查数据
还是先生成报告?
规划
例如:
查询数据
↓
分析数据
↓
生成图表
↓
生成PPT
这些能力。
都来自GPT。
因此:
Agent架构中:
GPT
=
大脑
而:
Tool
=
双手
Memory
=
记忆
Workflow
=
执行流程
共同构成完整Agent系统。
八、GPT的发展历程
理解GPT的发展。
有助于理解整个AI行业。
GPT-1(2018)
参数:
1.17亿
证明:
Transformer可行
GPT-2(2019)
参数:
15亿
开始展现文本生成能力。
GPT-3(2020)
参数:
1750亿
Few-Shot能力出现。
ChatGPT(2022)
真正引爆AI时代。
GPT-4(2023)
推理能力大幅提升。
推理模型时代(2024-2026)
例如:
-
o系列模型
-
DeepSeek-R1
开始具备:
思维链推理能力
九、GPT的能力边界
虽然GPT很强。
但并不是万能。
它不知道:
实时数据
例如:
今天股票价格
企业私有知识
例如:
公司内部制度
用户本地文件
例如:
电脑里的文档
因此:
需要:
RAG
补充知识。
Tool Calling
连接系统。
Agent
执行任务。
这也是后面章节要学习的内容。
十、作为Agent工程师需要掌握到什么程度?
好消息是:
你不需要成为算法专家。
对于Agent工程师:
掌握:
GPT是什么
Transformer是什么
Token是什么
Context是什么
幻觉为什么产生
就已经足够。
重点不是训练模型。
而是:
利用模型创造价值
面试题
问题1
GPT全称是什么?
参考答案:
GPT全称是 Generative Pre-trained Transformer,即生成式预训练Transformer模型。
问题2
GPT最核心的工作原理是什么?
参考答案:
预测下一个Token,通过不断预测后续Token生成完整内容。
问题3
GPT为什么会产生幻觉?
参考答案:
因为GPT的目标是生成概率最高的内容,而不是验证事实真实性,当缺乏知识时仍可能生成看似合理但错误的信息。
问题4
为什么GPT能够成为Agent的大脑?
参考答案:
因为GPT具备理解、推理和规划能力,可以帮助Agent完成任务分析、决策和执行规划。
本章小结
本节我们学习了:
✅ GPT的完整含义
✅ GPT的核心工作原理
✅ Token概念
✅ GPT与搜索引擎区别
✅ 幻觉产生原因
✅ GPT为什么能成为Agent的大脑
从下一节开始。
我们将进入真正的大模型底层世界。
学习支撑整个GPT体系的核心架构。
下一篇: