01-大模型智能体开发工程师：AI与大模型发展简史

系列文章导航：AI系列文章导航目录-持续更新中

第01课：AI与大模型发展简史

📝 本文摘要：本文梳理了AI三次浪潮（符号主义→专家系统→深度学习）及从Transformer（2017）到大模型的关键时间线，重点讲解了涌现能力、预训练、微调、对齐（RLHF）和自回归生成等核心概念，帮助理解大模型"为什么是这样设计的"。
你需要理解大模型不是一夜爆发的，它经历了70年的积累。理解这段历史，你才能理解今天的技术为什么是这样设计的。

一、AI的三次浪潮

复制代码

第一次浪潮 (1956-1974)    符号主义，规则驱动
    ↓ 寒冬 (1974-1980)     计算力不足，问题太复杂
第二次浪潮 (1980-1995)    专家系统，知识工程
    ↓ 寒冬 (1995-2012)     知识获取瓶颈，无法规模化
第三次浪潮 (2012-至今)    深度学习，数据驱动 ← 我们在这里

1.1 第一次浪潮：符号主义（Symbolism，1956-1974）

1956 达特茅斯会议（Dartmouth Conference）：AI这个概念诞生。McCarthy、Minsky、Simon、Newell四位先驱提出"机器可以模拟人类智能"。
核心思路：用符号（Symbol）和逻辑规则（Logical Rule）表示知识，用推理引擎做决策。
代表成果：逻辑理论家（Logic Theorist，1956）、ELIZA聊天程序（1966，最早的"对话系统"）。
为什么失败：现实世界的知识无法穷尽编码为规则。开窗这个动作，写规则要考虑几百个场景。

1.2 第二次浪潮：专家系统（Expert System，1980-1995）

核心思路：把领域专家的知识提取出来，编码为IF-THEN规则，构建专家系统。
代表成果：MYCIN（医疗诊断，1976）、XCON（DEC公司配置系统，每年省4000万美元）。
为什么失败：知识获取瓶颈------专家说不清自己怎么想的，规则维护成本指数级增长。

1.3 第三次浪潮：深度学习（Deep Learning，2012-至今）

核心思路：不让人类写规则，让机器从数据中自己学。
关键转折点 ：
- 2012 ImageNet竞赛：AlexNet用深度CNN（Convolutional Neural Network，卷积神经网络）将图像识别错误率从26%降到15%，深度学习一战成名。
- 2014 GAN（Generative Adversarial Network，生成对抗网络）：AI开始学会"创造"。
- 2017 Transformer ：Google发表《Attention Is All You Need》，这是大模型一切的起点。

二、从Transformer到大模型的关键时间线

复制代码

2017.06  Transformer论文发表
   │
2018.06  GPT-1发布（OpenAI，1.17亿参数）------ 验证"预训练+微调"路线
   │
2018.10  BERT发布（Google，3.4亿参数）------ 验证双向编码器的力量
   │
2019.02  GPT-2发布（15亿参数）------ "太危险了不敢发"（营销，但也说明模型开始有涌现能力）
   │
2020.05  GPT-3发布（1750亿参数）------ 少样本学习（Few-shot Learning），大模型时代真正开启
   │        关键认知：参数量大到一定程度，模型突然会做训练时没教过的事 → 涌现能力
   │
2021.01  DALL·E发布 ------ 文生图（Text-to-Image），多模态（Multimodal）开始
2022.04  PaLM发布（Google，5400亿参数）
   │
2022.11  ChatGPT发布 ------ 对齐技术（RLHF，Reinforcement Learning from Human Feedback）让大模型真正可用，AI应用爆发
   │        这是分水岭：从"技术圈的事"变成"全人类的事"
   │
2023.03  GPT-4发布 ------ 多模态，推理能力大幅提升
2023.03  LLaMA发布（Meta）------ 开源大模型时代的起点
2023.07  Llama 2发布 ------ 开源商用
2023.12  Mixtral 8x7B ------ MoE（Mixture of Experts，混合专家）架构开源模型
   │
2024.01  Mistral/Mixtral生态繁荣
2024.02  Gemini 1.5 Pro（Google，100万token上下文）
2024.03  Claude 3（Anthropic）
2024.05  GPT-4o ------ 端到端多模态（End-to-End Multimodal）
2024.09  o1发布 ------ 思维链推理模型（Chain-of-Thought Reasoning Model）
   │
2024.12  DeepSeek-V3发布 ------ MoE架构，训练成本极低，国产之光
2024.12  Gemini 2.0发布（Google，12月11日）------ 原生多模态，AI Agent新时代
2024.12  o3预告发布（OpenAI，12月20日）------ 推理能力重大突破
2025.01  DeepSeek-R1发布 ------ 开源推理模型，与o1对标
2025.01  o3-mini正式发布（1月31日）------ 高性价比推理模型
2025.02  Grok-3发布（xAI，2月18日）------ 20万张GPU训练
2025.04  GPT-4.1发布（OpenAI，4月15日）------ 指令遵循增强，百万token上下文，编程能力大幅提升
2025.04  Llama 4发布（Meta）------ MoE架构（Scout 17B-16E / Maverick 17B-128E）
2025.04  Qwen3系列发布（阿里，4月27日）------ MoE+Dense混合架构（235B-A22B/30B-A3B等），思考模式（Thinking Mode）
   │
2025.05  Claude 4系列发布（Anthropic）------ Opus 4 / Sonnet 4，编程能力登顶
2025.05  DeepSeek-R1-0528发布（5月28日）------ 开源推理模型迭代更新，推理能力进一步增强
   │
2025.06  o3-pro发布（OpenAI）------ 最强推理模型
   │
2026.04  DeepSeek-V4系列发布（Pro/Flash，4月22日）------ MoE架构，训练效率大幅提升，推理速度显著改善
   │
2026.05  ... 你正在学习的时候，世界还在飞速演进

三、几个你必须理解的核心概念

3.1 涌现能力（Emergent Abilities，涌现能力）

定义：当模型参数规模超过某个阈值，模型突然获得训练时没有被明确教过的能力。

例子：

小模型：做3位数乘法几乎全错
大模型（>100B，即超过1000亿参数）：突然能做对

对你意味着：模型规模不是线性改善，是有质变的。选择用多大的模型，不是"越大越好"，而是"你的任务需要什么级别的涌现能力"。

3.2 预训练（Pre-training，预训练）

核心思想：先让模型阅读海量文本，学会"语言的统计规律"，成为一个通用的语言理解器。

类比：让一个人读了整个互联网的书，他虽然不能直接做具体工作，但已经具备了语言理解和世界知识的基础。

3.3 微调（Fine-tuning，微调）

核心思想：在预训练模型基础上，用特定领域的数据进一步训练，让模型适应特定任务。

类比：一个通才大学毕业后再读了个医学硕士。

3.4 对齐（Alignment，对齐）

核心思想：让模型的输出符合人类期望------有用（Helpful）、诚实（Honest）、无害（Harmless）。

核心技术：RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）。这就是ChatGPT比GPT-3好用的关键------不是模型更聪明，而是模型被"教"成了更听话的助手。

3.5 自回归生成（Autoregressive Generation，自回归生成）

核心思想：模型每次只预测下一个Token（Next-token Prediction），然后把预测结果加入输入，继续预测下一个，直到遇到结束符。

这是GPT系列（Decoder-only模型）的核心生成方式------所有大模型应用（对话、代码、推理）都基于这个机制。

四、为什么是"大"模型

维度	传统NLP（Natural Language Processing，自然语言处理）	大模型
知识来源	人工标注数据	互联网海量文本
能力获取	每个任务单独训练	预训练一次，通用适配
推理方式	规则/统计	上下文学习（In-context Learning，在上下文中学习）
扩展性	新任务需要新数据新模型	新任务只需新Prompt
涌现能力	无	有（规模带来的质变）

关键转变：从"为每个任务造一个模型" → "一个模型适配所有任务"。这就是为什么大模型催生了应用开发这个新岗位。

五、当前大模型的能力边界（2026年）

能做的

✅ 自然语言理解与生成（接近人类水平）
✅ 代码编写与调试（中上水平）
✅ 多步推理（CoT下显著提升）
✅ 工具调用（Function Calling）
✅ 多模态理解（图像、音频、视频）
✅ 长文本处理（128K-1M token上下文）

做不好的

❌ 精确计算（本质是概率模型，不是计算器）
❌ 实时信息（训练数据有截止日期）
❌ 长期一致性（超长对话容易"遗忘"）
❌ 确定性任务（每次输出可能不同）
❌ 真正的"理解"（本质是统计模式匹配）

对你意味着 ：大模型不完美，Agent的核心价值就是用工程手段弥补大模型的缺陷------给它工具、给它记忆、给它规划能力。

📝 作业

作业1：绘制大模型发展时间线

在纸上或用工具画出从2017 Transformer到2026年的关键节点时间线，标注每个节点的核心贡献。

参考答案：

复制代码

2017 ── Transformer（架构革命：自注意力机制取代RNN）
  │
2018 ── GPT-1/BERT（预训练范式确立：GPT验证生成路线，BERT验证理解路线）
  │
2019 ── GPT-2（规模扩大，涌现初现：15亿参数开始展现少样本能力）
  │
2020 ── GPT-3（1750B，Few-shot Learning，大模型时代：上下文学习成为可能）
  │
2021 ── DALL·E（文生图突破：多模态时代开启）
  │
2022 ── ChatGPT（RLHF对齐，AI应用元年：对齐技术让模型从"能用"变"好用"）
  │
2023 ── GPT-4/LLaMA（多模态+开源运动：GPT-4多模态推理，LLaMA催生开源生态）
  │
2024 ── o1/DeepSeek-V3（推理模型+MoE低成本：o1开启推理模型时代，V3证明低成本也能高性能）
  │
2025 ── GPT-4.1/Claude 4/Llama 4/Qwen3/DeepSeek-R1-0528/o3-pro（指令遵循增强+编程能力登顶+MoE普及+开源推理进化）
  │
2026 ── DeepSeek-V4（MoE架构持续进化，训练效率和推理速度大幅提升）

作业2：思考题

为什么ChatGPT（2022.11）比GPT-3（2020.05）影响力大得多？技术上的核心差异是什么？

参考答案 ：

核心差异不是模型能力的质变，而是**对齐技术（RLHF，Reinforcement Learning from Human Feedback）**让模型的输出变得对普通用户可用。GPT-3能力很强但输出不可控、格式混乱、经常跑题；ChatGPT通过RLHF让模型学会：

按照指令回答（Instruction Following，指令遵循）
以对话格式交互（Conversational，对话式）
拒绝不适当请求（Safety，安全性）
这是"技术可行"到"产品可用"的关键一步。同样，对Agent开发者来说，模型的对齐质量直接决定了Function Calling等能力的可靠性。

下一篇文章见：AI系列文章导航目录-持续更新中