系列文章导航:AI系列文章导航目录-持续更新中
第01课:AI与大模型发展简史
📝 本文摘要:本文梳理了AI三次浪潮(符号主义→专家系统→深度学习)及从Transformer(2017)到大模型的关键时间线,重点讲解了涌现能力、预训练、微调、对齐(RLHF)和自回归生成等核心概念,帮助理解大模型"为什么是这样设计的"。
你需要理解大模型不是一夜爆发的,它经历了70年的积累。理解这段历史,你才能理解今天的技术为什么是这样设计的。
一、AI的三次浪潮
第一次浪潮 (1956-1974) 符号主义,规则驱动
↓ 寒冬 (1974-1980) 计算力不足,问题太复杂
第二次浪潮 (1980-1995) 专家系统,知识工程
↓ 寒冬 (1995-2012) 知识获取瓶颈,无法规模化
第三次浪潮 (2012-至今) 深度学习,数据驱动 ← 我们在这里
1.1 第一次浪潮:符号主义(Symbolism,1956-1974)
- 1956 达特茅斯会议(Dartmouth Conference):AI这个概念诞生。McCarthy、Minsky、Simon、Newell四位先驱提出"机器可以模拟人类智能"。
- 核心思路:用符号(Symbol)和逻辑规则(Logical Rule)表示知识,用推理引擎做决策。
- 代表成果:逻辑理论家(Logic Theorist,1956)、ELIZA聊天程序(1966,最早的"对话系统")。
- 为什么失败:现实世界的知识无法穷尽编码为规则。开窗这个动作,写规则要考虑几百个场景。
1.2 第二次浪潮:专家系统(Expert System,1980-1995)
- 核心思路:把领域专家的知识提取出来,编码为IF-THEN规则,构建专家系统。
- 代表成果:MYCIN(医疗诊断,1976)、XCON(DEC公司配置系统,每年省4000万美元)。
- 为什么失败:知识获取瓶颈------专家说不清自己怎么想的,规则维护成本指数级增长。
1.3 第三次浪潮:深度学习(Deep Learning,2012-至今)
- 核心思路:不让人类写规则,让机器从数据中自己学。
- 关键转折点 :
- 2012 ImageNet竞赛:AlexNet用深度CNN(Convolutional Neural Network,卷积神经网络)将图像识别错误率从26%降到15%,深度学习一战成名。
- 2014 GAN(Generative Adversarial Network,生成对抗网络):AI开始学会"创造"。
- 2017 Transformer :Google发表《Attention Is All You Need》,这是大模型一切的起点。
二、从Transformer到大模型的关键时间线
2017.06 Transformer论文发表
│
2018.06 GPT-1发布(OpenAI,1.17亿参数)------ 验证"预训练+微调"路线
│
2018.10 BERT发布(Google,3.4亿参数)------ 验证双向编码器的力量
│
2019.02 GPT-2发布(15亿参数)------ "太危险了不敢发"(营销,但也说明模型开始有涌现能力)
│
2020.05 GPT-3发布(1750亿参数)------ 少样本学习(Few-shot Learning),大模型时代真正开启
│ 关键认知:参数量大到一定程度,模型突然会做训练时没教过的事 → 涌现能力
│
2021.01 DALL·E发布 ------ 文生图(Text-to-Image),多模态(Multimodal)开始
2022.04 PaLM发布(Google,5400亿参数)
│
2022.11 ChatGPT发布 ------ 对齐技术(RLHF,Reinforcement Learning from Human Feedback)让大模型真正可用,AI应用爆发
│ 这是分水岭:从"技术圈的事"变成"全人类的事"
│
2023.03 GPT-4发布 ------ 多模态,推理能力大幅提升
2023.03 LLaMA发布(Meta)------ 开源大模型时代的起点
2023.07 Llama 2发布 ------ 开源商用
2023.12 Mixtral 8x7B ------ MoE(Mixture of Experts,混合专家)架构开源模型
│
2024.01 Mistral/Mixtral生态繁荣
2024.02 Gemini 1.5 Pro(Google,100万token上下文)
2024.03 Claude 3(Anthropic)
2024.05 GPT-4o ------ 端到端多模态(End-to-End Multimodal)
2024.09 o1发布 ------ 思维链推理模型(Chain-of-Thought Reasoning Model)
│
2024.12 DeepSeek-V3发布 ------ MoE架构,训练成本极低,国产之光
2024.12 Gemini 2.0发布(Google,12月11日)------ 原生多模态,AI Agent新时代
2024.12 o3预告发布(OpenAI,12月20日)------ 推理能力重大突破
2025.01 DeepSeek-R1发布 ------ 开源推理模型,与o1对标
2025.01 o3-mini正式发布(1月31日)------ 高性价比推理模型
2025.02 Grok-3发布(xAI,2月18日)------ 20万张GPU训练
2025.04 GPT-4.1发布(OpenAI,4月15日)------ 指令遵循增强,百万token上下文,编程能力大幅提升
2025.04 Llama 4发布(Meta)------ MoE架构(Scout 17B-16E / Maverick 17B-128E)
2025.04 Qwen3系列发布(阿里,4月27日)------ MoE+Dense混合架构(235B-A22B/30B-A3B等),思考模式(Thinking Mode)
│
2025.05 Claude 4系列发布(Anthropic)------ Opus 4 / Sonnet 4,编程能力登顶
2025.05 DeepSeek-R1-0528发布(5月28日)------ 开源推理模型迭代更新,推理能力进一步增强
│
2025.06 o3-pro发布(OpenAI)------ 最强推理模型
│
2026.04 DeepSeek-V4系列发布(Pro/Flash,4月22日)------ MoE架构,训练效率大幅提升,推理速度显著改善
│
2026.05 ... 你正在学习的时候,世界还在飞速演进
三、几个你必须理解的核心概念
3.1 涌现能力(Emergent Abilities,涌现能力)
定义:当模型参数规模超过某个阈值,模型突然获得训练时没有被明确教过的能力。
例子:
- 小模型:做3位数乘法几乎全错
- 大模型(>100B,即超过1000亿参数):突然能做对
对你意味着:模型规模不是线性改善,是有质变的。选择用多大的模型,不是"越大越好",而是"你的任务需要什么级别的涌现能力"。
3.2 预训练(Pre-training,预训练)
核心思想:先让模型阅读海量文本,学会"语言的统计规律",成为一个通用的语言理解器。
类比:让一个人读了整个互联网的书,他虽然不能直接做具体工作,但已经具备了语言理解和世界知识的基础。
3.3 微调(Fine-tuning,微调)
核心思想:在预训练模型基础上,用特定领域的数据进一步训练,让模型适应特定任务。
类比:一个通才大学毕业后再读了个医学硕士。
3.4 对齐(Alignment,对齐)
核心思想:让模型的输出符合人类期望------有用(Helpful)、诚实(Honest)、无害(Harmless)。
核心技术:RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)。这就是ChatGPT比GPT-3好用的关键------不是模型更聪明,而是模型被"教"成了更听话的助手。
3.5 自回归生成(Autoregressive Generation,自回归生成)
核心思想:模型每次只预测下一个Token(Next-token Prediction),然后把预测结果加入输入,继续预测下一个,直到遇到结束符。
这是GPT系列(Decoder-only模型)的核心生成方式------所有大模型应用(对话、代码、推理)都基于这个机制。
四、为什么是"大"模型
| 维度 | 传统NLP(Natural Language Processing,自然语言处理) | 大模型 |
|---|---|---|
| 知识来源 | 人工标注数据 | 互联网海量文本 |
| 能力获取 | 每个任务单独训练 | 预训练一次,通用适配 |
| 推理方式 | 规则/统计 | 上下文学习(In-context Learning,在上下文中学习) |
| 扩展性 | 新任务需要新数据新模型 | 新任务只需新Prompt |
| 涌现能力 | 无 | 有(规模带来的质变) |
关键转变:从"为每个任务造一个模型" → "一个模型适配所有任务"。这就是为什么大模型催生了应用开发这个新岗位。
五、当前大模型的能力边界(2026年)
能做的
- ✅ 自然语言理解与生成(接近人类水平)
- ✅ 代码编写与调试(中上水平)
- ✅ 多步推理(CoT下显著提升)
- ✅ 工具调用(Function Calling)
- ✅ 多模态理解(图像、音频、视频)
- ✅ 长文本处理(128K-1M token上下文)
做不好的
- ❌ 精确计算(本质是概率模型,不是计算器)
- ❌ 实时信息(训练数据有截止日期)
- ❌ 长期一致性(超长对话容易"遗忘")
- ❌ 确定性任务(每次输出可能不同)
- ❌ 真正的"理解"(本质是统计模式匹配)
对你意味着 :大模型不完美,Agent的核心价值就是用工程手段弥补大模型的缺陷------给它工具、给它记忆、给它规划能力。
📝 作业
作业1:绘制大模型发展时间线
在纸上或用工具画出从2017 Transformer到2026年的关键节点时间线,标注每个节点的核心贡献。
参考答案:
2017 ── Transformer(架构革命:自注意力机制取代RNN)
│
2018 ── GPT-1/BERT(预训练范式确立:GPT验证生成路线,BERT验证理解路线)
│
2019 ── GPT-2(规模扩大,涌现初现:15亿参数开始展现少样本能力)
│
2020 ── GPT-3(1750B,Few-shot Learning,大模型时代:上下文学习成为可能)
│
2021 ── DALL·E(文生图突破:多模态时代开启)
│
2022 ── ChatGPT(RLHF对齐,AI应用元年:对齐技术让模型从"能用"变"好用")
│
2023 ── GPT-4/LLaMA(多模态+开源运动:GPT-4多模态推理,LLaMA催生开源生态)
│
2024 ── o1/DeepSeek-V3(推理模型+MoE低成本:o1开启推理模型时代,V3证明低成本也能高性能)
│
2025 ── GPT-4.1/Claude 4/Llama 4/Qwen3/DeepSeek-R1-0528/o3-pro(指令遵循增强+编程能力登顶+MoE普及+开源推理进化)
│
2026 ── DeepSeek-V4(MoE架构持续进化,训练效率和推理速度大幅提升)
作业2:思考题
为什么ChatGPT(2022.11)比GPT-3(2020.05)影响力大得多?技术上的核心差异是什么?
参考答案 :
核心差异不是模型能力的质变,而是**对齐技术(RLHF,Reinforcement Learning from Human Feedback)**让模型的输出变得对普通用户可用。GPT-3能力很强但输出不可控、格式混乱、经常跑题;ChatGPT通过RLHF让模型学会:
- 按照指令回答(Instruction Following,指令遵循)
- 以对话格式交互(Conversational,对话式)
- 拒绝不适当请求(Safety,安全性)
这是"技术可行"到"产品可用"的关键一步。同样,对Agent开发者来说,模型的对齐质量直接决定了Function Calling等能力的可靠性。
下一篇文章见:AI系列文章导航目录-持续更新中