01-大模型智能体开发工程师:AI与大模型发展简史

系列文章导航:AI系列文章导航目录-持续更新中

第01课:AI与大模型发展简史

📝 本文摘要:本文梳理了AI三次浪潮(符号主义→专家系统→深度学习)及从Transformer(2017)到大模型的关键时间线,重点讲解了涌现能力、预训练、微调、对齐(RLHF)和自回归生成等核心概念,帮助理解大模型"为什么是这样设计的"。
你需要理解大模型不是一夜爆发的,它经历了70年的积累。理解这段历史,你才能理解今天的技术为什么是这样设计的。


一、AI的三次浪潮

复制代码
第一次浪潮 (1956-1974)    符号主义,规则驱动
    ↓ 寒冬 (1974-1980)     计算力不足,问题太复杂
第二次浪潮 (1980-1995)    专家系统,知识工程
    ↓ 寒冬 (1995-2012)     知识获取瓶颈,无法规模化
第三次浪潮 (2012-至今)    深度学习,数据驱动 ← 我们在这里

1.1 第一次浪潮:符号主义(Symbolism,1956-1974)

  • 1956 达特茅斯会议(Dartmouth Conference):AI这个概念诞生。McCarthy、Minsky、Simon、Newell四位先驱提出"机器可以模拟人类智能"。
  • 核心思路:用符号(Symbol)和逻辑规则(Logical Rule)表示知识,用推理引擎做决策。
  • 代表成果:逻辑理论家(Logic Theorist,1956)、ELIZA聊天程序(1966,最早的"对话系统")。
  • 为什么失败:现实世界的知识无法穷尽编码为规则。开窗这个动作,写规则要考虑几百个场景。

1.2 第二次浪潮:专家系统(Expert System,1980-1995)

  • 核心思路:把领域专家的知识提取出来,编码为IF-THEN规则,构建专家系统。
  • 代表成果:MYCIN(医疗诊断,1976)、XCON(DEC公司配置系统,每年省4000万美元)。
  • 为什么失败:知识获取瓶颈------专家说不清自己怎么想的,规则维护成本指数级增长。

1.3 第三次浪潮:深度学习(Deep Learning,2012-至今)

  • 核心思路:不让人类写规则,让机器从数据中自己学。
  • 关键转折点
    • 2012 ImageNet竞赛:AlexNet用深度CNN(Convolutional Neural Network,卷积神经网络)将图像识别错误率从26%降到15%,深度学习一战成名。
    • 2014 GAN(Generative Adversarial Network,生成对抗网络):AI开始学会"创造"。
    • 2017 Transformer :Google发表《Attention Is All You Need》,这是大模型一切的起点

二、从Transformer到大模型的关键时间线

复制代码
2017.06  Transformer论文发表
   │
2018.06  GPT-1发布(OpenAI,1.17亿参数)------ 验证"预训练+微调"路线
   │
2018.10  BERT发布(Google,3.4亿参数)------ 验证双向编码器的力量
   │
2019.02  GPT-2发布(15亿参数)------ "太危险了不敢发"(营销,但也说明模型开始有涌现能力)
   │
2020.05  GPT-3发布(1750亿参数)------ 少样本学习(Few-shot Learning),大模型时代真正开启
   │        关键认知:参数量大到一定程度,模型突然会做训练时没教过的事 → 涌现能力
   │
2021.01  DALL·E发布 ------ 文生图(Text-to-Image),多模态(Multimodal)开始
2022.04  PaLM发布(Google,5400亿参数)
   │
2022.11  ChatGPT发布 ------ 对齐技术(RLHF,Reinforcement Learning from Human Feedback)让大模型真正可用,AI应用爆发
   │        这是分水岭:从"技术圈的事"变成"全人类的事"
   │
2023.03  GPT-4发布 ------ 多模态,推理能力大幅提升
2023.03  LLaMA发布(Meta)------ 开源大模型时代的起点
2023.07  Llama 2发布 ------ 开源商用
2023.12  Mixtral 8x7B ------ MoE(Mixture of Experts,混合专家)架构开源模型
   │
2024.01  Mistral/Mixtral生态繁荣
2024.02  Gemini 1.5 Pro(Google,100万token上下文)
2024.03  Claude 3(Anthropic)
2024.05  GPT-4o ------ 端到端多模态(End-to-End Multimodal)
2024.09  o1发布 ------ 思维链推理模型(Chain-of-Thought Reasoning Model)
   │
2024.12  DeepSeek-V3发布 ------ MoE架构,训练成本极低,国产之光
2024.12  Gemini 2.0发布(Google,12月11日)------ 原生多模态,AI Agent新时代
2024.12  o3预告发布(OpenAI,12月20日)------ 推理能力重大突破
2025.01  DeepSeek-R1发布 ------ 开源推理模型,与o1对标
2025.01  o3-mini正式发布(1月31日)------ 高性价比推理模型
2025.02  Grok-3发布(xAI,2月18日)------ 20万张GPU训练
2025.04  GPT-4.1发布(OpenAI,4月15日)------ 指令遵循增强,百万token上下文,编程能力大幅提升
2025.04  Llama 4发布(Meta)------ MoE架构(Scout 17B-16E / Maverick 17B-128E)
2025.04  Qwen3系列发布(阿里,4月27日)------ MoE+Dense混合架构(235B-A22B/30B-A3B等),思考模式(Thinking Mode)
   │
2025.05  Claude 4系列发布(Anthropic)------ Opus 4 / Sonnet 4,编程能力登顶
2025.05  DeepSeek-R1-0528发布(5月28日)------ 开源推理模型迭代更新,推理能力进一步增强
   │
2025.06  o3-pro发布(OpenAI)------ 最强推理模型
   │
2026.04  DeepSeek-V4系列发布(Pro/Flash,4月22日)------ MoE架构,训练效率大幅提升,推理速度显著改善
   │
2026.05  ... 你正在学习的时候,世界还在飞速演进

三、几个你必须理解的核心概念

3.1 涌现能力(Emergent Abilities,涌现能力)

定义:当模型参数规模超过某个阈值,模型突然获得训练时没有被明确教过的能力。

例子

  • 小模型:做3位数乘法几乎全错
  • 大模型(>100B,即超过1000亿参数):突然能做对

对你意味着:模型规模不是线性改善,是有质变的。选择用多大的模型,不是"越大越好",而是"你的任务需要什么级别的涌现能力"。

3.2 预训练(Pre-training,预训练)

核心思想:先让模型阅读海量文本,学会"语言的统计规律",成为一个通用的语言理解器。

类比:让一个人读了整个互联网的书,他虽然不能直接做具体工作,但已经具备了语言理解和世界知识的基础。

3.3 微调(Fine-tuning,微调)

核心思想:在预训练模型基础上,用特定领域的数据进一步训练,让模型适应特定任务。

类比:一个通才大学毕业后再读了个医学硕士。

3.4 对齐(Alignment,对齐)

核心思想:让模型的输出符合人类期望------有用(Helpful)、诚实(Honest)、无害(Harmless)。

核心技术:RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)。这就是ChatGPT比GPT-3好用的关键------不是模型更聪明,而是模型被"教"成了更听话的助手。

3.5 自回归生成(Autoregressive Generation,自回归生成)

核心思想:模型每次只预测下一个Token(Next-token Prediction),然后把预测结果加入输入,继续预测下一个,直到遇到结束符。

这是GPT系列(Decoder-only模型)的核心生成方式------所有大模型应用(对话、代码、推理)都基于这个机制。


四、为什么是"大"模型

维度 传统NLP(Natural Language Processing,自然语言处理) 大模型
知识来源 人工标注数据 互联网海量文本
能力获取 每个任务单独训练 预训练一次,通用适配
推理方式 规则/统计 上下文学习(In-context Learning,在上下文中学习)
扩展性 新任务需要新数据新模型 新任务只需新Prompt
涌现能力 有(规模带来的质变)

关键转变:从"为每个任务造一个模型" → "一个模型适配所有任务"。这就是为什么大模型催生了应用开发这个新岗位。


五、当前大模型的能力边界(2026年)

能做的

  • ✅ 自然语言理解与生成(接近人类水平)
  • ✅ 代码编写与调试(中上水平)
  • ✅ 多步推理(CoT下显著提升)
  • ✅ 工具调用(Function Calling)
  • ✅ 多模态理解(图像、音频、视频)
  • ✅ 长文本处理(128K-1M token上下文)

做不好的

  • ❌ 精确计算(本质是概率模型,不是计算器)
  • ❌ 实时信息(训练数据有截止日期)
  • ❌ 长期一致性(超长对话容易"遗忘")
  • ❌ 确定性任务(每次输出可能不同)
  • ❌ 真正的"理解"(本质是统计模式匹配)

对你意味着 :大模型不完美,Agent的核心价值就是用工程手段弥补大模型的缺陷------给它工具、给它记忆、给它规划能力。


📝 作业

作业1:绘制大模型发展时间线

在纸上或用工具画出从2017 Transformer到2026年的关键节点时间线,标注每个节点的核心贡献。

参考答案

复制代码
2017 ── Transformer(架构革命:自注意力机制取代RNN)
  │
2018 ── GPT-1/BERT(预训练范式确立:GPT验证生成路线,BERT验证理解路线)
  │
2019 ── GPT-2(规模扩大,涌现初现:15亿参数开始展现少样本能力)
  │
2020 ── GPT-3(1750B,Few-shot Learning,大模型时代:上下文学习成为可能)
  │
2021 ── DALL·E(文生图突破:多模态时代开启)
  │
2022 ── ChatGPT(RLHF对齐,AI应用元年:对齐技术让模型从"能用"变"好用")
  │
2023 ── GPT-4/LLaMA(多模态+开源运动:GPT-4多模态推理,LLaMA催生开源生态)
  │
2024 ── o1/DeepSeek-V3(推理模型+MoE低成本:o1开启推理模型时代,V3证明低成本也能高性能)
  │
2025 ── GPT-4.1/Claude 4/Llama 4/Qwen3/DeepSeek-R1-0528/o3-pro(指令遵循增强+编程能力登顶+MoE普及+开源推理进化)
  │
2026 ── DeepSeek-V4(MoE架构持续进化,训练效率和推理速度大幅提升)

作业2:思考题

为什么ChatGPT(2022.11)比GPT-3(2020.05)影响力大得多?技术上的核心差异是什么?

参考答案

核心差异不是模型能力的质变,而是**对齐技术(RLHF,Reinforcement Learning from Human Feedback)**让模型的输出变得对普通用户可用。GPT-3能力很强但输出不可控、格式混乱、经常跑题;ChatGPT通过RLHF让模型学会:

  1. 按照指令回答(Instruction Following,指令遵循)
  2. 以对话格式交互(Conversational,对话式)
  3. 拒绝不适当请求(Safety,安全性)
    这是"技术可行"到"产品可用"的关键一步。同样,对Agent开发者来说,模型的对齐质量直接决定了Function Calling等能力的可靠性。

下一篇文章见:AI系列文章导航目录-持续更新中

相关推荐
threelab7 小时前
Three.js 抽象艺术着色器效果 | 三维可视化 / AI 提示词
前端·javascript·人工智能·3d·着色器
解局易否结局7 小时前
GE 和 Runtime:不是上下游,是协同决策
人工智能·pytorch·深度学习
@蔓蔓喜欢你7 小时前
响应式图像:优化不同设备的图片展示
人工智能·ai
共绩算力7 小时前
第五辑:8 张「实用排版与风格化插画」——从尺码表到像素风
人工智能·共绩算力
NiceCloud喜云7 小时前
AutoClaw 接入自定义 Anthropic 端点:让 Kanban 工作流跑在自己的模型路由上
java·开发语言·c++·人工智能·python·eclipse·batch
No8g攻城狮7 小时前
【AI工具】Sub2API简介 – 开源 AI API 中转网关平台,支持多账户管理
人工智能·ai·开源·ai编程
bigdata-余建新7 小时前
行业 分享
ai·agent
geneculture7 小时前
信智序位驾驭质能时空的产业+生活方式
人工智能·数据挖掘·生活·融智学的重要应用·哲学与科学统一性·融智时代(杂志)
aqi007 小时前
15天学会AI应用开发(一)搭建AI大模型应用开发环境
人工智能·python·大模型·ai编程·ai应用