自从 ChatGPT 横空出世以来,AI 正在深刻的改变着我们的工作和生活方式。无论是在工作中,还是在社交媒体上,我们听到的,看到的都有大量关于 Ai 的讨论。AI 确实带来了生产力的提升,但是也存在着很多不必要的炒作,充斥着一种大干快上,生怕落为人后的氛围。
作为一名普通开发者,我认为正确的态度是去学习 AI,而非迷信或者焦虑 AI。探究 AI 背后的原理,享受 AI 带来的乐趣。后续笔者会开启一系列的文章,期待和大家一起学习,一起进步。
本文会按照以下章节展开:
- AI 的发展历史
- AI 的核心技术
- AI 的能与不能
要了解一门技术,就要先从它的发展历史开始说起。AI 已经发展了相当长的历史,ChatGPT 的成功并发偶然,而是长期以来 AI 技术,特别是深度学习和自然语言处理等领域,厚积薄发的结果。
AI 的发展历史
提到 AI 的发展历史,我们不打算长篇大论的去给 AI 写个编年史。我们从一个经典的小例子"教计算机认识猫"开始,一步步深入 AI 的发展历史。
想象一下你要教一个从外星来的朋友认识地球上的猫:
- 手工教学阶段:你像老师一样,逐条告诉他"猫有尖耳朵、胡须、会喵叫..."
- 特征教学阶段:你教他用"测量工具",测耳朵尖度、胡须长度等数值
- 深度学习阶段:你直接给他看一万张猫的照片,让他自己悟出什么是猫
- 超级智能阶段:他不仅认识猫,还能画出各种风格的猫咪艺术作品!

"教计算机认识猫"的技术演进史 --- 人类人工智能波澜壮阔的发展史
第一阶段:规则时代(1980-1990年代)
技术特点:基于规则的专家系统
程序员的工作:
arduino
if (有尖耳朵 && 有胡须 && 有四条腿 && 会喵叫) {
输出:"这是猫"
} else if (有垂耳朵 && 有尾巴 && 会汪汪叫) {
输出:"这是狗"
}
现实场景:
- 程序员角色:像编写百科全书的学者
- 工作方式:总结所有关于猫的特征规则
- 遇到的问题:
-
- "无毛猫怎么办?没胡须的猫算猫吗?"
- "侧面看不到耳朵怎么判断?"
- "小猫咪不会叫怎么办?"
结果:规则越写越多,但总有例外情况处理不了
第二阶段:传统机器学习时代(1990-2010年代)
技术特点:特征工程 + 统计学习
程序员变身"特征工程师":
- 手工设计特征:
-
- 耳朵尖锐度 = 耳朵顶角度 ÷ 90°
- 眼睛圆度 = 眼睛长轴 ÷ 短轴
- 胡须密度 = 胡须根数 ÷ 脸部面积
- 收集训练数据:
-
- 准备 1000 张猫的照片
- 人工测量每张照片的各种特征数值
- 标记:"这是猫" 或 "这不是猫"
- 训练算法:
arduino
支持向量机 (SVM):找一条最优线把猫和非猫分开
决策树:像医生诊断一样,问一系列问题
随机森林:让多个"专家"投票决定
实际工作场景:
- 数据准备阶段:雇佣一堆人拿着尺子测量照片中猫的各种尺寸
- 特征工程阶段:数学家和程序员讨论"什么特征最能区分猫"
- 模型训练阶段:调参调到半夜,准确率从 60% 提升到 80%
遇到的挑战:
- 角度问题:侧面的猫和正面的猫特征完全不同
- 品种问题:波斯猫和暹罗猫差别太大
- 环境问题:黑夜中的黑猫几乎看不见
- 遮挡问题:只露半个脸的猫无法测量完整特征
第三阶段:深度学习革命(2010年代开始)
技术突破: 卷积神经网络(CNN)
2012年的历史性时刻 - ImageNet竞赛:
- 传统方法:准确率停留在75%左右
- AlexNet深度学习:一举突破到85%
- 震撼效果:就像从马车时代直接跳到汽车时代!
深度学习的工作方式:

第1层神经元:
diff
"我发现了边缘!"
- 这里有条横线
- 这里有条竖线
- 这里有条斜线
第2层神经元:
diff
"我发现了形状!"
- 横线+竖线 = 角落
- 弧线组合 = 圆形
- 直线组合 = 三角形
第3层神经元:
diff
"我发现了部件!"
- 圆形+黑点 = 眼睛
- 三角形+毛茸 = 耳朵
- 长条+细丝 = 胡须
第4层神经元:
diff
"我发现了完整对象!"
- 尖耳朵+圆眼睛+胡须 = 猫脸
- 长身体+四条腿+尾巴 = 猫身
最终输出:
arduino
"这是猫的概率:95.7%"
革命性变化:
- 程序员解放了:不需要手工设计特征,机器自己学会看什么
- 数据科学家诞生:重点转向收集更多更好的训练数据
- 算力工程师出现:需要 GPU、TPU 等专门硬件支持
真实场景对比:
传统方法的程序员:
scss
// 熬夜写代码
float ear_sharpness = calculate_ear_angle(image);
float whisker_count = count_whiskers(image);
if (ear_sharpness > 0.8 && whisker_count > 6) {
return "cat";
}
深度学习的数据科学家:
ini
# 喝着咖啡调参数
model = CNN(layers=50, neurons=1024)
model.train(cat_images=1000000, epochs=100)
result = model.predict(new_image) # 自动识别
第四阶段:生成式AI时代(2020年代)
从识别到创作的飞跃
不仅认识猫,还能"画"猫!
Midjourney/DALL-E的能力:
- 输入:「一只穿着西装的橘猫在办公室里开会」
- 输出:生成逼真的猫咪商务照片
技术原理简化理解:
arduino
传统深度学习:看图片 → 说"这是猫"
生成式AI:听描述 → 画出猫的图片
从识别到创作的技术跨越:
- GAN(生成对抗网络) :两个AI互相较劲,一个画猫,一个辨别真假
- Diffusion模型:从噪点开始,逐步"雕刻"出完美的猫
- 大语言模型:理解"可爱的小橘猫"这种抽象描述
从"教计算机认识猫"到"让计算机创造猫",这个看似简单的任务见证了 AI 技术的巨大飞跃。就像从手工作坊到智能工厂的变迁,每一次技术革新都让机器变得更加"聪明",最终达到了能够理解和创造的高度.

更多发展历史和事件可以参考人工智能发展简史,如下所示:

图片引用自人工智能发展简史
通过上面的讲述,我们从一个形象的例子"让计算机认识猫"系统的了解了 AI 的发展历史。接下来我们来聊聊到底什么是 AI,它有哪些核心技术。
AI 的核心技术
在上文讨论 AI 发展历史的过程中,我们提到了 AI 和 生成式 AI、机器学习、深度学习、强化学习,其中机器学习、深度学习、强化学习都是 AI 发展过程的核心技术,它们之间的关系是什么呢。
- AI(人工智能) 就像是"理科"这个大类别,包含所有让机器模拟人类智能的技术
- 机器学习就像是理科下面的"数学系",是实现AI的主要方法
- 深度学习就像是数学系下面的"高等数学专业",是机器学习中最强大的分支
- 强化学习就像是数学系下面的"应用数学专业",专门研究通过试错来学习
- 生成式AI就像是"艺术创作社团",它可以招收各个专业的学生,但主要依靠高等数学专业(深度学习)的技术来创作内容
它们的关系如下:
AI(人工智能)
├── 机器学习
│ ├── 深度学习 ←─── 生成式AI主要依赖这里
│ ├── 强化学习
│ └── 其他传统机器学习方法
└── 其他AI技术(专家系统、符号推理等)

接下来,我们来聊一聊 AI 擅长做哪些事情,不擅长做哪些事情。这样在我们在工作中可以对 AI 技术的应用做到有的放矢,
AI 的能与不能
AI 就像一个超级聪明但有局限的助手,它记忆无限,擅长识别,会多种语言,像一个超级专家,但是它也有自己的局限,它不具备人类的高级思维和情感,像一个聪明的孩子。

应用场景
AI 的应用场景主要受以下几个方面因素的影响。
- 数据质量和数量:成熟应用通常有大量高质量训练数据
- 技术标准化程度:成熟应用已有相对统一的技术标准
- 商业化程度:从探索性到成熟应用,商业化程度逐步提高
- 监管和伦理考量:越成熟的应用,相关法规和伦理标准越完善
- 用户接受度:成熟应用的用户接受度和信任度更高
我们按照成熟度对 AI 主要的应用场景进行了梳理:

不足与限制
在应用 AI 技术的同时,我们需要清楚的了解现在还有哪些限制:
- 数据依赖:就像一个只能通过教科书学习的学生,如果教科书内容有偏差或不完整,学生的认知也会出现偏差。AI 完全依赖训练数据,数据质量直接影响 AI 的表现。
- 缺乏真正理解:就像一个能够完美背诵诗歌但不理解其含义的学生,AI 可以处理语言和模式,但不具备真正的理解和意识。
- 无法处理未知情况:就像一个只学过教科书例题的学生,遇到全新类型的问题时会感到困惑,AI 在面对训练数据中没有见过的情况时表现会大幅下降。
- 能耗和资源需求:就像需要大量电力才能运行的超级计算机,AI 系统通常需要巨大的计算资源和能源消耗。

AI 正在从"工具"向"伙伴"演进,未来将在保持技术优势的同时,努力克服理解深度、创造性和社会性的限制,成为人类更好的协作伙伴。
好了,文章到这里就结束了,本文是 AI 入门启航系列的第一篇文章,后面我们来实际的玩一玩 AI,开发一个 Agent,训练一个小尺寸模型,我们下一篇文章见。
