AI 入门启航：了解什么 AI

自从 ChatGPT 横空出世以来，AI 正在深刻的改变着我们的工作和生活方式。无论是在工作中，还是在社交媒体上，我们听到的，看到的都有大量关于 Ai 的讨论。AI 确实带来了生产力的提升，但是也存在着很多不必要的炒作，充斥着一种大干快上，生怕落为人后的氛围。

作为一名普通开发者，我认为正确的态度是去学习 AI，而非迷信或者焦虑 AI。探究 AI 背后的原理，享受 AI 带来的乐趣。后续笔者会开启一系列的文章，期待和大家一起学习，一起进步。

本文会按照以下章节展开：

AI 的发展历史
AI 的核心技术
AI 的能与不能

要了解一门技术，就要先从它的发展历史开始说起。AI 已经发展了相当长的历史，ChatGPT 的成功并发偶然，而是长期以来 AI 技术，特别是深度学习和自然语言处理等领域，厚积薄发的结果。

AI 的发展历史

提到 AI 的发展历史，我们不打算长篇大论的去给 AI 写个编年史。我们从一个经典的小例子"教计算机认识猫"开始，一步步深入 AI 的发展历史。

想象一下你要教一个从外星来的朋友认识地球上的猫：

手工教学阶段：你像老师一样，逐条告诉他"猫有尖耳朵、胡须、会喵叫..."
特征教学阶段：你教他用"测量工具"，测耳朵尖度、胡须长度等数值
深度学习阶段：你直接给他看一万张猫的照片，让他自己悟出什么是猫
超级智能阶段：他不仅认识猫，还能画出各种风格的猫咪艺术作品！

"教计算机认识猫"的技术演进史 --- 人类人工智能波澜壮阔的发展史

第一阶段：规则时代（1980-1990年代）

技术特点：基于规则的专家系统

程序员的工作：

arduino 复制代码

if (有尖耳朵 && 有胡须 && 有四条腿 && 会喵叫) {
    输出："这是猫"
} else if (有垂耳朵 && 有尾巴 && 会汪汪叫) {
    输出："这是狗"  
}

现实场景：

程序员角色：像编写百科全书的学者
工作方式：总结所有关于猫的特征规则
遇到的问题：

- "无毛猫怎么办？没胡须的猫算猫吗？"
- "侧面看不到耳朵怎么判断？"
- "小猫咪不会叫怎么办？"

结果：规则越写越多，但总有例外情况处理不了

第二阶段：传统机器学习时代（1990-2010年代）

技术特点：特征工程 + 统计学习

程序员变身"特征工程师"：

手工设计特征：

- 耳朵尖锐度 = 耳朵顶角度 ÷ 90°
- 眼睛圆度 = 眼睛长轴 ÷ 短轴
- 胡须密度 = 胡须根数 ÷ 脸部面积

收集训练数据：

- 准备 1000 张猫的照片
- 人工测量每张照片的各种特征数值
- 标记："这是猫" 或 "这不是猫"

训练算法：

arduino 复制代码

支持向量机 (SVM)：找一条最优线把猫和非猫分开
决策树：像医生诊断一样，问一系列问题
随机森林：让多个"专家"投票决定

实际工作场景：

数据准备阶段：雇佣一堆人拿着尺子测量照片中猫的各种尺寸
特征工程阶段：数学家和程序员讨论"什么特征最能区分猫"
模型训练阶段：调参调到半夜，准确率从 60% 提升到 80%

遇到的挑战：

角度问题：侧面的猫和正面的猫特征完全不同
品种问题：波斯猫和暹罗猫差别太大
环境问题：黑夜中的黑猫几乎看不见
遮挡问题：只露半个脸的猫无法测量完整特征

第三阶段：深度学习革命（2010年代开始）

技术突破： 卷积神经网络(CNN)

2012年的历史性时刻 - ImageNet竞赛：

传统方法：准确率停留在75%左右
AlexNet深度学习：一举突破到85%
震撼效果：就像从马车时代直接跳到汽车时代！

深度学习的工作方式：

第1层神经元：

diff 复制代码

"我发现了边缘！"
- 这里有条横线
- 这里有条竖线  
- 这里有条斜线

第2层神经元：

diff 复制代码

"我发现了形状！"
- 横线+竖线 = 角落
- 弧线组合 = 圆形
- 直线组合 = 三角形

第3层神经元：

diff 复制代码

"我发现了部件！"  
- 圆形+黑点 = 眼睛
- 三角形+毛茸 = 耳朵
- 长条+细丝 = 胡须

第4层神经元：

diff 复制代码

"我发现了完整对象！"
- 尖耳朵+圆眼睛+胡须 = 猫脸
- 长身体+四条腿+尾巴 = 猫身

最终输出：

arduino 复制代码

"这是猫的概率：95.7%"

革命性变化：

程序员解放了：不需要手工设计特征，机器自己学会看什么
数据科学家诞生：重点转向收集更多更好的训练数据
算力工程师出现：需要 GPU、TPU 等专门硬件支持

真实场景对比：

传统方法的程序员：

scss 复制代码

// 熬夜写代码
float ear_sharpness = calculate_ear_angle(image);
float whisker_count = count_whiskers(image);
if (ear_sharpness > 0.8 && whisker_count > 6) {
    return "cat";
}

深度学习的数据科学家：

ini 复制代码

# 喝着咖啡调参数
model = CNN(layers=50, neurons=1024)
model.train(cat_images=1000000, epochs=100)
result = model.predict(new_image)  # 自动识别

第四阶段：生成式AI时代（2020年代）

从识别到创作的飞跃

不仅认识猫，还能"画"猫！

Midjourney/DALL-E的能力：

输入：「一只穿着西装的橘猫在办公室里开会」
输出：生成逼真的猫咪商务照片

技术原理简化理解：

arduino 复制代码

传统深度学习：看图片 → 说"这是猫"
生成式AI：听描述 → 画出猫的图片

从识别到创作的技术跨越：

GAN（生成对抗网络） ：两个AI互相较劲，一个画猫，一个辨别真假
Diffusion模型：从噪点开始，逐步"雕刻"出完美的猫
大语言模型：理解"可爱的小橘猫"这种抽象描述

从"教计算机认识猫"到"让计算机创造猫"，这个看似简单的任务见证了 AI 技术的巨大飞跃。就像从手工作坊到智能工厂的变迁，每一次技术革新都让机器变得更加"聪明"，最终达到了能够理解和创造的高度.

更多发展历史和事件可以参考人工智能发展简史，如下所示：

图片引用自人工智能发展简史

通过上面的讲述，我们从一个形象的例子"让计算机认识猫"系统的了解了 AI 的发展历史。接下来我们来聊聊到底什么是 AI，它有哪些核心技术。

AI 的核心技术

在上文讨论 AI 发展历史的过程中，我们提到了 AI 和生成式 AI、机器学习、深度学习、强化学习，其中机器学习、深度学习、强化学习都是 AI 发展过程的核心技术，它们之间的关系是什么呢。

AI（人工智能） 就像是"理科"这个大类别，包含所有让机器模拟人类智能的技术
机器学习就像是理科下面的"数学系"，是实现AI的主要方法
深度学习就像是数学系下面的"高等数学专业"，是机器学习中最强大的分支
强化学习就像是数学系下面的"应用数学专业"，专门研究通过试错来学习
生成式AI就像是"艺术创作社团"，它可以招收各个专业的学生，但主要依靠高等数学专业（深度学习）的技术来创作内容

它们的关系如下：

复制代码

AI（人工智能）
├── 机器学习
│   ├── 深度学习 ←─── 生成式AI主要依赖这里
│   ├── 强化学习
│   └── 其他传统机器学习方法
└── 其他AI技术（专家系统、符号推理等）

接下来，我们来聊一聊 AI 擅长做哪些事情，不擅长做哪些事情。这样在我们在工作中可以对 AI 技术的应用做到有的放矢，

AI 的能与不能

AI 就像一个超级聪明但有局限的助手，它记忆无限，擅长识别，会多种语言，像一个超级专家，但是它也有自己的局限，它不具备人类的高级思维和情感，像一个聪明的孩子。

应用场景

AI 的应用场景主要受以下几个方面因素的影响。

数据质量和数量：成熟应用通常有大量高质量训练数据
技术标准化程度：成熟应用已有相对统一的技术标准
商业化程度：从探索性到成熟应用，商业化程度逐步提高
监管和伦理考量：越成熟的应用，相关法规和伦理标准越完善
用户接受度：成熟应用的用户接受度和信任度更高

我们按照成熟度对 AI 主要的应用场景进行了梳理：

不足与限制

在应用 AI 技术的同时，我们需要清楚的了解现在还有哪些限制：

数据依赖：就像一个只能通过教科书学习的学生，如果教科书内容有偏差或不完整，学生的认知也会出现偏差。AI 完全依赖训练数据，数据质量直接影响 AI 的表现。
缺乏真正理解：就像一个能够完美背诵诗歌但不理解其含义的学生，AI 可以处理语言和模式，但不具备真正的理解和意识。
无法处理未知情况：就像一个只学过教科书例题的学生，遇到全新类型的问题时会感到困惑，AI 在面对训练数据中没有见过的情况时表现会大幅下降。
能耗和资源需求：就像需要大量电力才能运行的超级计算机，AI 系统通常需要巨大的计算资源和能源消耗。

AI 正在从"工具"向"伙伴"演进，未来将在保持技术优势的同时，努力克服理解深度、创造性和社会性的限制，成为人类更好的协作伙伴。

好了，文章到这里就结束了，本文是 AI 入门启航系列的第一篇文章，后面我们来实际的玩一玩 AI，开发一个 Agent，训练一个小尺寸模型，我们下一篇文章见。

AI 入门启航：了解什么 AI

AI 的发展历史

第一阶段：规则时代（1980-1990年代）

第二阶段：传统机器学习时代（1990-2010年代）

第三阶段：深度学习革命（2010年代开始）

第四阶段：生成式AI时代（2020年代）

AI 的核心技术

AI 的能与不能

应用场景

不足与限制

参考资料