📌 本课学习目标
学完这节课,你能搞明白以下问题:
- 机器学习到底在"学"什么?跟传统编程有什么本质区别?
- 神经网络长什么样?它跟人脑有什么关系?
- 深度学习的"深"在哪?为什么它比普通的机器学习更厉害?
- 这三个概念到底什么关系?怎么用最简单的方式记住?
🤔 课前思考
我先问你一个问题:
"怎么让电脑认识一只猫?"
传统的编程思路:程序员写规则------"猫有尖耳朵、有胡须、有长尾巴......"写了几百条规则之后,发现换了个角度拍的猫就认不出来了。
机器学习的思路:给电脑看10万张猫的照片和10万张不是猫的照片,让它自己"悟"出猫长什么样。
哪种方式更靠谱?答案显而易见。
这节课,壹哥就来带大家搞清楚这种"让机器自己学"的能力到底是怎么回事。
一、核心区别:传统编程 vs 机器学习
这是理解AI最关键的一个分水岭,一定要搞清楚。
传统编程:你告诉电脑"怎么做"
输入数据 → 【程序员写的规则】 → 输出结果
例子:计算器
输入 3+5 → 规则"把两个数相加" → 输出 8
程序员把每一步操作都写死在代码里,电脑只是个执行者,不会自己变聪明。
机器学习:你给电脑"数据",让它自己找出"规律"
大量数据 → 【机器学习的算法自动学习规律】 → 学到的模型 → 预测新数据
例子:识别垃圾邮件
训练数据:10万封邮件(已经标注了"垃圾"或"正常")
↓
算法自动发现规律:"包含'中奖''免费领取'等关键词的邮件大概率是垃圾邮件"
↓
学到的模型:新来一封邮件 → 自动判断是垃圾还是正常
一句话总结区别:
传统编程 = 手把手教,告诉电脑每一步怎么做
机器学习 = 给足数据让电脑自己学,它自己总结出规律
二、机器学习:AI的"自学能力"
2.1 机器学习的三种方式
就像人有不同的学习方式,机器学习也有三种主流"学法":
方式一:监督学习------"带答案的练习题"
给机器看大量有标准答案的数据,让它学会"输入→输出"的对应关系。
学习阶段: 应用阶段:
图片 + 标签"猫" → 学习 → 模型 新图片 → 模型 → "这是猫!"
邮件 + 标签"垃圾" → 学习 → 模型 新邮件 → 模型 → "这是垃圾邮件!"
房价数据 + 实际价格 → 学习 → 模型 新房子特征 → 模型 → "预计售价500万"
类比:就像你做练习册,每道题后面都有标准答案,做完后对照答案,知道自己对不对,慢慢就掌握了做题的方法。
常见应用:垃圾分类、垃圾邮件过滤、房价预测、信用评分
方式二:无监督学习------"不给答案,自己找规律"
给机器看数据,但不告诉它答案,让它自己发现数据中的隐藏结构和模式。
大量用户购物数据 → 算法自动分析 → 发现:
用户群体A:年轻女性,爱买美妆、零食
用户群体B:中年男性,爱买电子产品、运动装备
类比:老师给你一堆散乱的积木,不告诉你该搭什么,你自己琢磨着按颜色、形状分成几组。
常见应用:用户分群(精准营销)、异常检测(信用卡盗刷识别)、数据降维
方式三:强化学习------"做对了给奖励,做错了扣分"
机器通过不断试错来学习最优策略------做得好给奖励,做得差扣分。
机器人走迷宫:
往前走 → 遇到墙 → 扣分
往右拐 → 通道 → 加分
反复试错之后 → 学会了最快走出迷宫的路线
类比:就像训练小狗,做对了给零食奖励,做错了训斥,反复训练后小狗就学会了"坐下""握手"。
常见应用:游戏AI(AlphaGo下围棋)、自动驾驶、机器人控制
2.2 机器学习的核心概念
几个关键术语,后面会经常遇到:
| 术语 | 白话解释 | 例子 |
|---|---|---|
| 数据集 | 机器学习的"教材" | 10万张标注了猫/狗的图片 |
| 特征 | 数据中用来判断的"线索" | 猫的耳朵形状、毛色、体型 |
| 标签 | 数据的"标准答案" | "这是一只猫" |
| 模型 | 机器学到的"规律集合" | 经过训练后能识别猫的程序 |
| 训练 | 机器学习的过程 | 让模型看大量数据,调整内部参数 |
| 推理/预测 | 用学到的模型处理新数据 | 给模型一张新图片,它判断是猫还是狗 |
三、神经网络:模仿人脑的"学习机器"
3.1 灵感来自人脑
人的大脑由大约860亿个神经元组成。每个神经元接收信号、处理信号、传递信号给下一个神经元。无数神经元连成网络,就构成了我们的大脑。
科学家想:能不能用数学来模拟这个结构?
于是就诞生了"人工神经网络"。
3.2 一个最简单的神经网络长什么样
输入层 隐藏层 输出层
(接收数据) (处理数据) (给出结果)
○ ──────────── ○
○ ──────────── ○ → "这是一只猫"
○ ──────────── ○
○
○ ──────────── ○
- 输入层:接收数据,比如一张图片的像素值
- 隐藏层:处理数据(提取特征、发现规律)------可以有好多层
- 输出层:给出结果,比如"猫:95%,狗:5%"
每一层之间的连线都有"权重",可以理解为"重要程度"。训练的过程,就是不断调整这些权重,让输出越来越准确。
3.3 用一个生活类比理解训练过程
假设你在学做饭:
- 第一次做红烧肉,放了一勺盐 → 太淡了 → 调整:下次放两勺
- 第二次放了两勺盐 → 太咸了 → 调整:下次放一勺半
- 第三次放了一勺半 → 刚刚好!记住这个比例。
神经网络训练也是一样的学习逻辑:
- 给一张猫的图片 → 模型输出"这是狗" → 错了!调整权重
- 再给一张猫的图片 → 模型输出"可能是猫" → 接近了,继续调
- 经过几万次调整 → 模型看到猫的图片就能准确判断了
关键点:程序员不需要告诉模型"猫长什么样",模型自己通过大量数据的"试错",学会了识别猫。
四、深度学习:把神经网络"叠"得更深
4.1 "深度"到底是什么意思?
普通的神经网络可能只有1-2个隐藏层,而深度神经网络有几十甚至上百个隐藏层。
普通神经网络(浅层):
输入 → [隐藏层] → 输出
深度神经网络(深层):
输入 → [隐藏层1] → [隐藏层2] → ... → [隐藏层100] → 输出
为什么要叠这么多层?因为每一层都负责识别不同级别的特征:
识别一张人脸:
第1层:识别最基础的线条和边缘
↓
第2层:把线条组合成形状,比如眼睛的轮廓、鼻子的形状
↓
第3层:把形状组合成局部特征,比如一只眼睛、一个鼻子
↓
第4层:把局部特征组合成完整的人脸
就像画画一样:先画轮廓,再画细节,最后上色。每一层都是在前一层的基础上做更高层次的抽象。
4.2 为什么之前不搞深度学习?
两个原因:
- 数据不够:深度网络参数太多了,数据少了容易"死记硬背"而不是"真正学会"。互联网普及之前,根本没那么多数据
- 算力不够:几亿个参数的训练需要巨大的计算量,以前的计算机跑不动
2012年之后,大数据有了,GPU(显卡)的计算能力也上来了,深度学习才终于迎来了爆发。
4.3 深度学习的三大"王牌"架构
| 架构 | 擅长领域 | 典型应用 | 生活例子 |
|---|---|---|---|
| CNN(卷积神经网络) | 图像处理 | 图像识别、目标检测 | 手机人脸解锁、自动驾驶看路标 |
| RNN(循环神经网络) | 序列数据 | 语音识别、机器翻译 | 语音助手、实时翻译 |
| Transformer | 语言理解 | 文本生成、对话系统 | ChatGPT、DeepSeek |
CNN处理图像,RNN处理语音,Transformer处理文字------它们都是深度学习,只是"专攻"的方向不同。
2022年之后,Transformer几乎"统一"了所有领域,它不仅能处理文字,还能处理图像、语音,这就是为什么现在的大模型什么都能干。
五、一张图串起所有概念
人工智能(AI)
│
├── 机器学习(ML) ← 从数据中学习规律
│ ├── 监督学习,带答案的练习
│ ├── 无监督学习,自己找规律
│ └── 强化学习,试错+奖惩
│
├── 深度学习(DL) ← 机器学习的子集,用多层神经网络
│ ├── CNN擅长图像
│ ├── RNN擅长序列
│ └── Transformer擅长语言,几乎通吃一切
│
└── 大模型(LLM) ← 深度学习的子集,参数特别多
├── GPT系列(OpenAI)
├── 文心一言(百度)
├── DeepSeek(深度求索)
└── 通义千问(阿里)
用一句话记住这个关系:
所有的深度学习都是机器学习,但不是所有机器学习都是深度学习。
所有的大模型都是深度学习,但不是所有的深度学习都是大模型。
🏢 业务场景实战
场景一:电商平台的"猜你喜欢"是怎么做到的?
背后用的是机器学习中的协同过滤算法:
用户A买了:手机、耳机、充电宝
用户B买了:手机、耳机、手机壳
系统发现A和B很相似,于是给A推荐"手机壳"
机器从海量的用户行为数据中,自动发现了"买了手机和耳机的人,大概率也会买手机壳"这个规律,不再需要人工写规则。
场景二:银行怎么用AI识别信用卡盗刷?
用的是机器学习中的异常检测(无监督学习):
正常的消费模式:每月消费10-20次,金额100-5000元,地点是固定的城市
异常消费:凌晨3点在境外消费8000元
模型发现这个行为严重偏离正常模式 → 自动标记为"可疑交易" → 冻结并通知用户
场景三:自动驾驶怎么"看"红绿灯?
用的是深度学习中的CNN(卷积神经网络):
摄像头拍下的画面 → CNN逐层提取特征 → 第1层识别边缘 → 第2层识别形状 → 第3层识别颜色+形状组合 → 输出"前方有红绿灯,红灯"
整个过程不需要人工定义"红灯是圆形的、红色的"这些规则,CNN自己能从数百万张交通场景图片中学会w识别。
✅ 本课知识卡片
┌─────────────────────────────────────────────────┐
│ 第03课 · 核心概念速查 │
├─────────────────────────────────────────────────┤
│ 传统编程 vs 机器学习: │
│ 手把手教 vs 给数据自己学 │
│ │
│ 机器学习三种方式: │
│ 监督学习(带答案) · 无监督学习(找规律) · 强化学习(试错)│
│ │
│ 神经网络 = 模仿人脑结构的数学模型 │
│ 输入层 → 隐藏层(多层) → 输出层 │
│ 训练 = 不断调整权重,让输出越来越准 │
│ │
│ 深度学习 = 层数很深的神经网络 │
│ 每一层识别不同级别的特征(边缘→形状→物体) │
│ 三大架构:CNN(图像) · RNN(语音) · Transformer(语言)│
└─────────────────────────────────────────────────┘
🔗 下一课预告
前三课我们搞懂了AI的基本概念、发展历史和工作原理。
接下来,我们要进入AI当前最热门的领域------生成式AI。为什么AI突然能写文章、画画、作曲了?ChatGPT的"创造力"到底从哪来?它和之前的AI有什么本质区别?
下一课:生成式AI------从"读懂"到"创造"