机器学习----绪论

[二、机器学习里的 "行话" 得先搞懂](#二、机器学习里的 “行话” 得先搞懂)

[三、机器怎么 "学"？分两条路](#三、机器怎么 “学”？分两条路)

[2. 无监督学习：没有答案自己悟（没人教）](#2. 无监督学习：没有答案自己悟（没人教）)

[五、最后记住两个 "大道理"](#五、最后记住两个 “大道理”)

今天第一次正经接触机器学习，听着挺玄乎，实际琢磨下来，倒像是在学一套 "让机器自己总结规律" 的方法。从阿尔法围棋打败李世石，到怎么判断一个西瓜好不好吃，原来背后藏着同个逻辑 ------ 这大概就是机器学习的魅力吧。

一、到底什么是机器学习？

说白了，机器学习就是让机器 "从经验里学本事"。比如阿尔法围棋，2016 年它能赢李世石，不是因为程序员提前编好了每一步棋，而是它 "看" 了无数盘棋谱（经验数据），自己总结出了赢棋的规律。

拆解开来看，这个过程有三个关键点：

1、得有个具体任务（比如下棋、判断好瓜）；

2、得有衡量好坏的标准（比如赢了多少盘、猜中好瓜的比例）；

3、机器能通过分析数据，慢慢把任务做得更好（越学越厉害）。

就像咱们学骑自行车，摔多了（经验），自然就找到平衡的感觉（规律），下次骑得更稳 ------ 机器学东西，跟这逻辑差不多。

刚开始听老师讲 "数据集""样本""特征"，差点绕晕，结合例子一看其实很简单：

1、数据集：就是一堆数据的集合。比如咱们上课反复提到的 "西瓜数据集"，里面记了十几个西瓜的各种信息，这就是一个数据集。

2、样本：数据集中的每条记录。比如 "编号 1 的西瓜，色泽青绿、根蒂蜷缩"，这就是一个样本，像一个具体的 "例子"。

3、特征（属性）：描述样本的特点。比如西瓜的 "色泽""根蒂""敲声"，这些都是特征，相当于判断标准的 "维度"。

还有两个核心概念必须分清：

1、训练集：给机器 "上课" 用的数据，带 "标准答案"。比如带 "好瓜 / 不好瓜" 标签的西瓜数据，机器靠这个学规律。

2、测试集：给机器 "考试" 用的数据，不带答案。比如编号 15-17 的西瓜，只给特征，让机器猜是不是好瓜，看它学得怎么样。

机器学习不是瞎学的，大致分 "有人教" 和 "自己悟" 两种：

就像做练习题时，每道题都有标准答案。机器学的时候，数据里带着 "正确结果"（专业叫 "标记"），学完了就能给新数据 "打分"。

（1）分类：答案是有限的几个选项（离散值）。比如判断西瓜 "是好瓜" 还是 "不是好瓜"，只有两个选项，这就是分类。

（2）回归：答案是一个范围里的任意数（连续值）。比如预测房价，根据面积、地段，输出具体价格（比如 88 万、150 万），这就是回归。

举个例子：用训练集里的 "房屋面积 - 价格" 数据，机器学出规律后，给一个新房屋的面积，就能算出它大概值多少钱 ------ 这就是回归的用处。

数据里没有 "标准答案"，机器得自己找规律。最常见的是 "聚类"：把相似的东西归成一类。

比如老师举的例子：超市的购物记录里，买尿布的人经常顺便买葡萄酒。机器不用人说 "该推荐什么"，自己分析交易数据，发现这俩商品总被一起买，下次就会给买尿布的人推葡萄酒 ------ 这就是无监督学习的 "默契"。

机器学完不是结束，还得评估 "学得怎么样"。这里面门道不少：

1、错误率和精度：比如判断 100 个西瓜，错了 20 个，错误率就是 20%，精度就是 80%（1 - 错误率）。

2、残差：比如预测房价应该是 100 万，实际算出来 95 万，差的 5 万就是残差，残差越小说明学得越准。

但更麻烦的是 "学偏了"：

1、欠拟合：机器太笨，没抓住重点。比如判断好瓜只看 "色泽"，觉得 "绿色的就是好瓜"，结果把青绿色的坏瓜也当成好瓜 ------ 这就是没学透。

2、过拟合：机器太较真，把偶然当必然。比如学的时候看到好瓜都有 "锯齿纹"，就认定 "没有锯齿的肯定不是好瓜"，结果遇到一个圆滚滚的好瓜，直接判断错了 ------ 这就是学太死。

怎么解决？欠拟合就多教点特征（比如不光看色泽，再看根蒂）；过拟合就多给点数据（让机器知道 "锯齿不是必须的"），或者简化模型（别想太复杂）。

1、奥卡姆剃刀："简单的才是最好的"。如果一个简单模型（比如看 3 个特征）就能判断好瓜，就别非要搞个看 10 个特征的复杂模型，画蛇添足反而容易错。

2、没有免费的午餐：没有 "万能算法"。一个模型在判断西瓜上很厉害，换去预测股票可能就不行了，得根据具体问题选方法。

今天这课听下来，最大的感受是：机器学习不是什么 "黑科技"，更像一套 "系统化总结规律" 的工具。从猜西瓜到下围棋，从推荐商品到预测房价，本质上都是让机器在数据里找规律 ------ 至于怎么找得准、找得巧，就是接下来要慢慢啃的学问了。