目录
[二、机器学习里的 "行话" 得先搞懂](#二、机器学习里的 “行话” 得先搞懂)
[三、机器怎么 "学"?分两条路](#三、机器怎么 “学”?分两条路)
[2. 无监督学习:没有答案自己悟(没人教)](#2. 无监督学习:没有答案自己悟(没人教))
[五、最后记住两个 "大道理"](#五、最后记住两个 “大道理”)
今天第一次正经接触机器学习,听着挺玄乎,实际琢磨下来,倒像是在学一套 "让机器自己总结规律" 的方法。从阿尔法围棋打败李世石,到怎么判断一个西瓜好不好吃,原来背后藏着同个逻辑 ------ 这大概就是机器学习的魅力吧。
一、到底什么是机器学习?
说白了,机器学习就是让机器 "从经验里学本事"。比如阿尔法围棋,2016 年它能赢李世石,不是因为程序员提前编好了每一步棋,而是它 "看" 了无数盘棋谱(经验数据),自己总结出了赢棋的规律。
拆解开来看,这个过程有三个关键点:
1、得有个具体任务(比如下棋、判断好瓜);
2、得有衡量好坏的标准(比如赢了多少盘、猜中好瓜的比例);
3、机器能通过分析数据,慢慢把任务做得更好(越学越厉害)。
就像咱们学骑自行车,摔多了(经验),自然就找到平衡的感觉(规律),下次骑得更稳 ------ 机器学东西,跟这逻辑差不多。
二、机器学习里的 "行话" 得先搞懂
刚开始听老师讲 "数据集""样本""特征",差点绕晕,结合例子一看其实很简单:
1、数据集:就是一堆数据的集合。比如咱们上课反复提到的 "西瓜数据集",里面记了十几个西瓜的各种信息,这就是一个数据集。
2、样本:数据集中的每条记录。比如 "编号 1 的西瓜,色泽青绿、根蒂蜷缩",这就是一个样本,像一个具体的 "例子"。
3、特征(属性):描述样本的特点。比如西瓜的 "色泽""根蒂""敲声",这些都是特征,相当于判断标准的 "维度"。
还有两个核心概念必须分清:
1、训练集:给机器 "上课" 用的数据,带 "标准答案"。比如带 "好瓜 / 不好瓜" 标签的西瓜数据,机器靠这个学规律。
2、测试集:给机器 "考试" 用的数据,不带答案。比如编号 15-17 的西瓜,只给特征,让机器猜是不是好瓜,看它学得怎么样。
三、机器怎么 "学"?分两条路
机器学习不是瞎学的,大致分 "有人教" 和 "自己悟" 两种:
1、监督学习:带着答案学(有人教)
就像做练习题时,每道题都有标准答案。机器学的时候,数据里带着 "正确结果"(专业叫 "标记"),学完了就能给新数据 "打分"。
(1)分类:答案是有限的几个选项(离散值)。比如判断西瓜 "是好瓜" 还是 "不是好瓜",只有两个选项,这就是分类。
(2)回归:答案是一个范围里的任意数(连续值)。比如预测房价,根据面积、地段,输出具体价格(比如 88 万、150 万),这就是回归。
举个例子:用训练集里的 "房屋面积 - 价格" 数据,机器学出规律后,给一个新房屋的面积,就能算出它大概值多少钱 ------ 这就是回归的用处。
2. 无监督学习:没有答案自己悟(没人教)
数据里没有 "标准答案",机器得自己找规律。最常见的是 "聚类":把相似的东西归成一类。
比如老师举的例子:超市的购物记录里,买尿布的人经常顺便买葡萄酒。机器不用人说 "该推荐什么",自己分析交易数据,发现这俩商品总被一起买,下次就会给买尿布的人推葡萄酒 ------ 这就是无监督学习的 "默契"。
四、学完了怎么判断机器学得好不好?
机器学完不是结束,还得评估 "学得怎么样"。这里面门道不少:
1、错误率和精度:比如判断 100 个西瓜,错了 20 个,错误率就是 20%,精度就是 80%(1 - 错误率)。
2、残差:比如预测房价应该是 100 万,实际算出来 95 万,差的 5 万就是残差,残差越小说明学得越准。
但更麻烦的是 "学偏了":
1、欠拟合:机器太笨,没抓住重点。比如判断好瓜只看 "色泽",觉得 "绿色的就是好瓜",结果把青绿色的坏瓜也当成好瓜 ------ 这就是没学透。
2、过拟合:机器太较真,把偶然当必然。比如学的时候看到好瓜都有 "锯齿纹",就认定 "没有锯齿的肯定不是好瓜",结果遇到一个圆滚滚的好瓜,直接判断错了 ------ 这就是学太死。
怎么解决?欠拟合就多教点特征(比如不光看色泽,再看根蒂);过拟合就多给点数据(让机器知道 "锯齿不是必须的"),或者简化模型(别想太复杂)。
五、最后记住两个 "大道理"
1、奥卡姆剃刀:"简单的才是最好的"。如果一个简单模型(比如看 3 个特征)就能判断好瓜,就别非要搞个看 10 个特征的复杂模型,画蛇添足反而容易错。
2、没有免费的午餐:没有 "万能算法"。一个模型在判断西瓜上很厉害,换去预测股票可能就不行了,得根据具体问题选方法。
今天这课听下来,最大的感受是:机器学习不是什么 "黑科技",更像一套 "系统化总结规律" 的工具。从猜西瓜到下围棋,从推荐商品到预测房价,本质上都是让机器在数据里找规律 ------ 至于怎么找得准、找得巧,就是接下来要慢慢啃的学问了。