机器学习----绪论

目录

一、到底什么是机器学习?

[二、机器学习里的 "行话" 得先搞懂](#二、机器学习里的 “行话” 得先搞懂)

[三、机器怎么 "学"?分两条路](#三、机器怎么 “学”?分两条路)

1、监督学习:带着答案学(有人教)

[2. 无监督学习:没有答案自己悟(没人教)](#2. 无监督学习:没有答案自己悟(没人教))

四、学完了怎么判断机器学得好不好?

[五、最后记住两个 "大道理"](#五、最后记住两个 “大道理”)


今天第一次正经接触机器学习,听着挺玄乎,实际琢磨下来,倒像是在学一套 "让机器自己总结规律" 的方法。从阿尔法围棋打败李世石,到怎么判断一个西瓜好不好吃,原来背后藏着同个逻辑 ------ 这大概就是机器学习的魅力吧。

一、到底什么是机器学习?

说白了,机器学习就是让机器 "从经验里学本事"。比如阿尔法围棋,2016 年它能赢李世石,不是因为程序员提前编好了每一步棋,而是它 "看" 了无数盘棋谱(经验数据),自己总结出了赢棋的规律。

拆解开来看,这个过程有三个关键点:

1、得有个具体任务(比如下棋、判断好瓜);

2、得有衡量好坏的标准(比如赢了多少盘、猜中好瓜的比例);

3、机器能通过分析数据,慢慢把任务做得更好(越学越厉害)。

就像咱们学骑自行车,摔多了(经验),自然就找到平衡的感觉(规律),下次骑得更稳 ------ 机器学东西,跟这逻辑差不多。

二、机器学习里的 "行话" 得先搞懂

刚开始听老师讲 "数据集""样本""特征",差点绕晕,结合例子一看其实很简单:

1、数据集:就是一堆数据的集合。比如咱们上课反复提到的 "西瓜数据集",里面记了十几个西瓜的各种信息,这就是一个数据集。

2、样本:数据集中的每条记录。比如 "编号 1 的西瓜,色泽青绿、根蒂蜷缩",这就是一个样本,像一个具体的 "例子"。

3、特征(属性):描述样本的特点。比如西瓜的 "色泽""根蒂""敲声",这些都是特征,相当于判断标准的 "维度"。

还有两个核心概念必须分清:

1、训练集:给机器 "上课" 用的数据,带 "标准答案"。比如带 "好瓜 / 不好瓜" 标签的西瓜数据,机器靠这个学规律。

2、测试集:给机器 "考试" 用的数据,不带答案。比如编号 15-17 的西瓜,只给特征,让机器猜是不是好瓜,看它学得怎么样。

三、机器怎么 "学"?分两条路

机器学习不是瞎学的,大致分 "有人教" 和 "自己悟" 两种:

1、监督学习:带着答案学(有人教)

就像做练习题时,每道题都有标准答案。机器学的时候,数据里带着 "正确结果"(专业叫 "标记"),学完了就能给新数据 "打分"。

(1)分类:答案是有限的几个选项(离散值)。比如判断西瓜 "是好瓜" 还是 "不是好瓜",只有两个选项,这就是分类。

(2)回归:答案是一个范围里的任意数(连续值)。比如预测房价,根据面积、地段,输出具体价格(比如 88 万、150 万),这就是回归。

举个例子:用训练集里的 "房屋面积 - 价格" 数据,机器学出规律后,给一个新房屋的面积,就能算出它大概值多少钱 ------ 这就是回归的用处。

2. 无监督学习:没有答案自己悟(没人教)

数据里没有 "标准答案",机器得自己找规律。最常见的是 "聚类":把相似的东西归成一类。

比如老师举的例子:超市的购物记录里,买尿布的人经常顺便买葡萄酒。机器不用人说 "该推荐什么",自己分析交易数据,发现这俩商品总被一起买,下次就会给买尿布的人推葡萄酒 ------ 这就是无监督学习的 "默契"。

四、学完了怎么判断机器学得好不好?

机器学完不是结束,还得评估 "学得怎么样"。这里面门道不少:

1、错误率和精度:比如判断 100 个西瓜,错了 20 个,错误率就是 20%,精度就是 80%(1 - 错误率)。

2、残差:比如预测房价应该是 100 万,实际算出来 95 万,差的 5 万就是残差,残差越小说明学得越准。

但更麻烦的是 "学偏了":

1、欠拟合:机器太笨,没抓住重点。比如判断好瓜只看 "色泽",觉得 "绿色的就是好瓜",结果把青绿色的坏瓜也当成好瓜 ------ 这就是没学透。

2、过拟合:机器太较真,把偶然当必然。比如学的时候看到好瓜都有 "锯齿纹",就认定 "没有锯齿的肯定不是好瓜",结果遇到一个圆滚滚的好瓜,直接判断错了 ------ 这就是学太死。

怎么解决?欠拟合就多教点特征(比如不光看色泽,再看根蒂);过拟合就多给点数据(让机器知道 "锯齿不是必须的"),或者简化模型(别想太复杂)。

五、最后记住两个 "大道理"

1、奥卡姆剃刀:"简单的才是最好的"。如果一个简单模型(比如看 3 个特征)就能判断好瓜,就别非要搞个看 10 个特征的复杂模型,画蛇添足反而容易错。

2、没有免费的午餐:没有 "万能算法"。一个模型在判断西瓜上很厉害,换去预测股票可能就不行了,得根据具体问题选方法。

今天这课听下来,最大的感受是:机器学习不是什么 "黑科技",更像一套 "系统化总结规律" 的工具。从猜西瓜到下围棋,从推荐商品到预测房价,本质上都是让机器在数据里找规律 ------ 至于怎么找得准、找得巧,就是接下来要慢慢啃的学问了。

相关推荐
思通数据2 小时前
AI视频监控:重构安防行业智能化新生态
人工智能·安全·目标检测·机器学习·计算机视觉·重构·数据挖掘
萤丰信息2 小时前
智慧工地从工具叠加到全要素重构的核心引擎
java·大数据·人工智能·重构·智慧城市·智慧工地
riveting2 小时前
明远智睿SSD2351:以技术突破重构嵌入式市场格局
大数据·人工智能·重构·边缘计算·嵌入式开发·智能交通
计算机sci论文精选3 小时前
CVPR2025敲门砖丨机器人结合多模态+时空Transformer直冲高分,让你的论文不再灌水
人工智能·科技·深度学习·机器人·transformer·cvpr
41号学员4 小时前
机器学习绪论
人工智能·机器学习
华清远见成都中心4 小时前
基于深度学习的异常检测算法在时间序列数据中的应用
人工智能·深度学习·算法
蜀中廖化4 小时前
机器学习:基于OpenCV和Python的智能图像处理 实战
python·opencv·机器学习
一车小面包5 小时前
机器学习中数据集的划分难点及实现
人工智能·深度学习·机器学习
R-G-B6 小时前
【P27 4-8】OpenCV Python——Mat类、深拷贝(clone、copyTo、copy)、浅拷贝,原理讲解与示例代码
人工智能·python·opencv·浅拷贝·深拷贝·opencv python·mat类