机器学习----绪论

目录

一、到底什么是机器学习?

[二、机器学习里的 "行话" 得先搞懂](#二、机器学习里的 “行话” 得先搞懂)

[三、机器怎么 "学"?分两条路](#三、机器怎么 “学”?分两条路)

1、监督学习:带着答案学(有人教)

[2. 无监督学习:没有答案自己悟(没人教)](#2. 无监督学习:没有答案自己悟(没人教))

四、学完了怎么判断机器学得好不好?

[五、最后记住两个 "大道理"](#五、最后记住两个 “大道理”)


今天第一次正经接触机器学习,听着挺玄乎,实际琢磨下来,倒像是在学一套 "让机器自己总结规律" 的方法。从阿尔法围棋打败李世石,到怎么判断一个西瓜好不好吃,原来背后藏着同个逻辑 ------ 这大概就是机器学习的魅力吧。

一、到底什么是机器学习?

说白了,机器学习就是让机器 "从经验里学本事"。比如阿尔法围棋,2016 年它能赢李世石,不是因为程序员提前编好了每一步棋,而是它 "看" 了无数盘棋谱(经验数据),自己总结出了赢棋的规律。

拆解开来看,这个过程有三个关键点:

1、得有个具体任务(比如下棋、判断好瓜);

2、得有衡量好坏的标准(比如赢了多少盘、猜中好瓜的比例);

3、机器能通过分析数据,慢慢把任务做得更好(越学越厉害)。

就像咱们学骑自行车,摔多了(经验),自然就找到平衡的感觉(规律),下次骑得更稳 ------ 机器学东西,跟这逻辑差不多。

二、机器学习里的 "行话" 得先搞懂

刚开始听老师讲 "数据集""样本""特征",差点绕晕,结合例子一看其实很简单:

1、数据集:就是一堆数据的集合。比如咱们上课反复提到的 "西瓜数据集",里面记了十几个西瓜的各种信息,这就是一个数据集。

2、样本:数据集中的每条记录。比如 "编号 1 的西瓜,色泽青绿、根蒂蜷缩",这就是一个样本,像一个具体的 "例子"。

3、特征(属性):描述样本的特点。比如西瓜的 "色泽""根蒂""敲声",这些都是特征,相当于判断标准的 "维度"。

还有两个核心概念必须分清:

1、训练集:给机器 "上课" 用的数据,带 "标准答案"。比如带 "好瓜 / 不好瓜" 标签的西瓜数据,机器靠这个学规律。

2、测试集:给机器 "考试" 用的数据,不带答案。比如编号 15-17 的西瓜,只给特征,让机器猜是不是好瓜,看它学得怎么样。

三、机器怎么 "学"?分两条路

机器学习不是瞎学的,大致分 "有人教" 和 "自己悟" 两种:

1、监督学习:带着答案学(有人教)

就像做练习题时,每道题都有标准答案。机器学的时候,数据里带着 "正确结果"(专业叫 "标记"),学完了就能给新数据 "打分"。

(1)分类:答案是有限的几个选项(离散值)。比如判断西瓜 "是好瓜" 还是 "不是好瓜",只有两个选项,这就是分类。

(2)回归:答案是一个范围里的任意数(连续值)。比如预测房价,根据面积、地段,输出具体价格(比如 88 万、150 万),这就是回归。

举个例子:用训练集里的 "房屋面积 - 价格" 数据,机器学出规律后,给一个新房屋的面积,就能算出它大概值多少钱 ------ 这就是回归的用处。

2. 无监督学习:没有答案自己悟(没人教)

数据里没有 "标准答案",机器得自己找规律。最常见的是 "聚类":把相似的东西归成一类。

比如老师举的例子:超市的购物记录里,买尿布的人经常顺便买葡萄酒。机器不用人说 "该推荐什么",自己分析交易数据,发现这俩商品总被一起买,下次就会给买尿布的人推葡萄酒 ------ 这就是无监督学习的 "默契"。

四、学完了怎么判断机器学得好不好?

机器学完不是结束,还得评估 "学得怎么样"。这里面门道不少:

1、错误率和精度:比如判断 100 个西瓜,错了 20 个,错误率就是 20%,精度就是 80%(1 - 错误率)。

2、残差:比如预测房价应该是 100 万,实际算出来 95 万,差的 5 万就是残差,残差越小说明学得越准。

但更麻烦的是 "学偏了":

1、欠拟合:机器太笨,没抓住重点。比如判断好瓜只看 "色泽",觉得 "绿色的就是好瓜",结果把青绿色的坏瓜也当成好瓜 ------ 这就是没学透。

2、过拟合:机器太较真,把偶然当必然。比如学的时候看到好瓜都有 "锯齿纹",就认定 "没有锯齿的肯定不是好瓜",结果遇到一个圆滚滚的好瓜,直接判断错了 ------ 这就是学太死。

怎么解决?欠拟合就多教点特征(比如不光看色泽,再看根蒂);过拟合就多给点数据(让机器知道 "锯齿不是必须的"),或者简化模型(别想太复杂)。

五、最后记住两个 "大道理"

1、奥卡姆剃刀:"简单的才是最好的"。如果一个简单模型(比如看 3 个特征)就能判断好瓜,就别非要搞个看 10 个特征的复杂模型,画蛇添足反而容易错。

2、没有免费的午餐:没有 "万能算法"。一个模型在判断西瓜上很厉害,换去预测股票可能就不行了,得根据具体问题选方法。

今天这课听下来,最大的感受是:机器学习不是什么 "黑科技",更像一套 "系统化总结规律" 的工具。从猜西瓜到下围棋,从推荐商品到预测房价,本质上都是让机器在数据里找规律 ------ 至于怎么找得准、找得巧,就是接下来要慢慢啃的学问了。

相关推荐
Learn Beyond Limits11 分钟前
Transfer Learning|迁移学习
人工智能·python·深度学习·神经网络·机器学习·ai·吴恩达
程序员三明治12 分钟前
三、神经网络
人工智能·深度学习·神经网络
hundaxxx1 小时前
自演化大语言模型的技术背景
人工智能
数智顾问2 小时前
【73页PPT】美的简单高效的管理逻辑(附下载方式)
大数据·人工智能·产品运营
love530love2 小时前
【保姆级教程】阿里 Wan2.1-T2V-14B 模型本地部署全流程:从环境配置到视频生成(附避坑指南)
人工智能·windows·python·开源·大模型·github·音视频
木头左2 小时前
结合机器学习的Backtrader跨市场交易策略研究
人工智能·机器学习·kotlin
Coovally AI模型快速验证2 小时前
3D目标跟踪重磅突破!TrackAny3D实现「类别无关」统一建模,多项SOTA达成!
人工智能·yolo·机器学习·3d·目标跟踪·无人机·cocos2d
研梦非凡2 小时前
CVPR 2025|基于粗略边界框监督的3D实例分割
人工智能·计算机网络·计算机视觉·3d
MiaoChuAI2 小时前
秒出PPT vs 豆包AI PPT:实测哪款更好用?
人工智能·powerpoint
fsnine3 小时前
深度学习——残差神经网路
人工智能·深度学习