机器学习----绪论

目录

一、到底什么是机器学习?

[二、机器学习里的 "行话" 得先搞懂](#二、机器学习里的 “行话” 得先搞懂)

[三、机器怎么 "学"?分两条路](#三、机器怎么 “学”?分两条路)

1、监督学习:带着答案学(有人教)

[2. 无监督学习:没有答案自己悟(没人教)](#2. 无监督学习:没有答案自己悟(没人教))

四、学完了怎么判断机器学得好不好?

[五、最后记住两个 "大道理"](#五、最后记住两个 “大道理”)


今天第一次正经接触机器学习,听着挺玄乎,实际琢磨下来,倒像是在学一套 "让机器自己总结规律" 的方法。从阿尔法围棋打败李世石,到怎么判断一个西瓜好不好吃,原来背后藏着同个逻辑 ------ 这大概就是机器学习的魅力吧。

一、到底什么是机器学习?

说白了,机器学习就是让机器 "从经验里学本事"。比如阿尔法围棋,2016 年它能赢李世石,不是因为程序员提前编好了每一步棋,而是它 "看" 了无数盘棋谱(经验数据),自己总结出了赢棋的规律。

拆解开来看,这个过程有三个关键点:

1、得有个具体任务(比如下棋、判断好瓜);

2、得有衡量好坏的标准(比如赢了多少盘、猜中好瓜的比例);

3、机器能通过分析数据,慢慢把任务做得更好(越学越厉害)。

就像咱们学骑自行车,摔多了(经验),自然就找到平衡的感觉(规律),下次骑得更稳 ------ 机器学东西,跟这逻辑差不多。

二、机器学习里的 "行话" 得先搞懂

刚开始听老师讲 "数据集""样本""特征",差点绕晕,结合例子一看其实很简单:

1、数据集:就是一堆数据的集合。比如咱们上课反复提到的 "西瓜数据集",里面记了十几个西瓜的各种信息,这就是一个数据集。

2、样本:数据集中的每条记录。比如 "编号 1 的西瓜,色泽青绿、根蒂蜷缩",这就是一个样本,像一个具体的 "例子"。

3、特征(属性):描述样本的特点。比如西瓜的 "色泽""根蒂""敲声",这些都是特征,相当于判断标准的 "维度"。

还有两个核心概念必须分清:

1、训练集:给机器 "上课" 用的数据,带 "标准答案"。比如带 "好瓜 / 不好瓜" 标签的西瓜数据,机器靠这个学规律。

2、测试集:给机器 "考试" 用的数据,不带答案。比如编号 15-17 的西瓜,只给特征,让机器猜是不是好瓜,看它学得怎么样。

三、机器怎么 "学"?分两条路

机器学习不是瞎学的,大致分 "有人教" 和 "自己悟" 两种:

1、监督学习:带着答案学(有人教)

就像做练习题时,每道题都有标准答案。机器学的时候,数据里带着 "正确结果"(专业叫 "标记"),学完了就能给新数据 "打分"。

(1)分类:答案是有限的几个选项(离散值)。比如判断西瓜 "是好瓜" 还是 "不是好瓜",只有两个选项,这就是分类。

(2)回归:答案是一个范围里的任意数(连续值)。比如预测房价,根据面积、地段,输出具体价格(比如 88 万、150 万),这就是回归。

举个例子:用训练集里的 "房屋面积 - 价格" 数据,机器学出规律后,给一个新房屋的面积,就能算出它大概值多少钱 ------ 这就是回归的用处。

2. 无监督学习:没有答案自己悟(没人教)

数据里没有 "标准答案",机器得自己找规律。最常见的是 "聚类":把相似的东西归成一类。

比如老师举的例子:超市的购物记录里,买尿布的人经常顺便买葡萄酒。机器不用人说 "该推荐什么",自己分析交易数据,发现这俩商品总被一起买,下次就会给买尿布的人推葡萄酒 ------ 这就是无监督学习的 "默契"。

四、学完了怎么判断机器学得好不好?

机器学完不是结束,还得评估 "学得怎么样"。这里面门道不少:

1、错误率和精度:比如判断 100 个西瓜,错了 20 个,错误率就是 20%,精度就是 80%(1 - 错误率)。

2、残差:比如预测房价应该是 100 万,实际算出来 95 万,差的 5 万就是残差,残差越小说明学得越准。

但更麻烦的是 "学偏了":

1、欠拟合:机器太笨,没抓住重点。比如判断好瓜只看 "色泽",觉得 "绿色的就是好瓜",结果把青绿色的坏瓜也当成好瓜 ------ 这就是没学透。

2、过拟合:机器太较真,把偶然当必然。比如学的时候看到好瓜都有 "锯齿纹",就认定 "没有锯齿的肯定不是好瓜",结果遇到一个圆滚滚的好瓜,直接判断错了 ------ 这就是学太死。

怎么解决?欠拟合就多教点特征(比如不光看色泽,再看根蒂);过拟合就多给点数据(让机器知道 "锯齿不是必须的"),或者简化模型(别想太复杂)。

五、最后记住两个 "大道理"

1、奥卡姆剃刀:"简单的才是最好的"。如果一个简单模型(比如看 3 个特征)就能判断好瓜,就别非要搞个看 10 个特征的复杂模型,画蛇添足反而容易错。

2、没有免费的午餐:没有 "万能算法"。一个模型在判断西瓜上很厉害,换去预测股票可能就不行了,得根据具体问题选方法。

今天这课听下来,最大的感受是:机器学习不是什么 "黑科技",更像一套 "系统化总结规律" 的工具。从猜西瓜到下围棋,从推荐商品到预测房价,本质上都是让机器在数据里找规律 ------ 至于怎么找得准、找得巧,就是接下来要慢慢啃的学问了。

相关推荐
大模型真好玩6 分钟前
深入浅出LangGraph AI Agent智能体开发教程(八)—LangGraph底层API实现ReACT智能体
人工智能·agent·deepseek
IT_陈寒21 分钟前
告别低效!用这5个Python技巧让你的数据处理速度提升300% 🚀
前端·人工智能·后端
北京耐用通信34 分钟前
神秘魔法?耐达讯自动化Modbus TCP 转 Profibus 如何为光伏逆变器编织通信“天网”
网络·人工智能·网络协议·网络安全·自动化·信息与通信
居7然37 分钟前
如何高效微调大模型?LLama-Factory一站式解决方案全解析
人工智能·大模型·llama·大模型训练·vllm
FullmetalCoder1 小时前
一文搞懂智能体
人工智能
zzywxc7871 小时前
AI 行业应用:AI 在金融、医疗、教育、制造业等领域的落地案例
人工智能·spring·金融·prompt·语音识别·xcode
六月的可乐1 小时前
Vue接入AI聊天助手实战
前端·vue.js·人工智能
赴3351 小时前
dlib库关键点定位和疲劳检测
人工智能·opencv·计算机视觉·关键点·疲劳检测·dlib
汀丶人工智能2 小时前
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-Liv
人工智能
唐天下文化2 小时前
展厅迎宾机器人:豹小秘2如何打造科技第一印象
人工智能·科技·机器人