机器学习面经(一)监督学习与无监督学习 过拟合与欠拟合 偏差和方差

写在前面:看了一些机器学习的面试题,感觉并不适合初学者,所以整理一些比较基础的问题。

一、监督学习与无监督学习的区别

1. 监督学习(Supervised Learning)

需要 有标签(label)的数据 来进行训练,常用于分类回归任务。

常见方法:线性回归、逻辑回归、决策树、随机森林、SVM等。

场景举例:垃圾邮件分类、房价预测等。

2. 无监督学习(Unsupervised Learning)

不需要预先标记的数据,常用于聚类降维等。

常见方法: K-Means、PCA、自编码器等。

场景举例:将用户按消费习惯分类等。

3. 半监督学习

有些数据的标记成本较高,例如医疗影像需要专家进行标注,因此可以用少量有标签的数据和大量无标签的数据来进行训练。

说得通俗一点就是:监督学习相当于给考试题和答案,然后下次再出类似的题看你的水平;无监督学习相当于只给考试题,自己摸索答案和规律。

二、过拟合与欠拟合

1. 过拟合(Overfitting)

过拟合,顾名思义就是过度拟合,这时候模型就像一个死记硬背的学生,不仅记住了数据还可能记住了一些随机的噪声,稍微出一道新题目就不会了。

表现是模型在训练集上表现很好,但在测试集/新数据上表现很差。

导致过拟合的原因主要有:模型过于复杂训练数据过少训练时间过长等。

根据原因就可以得到解决方法。

2.欠拟合(Underfitting)

欠拟合的时候模型就像一个连背题都不会的学生,旧题都不会做新题更不会。

表现是模型在训练集和测试集上表现都很差。

导致欠拟合的原因主要有:模型过于简单训练不足特征不足等。

三、偏差和方差

先举一个例子:一个人射箭,偏差反映这个人射箭射得准不准,方差反映这个人面对不同的靶子射箭的水平稳不稳定。

1. 偏差(Bias)

偏差是指模型预测值的期望与真实值之间的差距,反映模型的准确度

高偏差可能是模型过于简单导致的,这种情况下模型不能捕捉数据中复杂的关系,是欠拟合的。

2. 方差(Variance)

方差是指模型在不同训练集上预测结果的波动程度,反映模型的稳定性

高方差可能是模型过于复杂导致的,这种情况下模型对训练数据的细节和噪声过于敏感,是过拟合的。

3. 偏差-方差权衡(Bias-Variance Tradeoff)

模型的预测误差 = 偏差的平方 + 方差 + 不可约误差

不可约误差(Irreducible Error)是无论模型多好都无法消除的误差,来自数据本身的噪声。

偏差和方差不能同时降到最低,因此要想让模型的预测误差更小,只能尽量让两者平衡。

具体的平衡策略有:

  1. 降低偏差

模型复杂度较低时,偏差较大,处于欠拟合的状态,可以通过提升模型复杂度来降低偏差;

增加训练时间等。

  1. 降低方差

模型复杂度较高时,方差较大,处于过拟合的状态,可以通过降低模型复杂度来降低方差;

增加训练数据;

增加正则化等。

相关推荐
qq_411262423 分钟前
四博 AI 智能拍学机 / AI 智能音箱技术方案
人工智能·智能音箱
Gh0st_Lx9 分钟前
【6】持续学习方法概述:在数据集 B 上变强了,在数据集 A 上却暴跌?
人工智能·语言模型·transformer
前端摸鱼匠9 分钟前
【AI大模型春招面试题27】字节对编码(BPE)的分词过程?如何处理未登录词(OOV)?
人工智能·ai·面试·大模型·求职招聘
全模态研习社18 分钟前
深入探讨OpenAI ChatGPT 4o图像API的运用与操作
人工智能
MediaTea32 分钟前
AI 术语通俗词典:召回率(分类)
人工智能·算法·机器学习·分类·数据挖掘
ECT-OS-JiuHuaShan32 分钟前
哲学的本质,是递归因果
java·开发语言·人工智能·科技·算法·机器学习·数学建模
武帝为此40 分钟前
【热卡填充法介绍】
人工智能·python·机器学习
microxiaoxiao1 小时前
Aeroshell:2026 年,支持AI的SSH 终端
运维·人工智能·ssh
feng14561 小时前
稳定性-风险文化建设和风险意识培养
运维·人工智能
小程故事多_801 小时前
AI编码效率革命,Agent Orchestrator如何让多智能体并行开发成为现实
人工智能·架构·智能体