机器学习 - 监督学习 - KNN、线性回归与岭回归

机器学习学习笔记 - 监督学习 - KNN、线性回归与岭回归

一、K-近邻算法(KNN)

K-近邻算法(K-Nearest Neighbors,简称KNN)是一种基础且直观的监督学习算法。它的工作原理是:对于一个新的未知类别的样本,根据它距离已知类别的样本的远近来进行分类。具体来说,算法会计算新样本与训练集中每个样本的距离,然后选取与新样本距离最近的K个样本,最后根据这K个样本的类别来决定新样本的类别。

KNN算法的优点是简单易懂,无需训练过程,只需要存储训练数据即可。然而,它也有一些缺点,比如对计算资源的需求较大(需要计算新样本与所有训练样本的距离),对数据的预处理和特征选择较为敏感,以及对于不平衡的类别分布可能会产生偏差。

二、线性回归

线性回归是一种用于预测数值型数据的监督学习算法。它试图找到一条最佳的直线(或更高维度的超平面),使得预测值与实际值之间的误差最小。线性回归的模型形式简单,易于理解,且计算效率较高。

然而,线性回归也有一些局限性。首先,它假设输入特征与目标变量之间存在线性关系,如果实际关系是非线性的,那么线性回归的效果可能会较差。其次,线性回归对异常值较为敏感,如果数据中存在较多的异常值,可能会导致模型的预测性能下降。

三、岭回归(Ridge Regression)

岭回归是线性回归的一种扩展,用于解决线性回归中可能存在的过拟合问题。在岭回归中,通过在损失函数中添加正则化项(通常是L2范数)来限制模型的复杂度。正则化项有助于防止模型参数过大,从而避免过拟合。

岭回归的目标函数通常包括均方误差(MSE)和正则化项两部分。通过最小化目标函数,可以找到最适合数据的模型参数。岭回归在处理具有共线性特征的数据时表现较好,因为它能够降低这些特征对模型的影响。此外,岭回归还能在一定程度上提高模型的泛化能力,使其在面对新数据时具有更好的预测性能。

总结:

KNN、线性回归和岭回归都是监督学习中常用的算法。KNN基于样本间的距离进行分类,适用于分类问题;线性回归通过拟合一条直线或超平面来预测数值型数据,适用于回归问题;岭回归则是线性回归的一种改进,通过添加正则化项来解决过拟合问题。在实际应用中,需要根据问题的特点和数据的性质来选择合适的算法。

相关推荐
Bingorl几秒前
机器学习之KNN算法
人工智能·算法·机器学习
muddjsv2 分钟前
《算法导论》入门学习路径:从零基础到系统掌握
学习·算法
ZC跨境爬虫3 分钟前
SQL学习日志_Day2_深入SQL语法与数据库层级结构
数据库·sql·学习·oracle
ZHW_AI课题组19 分钟前
基于XGBoost的鸢尾花花瓣长度回归预测
人工智能·数据挖掘·回归
装不满的克莱因瓶21 分钟前
机器学习和数据科学的基石:NumPy详解与实战技巧
人工智能·线性代数·机器学习·ai·矩阵·numpy
小糖学代码22 分钟前
机器学习:2.线性回归
人工智能·机器学习·线性回归
装不满的克莱因瓶22 分钟前
什么是正态分布与标准正态分布?从身高统计到机器学习全面理解
人工智能·深度学习·机器学习·ai·numpy
小糖学代码24 分钟前
机器学习:1.机器学习基本概念
人工智能·python·机器学习
棱镜研途27 分钟前
学习笔记丨模式识别与机器学习5大核心赛道解析(IC-IPPR 2026)
人工智能·神经网络·算法·机器学习·模式识别·学术会议·智能计算
高洁0129 分钟前
数字孪生:虚拟调试,真实交付
python·深度学习·机器学习·transformer·知识图谱