数据挖掘——回归算法

数据挖掘------回归算法

回归算法

回归分析

如果把其中的一些因素(房屋面积)作为自变量 ,而另一些随自变量的变化而变化的变量作为因变量 (房价),研究他们之间的非确定映射关系,这种分析就称为回归分析

回归分析是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。

回归和分类的区别:

分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;

定性输出称为分类,或者说是离散变量预测。

线性回归

线性回归假设特征和响应满足线性关系

一元线性回归问题函数关系可表示
y = a + b x y=a+bx y=a+bx

  • 根据上式,在确定a、b的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据上式得到的y值与实际的y值存在一个误差
  • a、b为参数(parameters)、或称回归系数(regression coefficients)

采用什么样的线性关系误差刻画更好呢?

最小二乘法

基本思想:保证直线与所有点接近

详细做法:

若有n个样本点: ( x 1 , y 1 ) , ... , ( x n , y n ) (x_1,y_1),... ,(x_n,y_n) (x1,y1),...,(xn,yn),可以用下面的表达式来刻画这些

点与直线y=a+bx的接近程度:

y 1 − ( a + b x 1 ) \] 2 + . . . + \[ y n − ( a + b x n ) \] 2 \[y_1-(a+bx_1)\]\^2+...+\[y_n-(a+bx_n)\]\^2 \[y1−(a+bx1)\]2+...+\[yn−(a+bxn)\]2 使上式达到最小值的直线y=a+bx就是所求的直线,这种方法称为最小二乘法。 对a和b求偏导数,可以得到: b = x 1 y 1 + . . . + x n y n − n x ˉ y ˉ x 1 2 + . . . + x n 2 − n x ˉ 2 , a = y ˉ − b x ˉ b=\\frac{x_1y_1+...+x_ny_n-n\\bar x\\bar y}{x_1\^2+...+x_n\^2-n\\bar x\^2},a=\\bar y-b\\bar x b=x12+...+xn2−nxˉ2x1y1+...+xnyn−nxˉyˉ,a=yˉ−bxˉ ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/bfc4b189a5e44a059494fa6c40cd15cd.png) ### 优化求解------梯度下降法 基本思想 * 向着梯度的反方向调整 * 步长不能太大,也不能太小 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/7a82e7e2f50447dfb5f39ae0739eaa72.png) ### 逻辑回归 #### 逻辑回归函数 f ( x ) = e x 1 + e x f(x)=\\frac{e\^x}{1+e\^{x}} f(x)=1+exex,值域为\[0,1


逻辑回归参数估计

使用梯度下降方法,迭代求解参数

逻辑回归正则化


W在数值上越小越好,这样越能抵抗数据的扰动

L1倾向于使得w要么取1,要么取0稀疏编码

L2倾向于使得w整体偏小(岭回归)

L1适合挑选特征

L2也称为岭回归,有很强的概率意义

决策树回归

决策树是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二, 这样使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维feature的值,一步一步往下,最后使得样本落入N个区域中的一个(假设有N个叶子节点),如下图所示。

既然是决策树,那么必然会存在以下两个核心问题:如何选择划分点?如何决定叶节点的输出值?------决策树分类选择划分点,使得信息增益最大,叶节点输出即类别

一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。分类树中采用信息增益 等方法,通过计算选择最佳划分点。而在回归树中,采用的是启发式的方法

小结

相关推荐
小鸡吃米…9 分钟前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫1 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)1 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
saoys1 小时前
Opencv 学习笔记:图像掩膜操作(精准提取指定区域像素)
笔记·opencv·学习
minhuan1 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维1 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS1 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd1 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
独自破碎E1 小时前
【二分法】寻找峰值
算法
mit6.8242 小时前
位运算|拆分贪心
算法