学习笔记七:线性回归

1. 基本概念

1.1 线性模型

线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数。

基本形式

给定由 d 个属性描述的示例 x = (x₁; x₂; ...; xₑ),其中 xᵢx 在第 i 个属性上的取值,线性模型试图学得:

f(x) = w₁x₁ + w₂x₂ + ... + wₑxₑ + b

其中 w = (w₁; w₂; ...; wₑ) 是权重向量,b 是偏置项。一旦学得 wb,模型就确定了。

特点

  • 简单易用:形式简单,易于建模
  • 可解释性强 :权重 w 直观地表达了各属性的重要性
  • 基础性强:许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得

可解释性示例

例如在西瓜问题中,若学得 f_好瓜(x) = 0.2 × x_色泽 + 0.5 × x_根蒂 + 0.3 × x_敲声 + 1,则意味着判断好瓜时,最重要的因素是根蒂,其次是敲声,最后是色泽。

1.2 线性回归

定义

给定数据集 D = {(x₁, y₁), (x₂, y₂), ..., (xₘ, yₘ)},其中 xᵢ = (xᵢ₁; xᵢ₂; ...; xᵢₑ)yᵢ ∈ R线性回归(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记。

目标

学习一个线性模型,使得对于样本 (x, y),有 f(x) ≈ y

性能度量

回归任务最常用的性能度量是均方误差(MSE)。线性回归的目标是使均方误差最小化。

几何意义

均方误差有很好的几何意义,它对应了欧氏距离。通过最小化均方误差来求解模型的方法称为最小二乘法(least squares method)。在线性回归中,最小二乘法试图找到一条直线,使得所有样本到该直线的欧氏距离之和最小。

2. 使用场景与注意事项

2.1 离散属性的处理

有序属性

对于离散属性,若属性值之间存在"序"关系,可以将其转化为连续值。例如:

  • 二值属性"身高":{"高", "矮"} → {1.0, 0.0}
  • 三值属性"高度":{"高", "中", "低"} → {1.0, 0.5, 0.0}

无序属性

若属性值之间不存在序关系,通常将 k 个属性值转化为 k 维向量。例如:

  • "瓜类":{"西瓜", "南瓜", "黄瓜"} → {(0,0,1), (0,1,0), (1,0,0)}

2.2 注意事项

局限性

  • 线性假设:假设特征与目标之间存在线性关系,对于非线性关系效果较差
  • 特征独立性:对特征之间的相关性敏感
  • 异常值敏感:容易受到异常值的影响

改进方法

  • 正则化:当变量数超过样本数时,引入正则化项(如L1、L2正则化)
  • 特征工程:通过特征变换、特征组合等方式处理非线性关系
  • 鲁棒回归:使用对异常值不敏感的损失函数

模型选择

  • 当数据量较小或特征与目标关系简单时,线性回归是很好的选择
  • 当存在明显的非线性关系时,考虑使用对数线性回归或广义线性模型
  • 对于复杂的非线性关系,可能需要使用更复杂的模型(如神经网络、树模型等)

3. 总结

线性回归是机器学习中最基础、最常用的回归方法之一。它通过最小化均方误差来学习一个线性模型,具有形式简单、易于理解、可解释性强的特点。线性回归不仅可以直接用于预测任务,还可以作为更复杂模型的基础。在实际应用中,需要注意处理离散属性、异常值等问题。当特征与目标之间存在线性或近似线性关系时,线性回归往往能取得良好的效果。

相关推荐
老余捞鱼16 天前
线性回归实战:5步验证你的量化因子是否真有效
算法·金融·回归·线性回归·ai量化
2601_9618451517 天前
花生十三网课网盘|百度网盘|下载
数据结构·算法·链表·贪心算法·排序算法·线性回归·动态规划
金融小师妹17 天前
基于AI事件驱动模型与验证溢价框架的市场分析:从预期交易到事实验证,原油与黄金面临关键定价重构
大数据·人工智能·算法·均值算法·线性回归
安逸sgr17 天前
《图解机器学习-第六章》:线性回归和逻辑回归:最简单但最重要的机器学习模型
机器学习·逻辑回归·线性回归
2601_9618451517 天前
花生十三图推思维导图|图形推理|技巧
数据结构·算法·链表·贪心算法·排序算法·线性回归·动态规划
2601_9618752420 天前
法考资料2026|全套|资料已整理
数据结构·算法·链表·贪心算法·eclipse·线性回归·动态规划
金融小师妹22 天前
AI因子共振模型显示:金银比突破区间上沿,白银定价逻辑进入再校准阶段
人工智能·算法·均值算法·线性回归
chloe233324 天前
【动手学深度学习】笔记1:简单的线性回归
笔记·深度学习·线性回归
wayz1124 天前
Overlap:SLOPE(线性回归斜率)技术指标详解
算法·金融·数据分析·回归·线性回归·量化交易·特征工程
千寻girling25 天前
一周没跑步了 ,今日跑步 5KM , 哑铃+健身 20min , 俯卧撑 30 个 ;
数据结构·c++·python·算法·leetcode·职场和发展·线性回归