机器学习第一部分---线性回归

介绍线性回归

线性回归核心

本质:数理统计中用回归分析量化变量间定量依赖关系的方法,聚焦"有方向的因果影响"。

相关关系的两类:

因果关系:变量有"原因→结果"方向,需分自变量(因)/因变量(果),线性回归用它算"自变量每变1单位,因变量平均变多少"(权重θ体现影响大小与方向)。

平行关系:变量仅"伴随变化"无因果(,不区分自变量/因变量,只用相关系数r。

关键区别:回归是"因果建模"(定量算影响),相关是"关联描述"(只说紧密度);线性回归是回归分析在"线性关系"下的具体实现。

一元线性回归模型

一元线性回归模型

定义:仅含1个自变量(如x)与1个因变量(y)的线性模型,是线性回归的最简形式。

模型:y = θ₀ + θ₁x + ε

θ₀:截距(x=0时y的基准值);

θ₁:斜率(x每变1单位,y的平均变化量);

ε:随机误差(未解释的噪声)。

目标:用最小二乘法估计θ₀、θ₁,让预测值最贴合真实值。

求解:

θ₁ = 协方差(x,y) / 方差(x)(反映x与y的关联强度与方向);

θ₀ = y的平均值 - θ₁×x的平均值(直线过样本中心(x̄,ȳ))。

本质:用直线量化"x对y的线性影响方向与大小",是多元线性回归的基础。

多元线性回归模型

定义:含多个自变量(如x₁、x₂...xₙ)与1个因变量(y)的线性模型,是现实最常用的线性回归形式。

模型:y = θ₀ + θ₁x₁ + θ₂x₂ + ... + θₙxₙ + ε

θ₀:截距(所有自变量为0时y的基准值);

θ₁~θₙ:权重(每个自变量对因变量的边际影响:该自变量每变1单位,y的平均变化量);

ε:随机误差(未解释的噪声)。

矩阵简化:y = Xθ + ε(X是含全1列的特征矩阵,θ是权重向量)。

目标:用最小二乘法估计θ,最小化预测误差平方和。

求解:若XᵀX可逆,θ的估计值为 (XᵀX)⁻¹Xᵀy(矩阵闭式解)。

本质:量化多个自变量对因变量的联合线性影响,需避免自变量间高度相关(多重共线性)。

误差项分析

误差项的本质与作用

定义:线性回归中,未被自变量解释的因变量变异,公式为 y=预测值+ε(ε即误差项)。

来源:测量误差、未纳入模型的自变量、变量间的非线性关系、随机噪声等。

核心作用:误差项越小,模型对数据的"解释力"越强;但误差不可能为0(否则模型会拟合噪声,导致过拟合)。

误差项的关键假设

普通最小二乘法(OLS)估计的参数要"无偏、有效",需满足误差项的4个假设:

零均值:E(ε) = 0(误差无系统性偏向,模型预测整体无偏);

同方差:Var(ε_i) = σ²(所有样本的误差波动大小一致,不随自变量变化);

无自相关:Cov(ε_i, ε_j) = 0(i≠j,样本间误差独立,无"连锁反应");

注:Cov(ε_i, ε_j)表示第i个样本与第j个样本的误差项的协方差

正态分布:ε_i ~ N(0, σ²)(误差服从正态分布,用于参数显著性检验等统计推断)。

误差项的诊断方法

需通过可视化或统计检验,判断误差项是否满足假设:

残差图(最直观):

残差 vs 预测值:散点随机分布(无明显趋势/"漏斗形")→ 同方差成立;若呈"漏斗形"(方差随预测值增大而变大)→ 异方差。

残差 vs 自变量:散点随机分布→ 线性关系合理;若呈曲线趋势→ 需补充非线性项(如x²)。

统计检验:

异方差:White检验、Breusch-Pagan检验(p值<0.05则存在异方差);

自相关:Durbin-Watson检验(值接近2→无自相关;<1或>3→存在自相关);

正态性:Shapiro-Wilk检验(p值>0.05→符合正态)、Q-Q图(点越贴近直线→正态性越好)。

误差项异常的后果与修正

若误差项违反假设,会导致模型结论不可靠,需针对性修正:

异方差(误差方差随预测值变化):

后果:参数估计仍无偏,但标准误不准确(易导致"假阳性"显著性结论);

修正:加权最小二乘法(WLS)、对变量取对数(压缩方差)。

自相关(样本间误差相关,如时间序列数据):

后果:参数估计无偏但效率低(标准误偏小,易高估显著性);

修正:广义最小二乘法(GLS)、加入滞后项(如y_{t-1})。

非正态性(误差不服从正态分布):

后果:小样本下假设检验失效;

修正:Box-Cox变换(调整变量分布)、使用鲁棒标准误(不依赖正态假设)。

误差项的现实意义

误差项的大小反映模型的"未知空间":误差越小,模型能解释的现实规律越多,但需避免过度追求小误差(可能拟合噪声,降低泛化能力)。

误差项是模型"局限性"的体现:若误差持续过大,需反思是否遗漏关键自变量、是否应改用非线性模型(如多项式回归、树模型)。

总结:误差项是线性回归的"隐形考官"------需通过诊断确保其满足假设,否则模型结论可能误导决策;同时,误差项的大小也提示模型的改进方向。

误差项满足高斯分布

误差项满足高斯分布(正态)是线性回归的关键假设,即εᵢ~N(0,σ²),能让参数估计更有效、假设检验(如t/F检验)和置信区间计算更可靠。可用Q-Q图(点近直线)或Shapiro-Wilk检验(p>0.05)判断是否正态。若不满足,会导致检验失效、置信区间不准,小样本更明显。修正可试变量变换(如对数)、鲁棒标准误或更换模型(如非线性/广义线性模型)。它是统计推断的基石,需验证,不满足则调方法保可靠。

极大似然估计

定义:一种参数估计方法,核心思想是:选一组参数,让"观测到当前样本数据"的概率(似然)最大。

基本逻辑:

先假设数据服从某分布(如线性回归中误差项εN(0,σ²),则yN(Xθ,σ²));

写出"观测到所有样本"的似然函数(各样本概率的乘积,因样本独立);

对似然函数取对数(简化计算,乘法变加法),求偏导找极值点,得最大似然估计值。

线性回归中的应用:

当线性回归满足"误差正态"假设时,极大似然估计的结果与最小二乘法(OLS)完全一致(θ的估计值相同),但MLE更通用(可扩展到非线模型、非正态误差)。

优势:理论严谨,能自然融入先验信息(贝叶斯MLE),适用于复杂模型(如逻辑回归、深度学习);

局限:依赖"数据分布假设",若假设错(如误差非正态),估计可能失效。

一句话总结:MLE是"让样本出现概率最大的参数"估计法,线性回归中(误差正态时)等价于OLS,是统计/机器学习的核心估计工具。

似然函数求解

数据与分布假设​

线性回归模型:y = Xθ + ε(X为特征矩阵,θ为权重向量,ε为误差项)。

假设误差项独立同分布且正态:ε_i ~ N(0, σ²),则因变量y_i ~ N(X_iθ, σ²)(X_i是第i个样本的特征行向量)。

  1. 似然函数(联合概率)

似然函数L(θ, σ²)是"给定参数(θ, σ²)时,观测到所有样本y₁,...,y_m"的概率(样本独立,概率相乘):

L(θ, σ²) = ∏[i=1 to m] [1/√(2πσ²)] * exp(-(y_i - X_iθ)²/(2σ²))

  1. 对数似然(简化计算)​

取自然对数(乘积变求和,单调性不变):

ln L(θ, σ²) = -m/2 * ln(2π) - m/2 * ln(σ²) - 1/(2σ²) * ∑[i=1 to m] (y_i - X_iθ)²

最大化对数似然(求偏导找极值)​

对θ和σ²分别求偏导,令偏导为0,解出最优估计:

对θ求偏导:

仅最后一项含θ,求导并令其为0:

∂ln L/∂θ = (1/σ²) * ∑[i=1 to m] (y_i - X_iθ)X_i = 0

化简得矩阵形式:X^T(y - Xθ) = 0,解得:

对σ²求偏导:

令∂ln L/∂σ² = 0,解得:

σ²_MLE = (1/m) * ∑[i=1 to m] (y_i - X_iθ_MLE)² (分母为样本量m)


相关系数

Cov(X,Y)为X与Y的协方差

Var[X]为X的方差

Var[Y]为Y的方差

相关系数的解释:

  1. |r|≥0.8时,视为两个变量之间高度相关

  2. 0.5≤|r|<0.8时,视为中度相关

  3. 0.3≤|r|<0.5时,视为低度相关

  4. |r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关

拟合优度

statsmodels

statsmodels是一个有很多统计模型的python库,能完成很多统计测试,数据探索以及可视化。它也包含一些经典的统计方法,比如贝叶斯方法等。

• 线性模型

• 线性混合效应模型

• 方差分析方法

• 时间序列模型

• 广义矩阵估计方法

三种检验方法

一.t检验(单个参数的显著性检验)​

用途:检验单个自变量对因变量是否有显著影响(如"面积是否真的影响房价")。

原假设:H₀: θ_j = 0(第j个自变量的权重为0,即该变量对y无影响)。

步骤:

估计参数θ_j的标准误SE(θ_j)(衡量θ_j的估计精度);

计算t统计量:t = θ_j_hat / SE(θ_j)(θ_j_hat是θ_j的估计值);

对比临界值:若|t| > t_α/2(m-n-1)(m样本量,n自变量数,α显著性水平,如0.05),则拒绝H₀。

核心公式:t = θ_j_hat / SE(θ_j)

二、F检验(整体模型的显著性检验)​

用途:检验所有自变量联合起来对因变量是否有显著影响(如"面积+地段+房龄是否共同影响房价")。

原假设:H₀: θ₁=θ₂=...=θ_n=0(所有自变量的权重均为0,模型无意义)。

步骤:

计算总平方和SST = ∑(y_i - ȳ)²(y的总变异)、回归平方和SSR = ∑(ŷ_i - ȳ)²(模型解释的变异)、残差平方和SSE = ∑(y_i - ŷ_i)²(未解释的变异);

计算F统计量:F = (SSR/n) / (SSE/(m-n-1))(n为自变量个数,m-n-1为自由度);

对比临界值:若F > F_α(n, m-n-1),则拒绝H₀。

核心公式:F = (SSR/n) / (SSE/(m-n-1))

三、残差检验(模型假设的诊断检验)​

用途:检验模型是否满足误差项的基本假设(正态性、同方差、无自相关),是模型有效的前提。

常用子检验:

正态性:Shapiro-Wilk检验(原假设H₀: 误差项服从正态分布),若p>0.05则不拒绝H₀;

同方差:White检验(原假设H₀: 误差项同方差),若p>0.05则无 heteroscedasticity;

无自相关:Durbin-Watson检验(统计量DW接近2时无自相关,DW<1或>3则存在)。

核心逻辑:通过残差(实际值-预测值)的分布特征,反推误差项是否满足假设,若不满足需修正模型(如加权最小二乘、变量变换)。

F检验(线性关系)

F检验用于判断所有自变量联合起来是否与因变量存在显著线性关系,原假设是所有自变量权重为0(无线性关系),通过对比回归解释的变异与未解释变异的相对大小(F统计量)决定是否拒绝原假设。

T检验(回归系数)

T检验(回归系数)用于判断单个自变量对因变量是否有显著影响,原假设是该自变量的回归系数为0(无影响),通过计算回归系数的t统计量(系数估计值÷标准误)并与临界值比较,决定是否拒绝原假设。

调整R方

简单来说,多元线性回归中直接用R²评估模型会有"虚假提升"问题------不断加变量(哪怕无关),R²也会因总能"多解释点变异"而看似上升,但这其实是过拟合(模型记住了噪声而非规律)。

而调整R²(Adjusted R²)能解决这个问题:它在R²基础上加入"变量数量惩罚"------只有当新变量真的能显著提升模型解释力时,调整R²才会上升;若加的是无关变量(非显著),调整R²反而会下降。因此,多元线性回归中必须用调整R²判断模型效果,避免被"加变量"的虚假拟合迷惑。

数据标准化

0~1标准化:

0~1标准化是用公式x_scaled=(x-x_min)/(x_max-x_min)把数据缩放到[0,1]区间的线性变换,能消除量纲影响,但易受极端值干扰。

Z标准化:

Z标准化是用公式z=(x-μ)/σ将数据转为均值0、标准差1的分布,能消除量纲且对极端值鲁棒,常用于线性回归等需跨特征比较影响的场景。

相关推荐
_Li.2 小时前
机器学习-特征选择
人工智能·python·机器学习
司马阅-SmartRead2 小时前
学术研究与产业实践深度融合:司马阅AI合伙人冀文辉亮相「首届创新管理与JPIM论文工作坊」,产学研一体化推动企业AI落地
大数据·人工智能
YANshangqian2 小时前
基于Chromium的隐私优先浏览器
人工智能·intellij-idea
躺柒2 小时前
读人机沟通法则:理解数字世界的设计与形成01机器循环运行
人工智能·计算机·计算·数字世界·人机对话
智算菩萨2 小时前
摩擦电纳米发电机近期进展的理论脉络梳理:从接触起电到统一建模与能量转换
linux·人工智能·算法
LiYingL2 小时前
TRACEALIGN:追踪大规模语言模型对齐漂移的原因和保护措施
人工智能·语言模型·自然语言处理
囊中之锥.2 小时前
机器学习第三部分---决策树
人工智能·决策树·机器学习
YJlio3 小时前
ProcessExplorer_17.09_x64-Chs 新版本升级:我看到的区别与优势(含升级思路与注意点)
人工智能·笔记·学习
Aaron15883 小时前
基于RFSOC+VU13P+GPU架构在雷达电子战的技术
人工智能·算法·fpga开发·架构·硬件工程·信号处理·基带工程