[机器学习]线性回归算法

1 线性回归简介

概念:利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

weight :权重;bias 偏置

线性回归分类:一元线性回归、多元线性回归

应用场景:只要目标值连续,就使用线性回归

2 线性回归问题求解

2.1 线性回归API

python 复制代码
from sklearn.linear_model import LinearRegression
x=[[160],[166],[172],[174],[180]]
y=[56.3,60.6,65.1,68.5,75]

LR=LinearRegression()
LR.fit(x,y)
# 斜率
print(LR.coef_)
# 截距
print(LR.intercept_)
LR.predict([[176]])

2.2 损失函数

3 导数和矩阵

4 正规方程法

5 梯度下降法

6 线性回归模型评估

7 波士顿房价预测

7.1 正规方程法

python 复制代码
# 波士顿房价预测正规方程法
# 导包
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
import pandas as pd
import numpy as np

# 获取数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url,sep=r"\s+",skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# 划分数据
x_train,x_test,y_train,y_test=train_test_split(data,target,random_state=22)
# 特征工程
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
# 模型训练
LR=LinearRegression()
LR.fit(x_train,y_train)
print(LR.intercept_)
print(LR.coef_)
# 模型预测
y_predict=LR.predict(x_test)
print(y_predict)

# 模型评估
print(mean_squared_error(y_predict,y_test))

7.2 梯度下降法

python 复制代码
# 波士顿房价预测梯度下降法
# 导包
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression,SGDRegressor
import pandas as pd
import numpy as np

# 获取数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url,sep=r"\s+",skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# 划分数据
x_train,x_test,y_train,y_test=train_test_split(data,target,random_state=22)
# 特征工程
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
# 模型训练
LR=SGDRegressor(max_iter=100,learning_rate='constant',eta0=0.001)
LR.fit(x_train,y_train)
print(LR.intercept_)
print(LR.coef_)
# 模型预测
y_predict=LR.predict(x_test)
print(y_predict)

# 模型评估
print(mean_squared_error(y_predict,y_test))

8 欠拟合和过拟合

python 复制代码
# 欠拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
LR=LinearRegression()
LR.fit(X,y)

# 模型预测
y_predict=LR.predict(X)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(x,y_predict,color='r')
plt.show()
python 复制代码
# 正好拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
X2=np.hstack([X,X**2])
LR=LinearRegression()
LR.fit(X2,y)

# 模型预测
y_predict=LR.predict(X2)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r')
plt.show()
python 复制代码
# 过拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
X3=np.hstack([X,X**2,X**3,X**4,X**5,X**6,X**7,X**8,X**9,X**10])
LR=LinearRegression()
LR.fit(X3,y)

# 模型预测
y_predict=LR.predict(X3)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r')
plt.show()

8.1 欠拟合和过拟合的原因和解决方案

9 正则化

缓解过拟合的方法叫做正则化。

9.1 L1正则化

9.1 L1正则化缓解过拟合的原理

9.2 L2正则化缓解过拟合的原理

相关推荐
旖-旎10 分钟前
深搜练习(单词搜索)(12)
c++·算法·深度优先·力扣
2301_7838486529 分钟前
优化文本分类中堆叠模型的网格搜索性能:避免训练卡顿的实战指南
jvm·数据库·python
企客宝CRM1 小时前
2026年中小企业CRM选型指南:企客宝CRM处于什么位置?
android·算法·企业微信·rxjava·crm
橙淮1 小时前
二叉树核心概念与Java实现详解
数据结构·算法
CLX05051 小时前
如何安装Oracle 12c Cloud Control_OMS服务端组件与Agent部署
jvm·数据库·python
米罗篮2 小时前
DSU并查集 & 拓展欧几里得-逆元
c++·经验分享·笔记·算法·青少年编程
橙淮2 小时前
双指针法:高效算法解题的利器
算法
初心未改HD2 小时前
深度学习之MLP与反向传播算法详解
人工智能·深度学习·算法
刀法如飞2 小时前
【Go 字符串查找的 20 种实现方式,用不同思路解决问题】
人工智能·算法·go