[机器学习]线性回归算法

1 线性回归简介

概念:利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

weight :权重;bias 偏置

线性回归分类:一元线性回归、多元线性回归

应用场景:只要目标值连续,就使用线性回归

2 线性回归问题求解

2.1 线性回归API

python 复制代码
from sklearn.linear_model import LinearRegression
x=[[160],[166],[172],[174],[180]]
y=[56.3,60.6,65.1,68.5,75]

LR=LinearRegression()
LR.fit(x,y)
# 斜率
print(LR.coef_)
# 截距
print(LR.intercept_)
LR.predict([[176]])

2.2 损失函数

3 导数和矩阵

4 正规方程法

5 梯度下降法

6 线性回归模型评估

7 波士顿房价预测

7.1 正规方程法

python 复制代码
# 波士顿房价预测正规方程法
# 导包
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
import pandas as pd
import numpy as np

# 获取数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url,sep=r"\s+",skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# 划分数据
x_train,x_test,y_train,y_test=train_test_split(data,target,random_state=22)
# 特征工程
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
# 模型训练
LR=LinearRegression()
LR.fit(x_train,y_train)
print(LR.intercept_)
print(LR.coef_)
# 模型预测
y_predict=LR.predict(x_test)
print(y_predict)

# 模型评估
print(mean_squared_error(y_predict,y_test))

7.2 梯度下降法

python 复制代码
# 波士顿房价预测梯度下降法
# 导包
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression,SGDRegressor
import pandas as pd
import numpy as np

# 获取数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url,sep=r"\s+",skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# 划分数据
x_train,x_test,y_train,y_test=train_test_split(data,target,random_state=22)
# 特征工程
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
# 模型训练
LR=SGDRegressor(max_iter=100,learning_rate='constant',eta0=0.001)
LR.fit(x_train,y_train)
print(LR.intercept_)
print(LR.coef_)
# 模型预测
y_predict=LR.predict(x_test)
print(y_predict)

# 模型评估
print(mean_squared_error(y_predict,y_test))

8 欠拟合和过拟合

python 复制代码
# 欠拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
LR=LinearRegression()
LR.fit(X,y)

# 模型预测
y_predict=LR.predict(X)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(x,y_predict,color='r')
plt.show()
python 复制代码
# 正好拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
X2=np.hstack([X,X**2])
LR=LinearRegression()
LR.fit(X2,y)

# 模型预测
y_predict=LR.predict(X2)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r')
plt.show()
python 复制代码
# 过拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
X3=np.hstack([X,X**2,X**3,X**4,X**5,X**6,X**7,X**8,X**9,X**10])
LR=LinearRegression()
LR.fit(X3,y)

# 模型预测
y_predict=LR.predict(X3)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r')
plt.show()

8.1 欠拟合和过拟合的原因和解决方案

9 正则化

缓解过拟合的方法叫做正则化。

9.1 L1正则化

9.1 L1正则化缓解过拟合的原理

9.2 L2正则化缓解过拟合的原理

相关推荐
学步_技术33 分钟前
Python编码系列—Python组合模式:构建灵活的对象组合
开发语言·python·组合模式
ac-er88881 小时前
在Flask中处理后台任务
后端·python·flask
ac-er88881 小时前
Flask中的钩子函数
后端·python·flask
Book_熬夜!1 小时前
Python基础(六)——PyEcharts数据可视化初级版
开发语言·python·信息可视化·echarts·数据可视化
我的运维人生1 小时前
利用Python与Ansible实现高效网络配置管理
网络·python·ansible·运维开发·技术共享
毕设木哥1 小时前
计算机专业毕业设计推荐-基于python的汽车汽修保养服务平台
大数据·python·计算机·django·汽车·毕业设计·课程设计
程序猿进阶2 小时前
如何在 Visual Studio Code 中反编译具有正确行号的 Java 类?
java·ide·vscode·算法·面试·职场和发展·架构
Eloudy2 小时前
一个编写最快,运行很慢的 cuda gemm kernel, 占位 kernel
算法
king_machine design2 小时前
matlab中如何进行强制类型转换
数据结构·算法·matlab
西北大程序猿2 小时前
C++ (进阶) ─── 多态
算法