[机器学习]线性回归算法

1 线性回归简介

概念:利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

weight :权重;bias 偏置

线性回归分类:一元线性回归、多元线性回归

应用场景:只要目标值连续,就使用线性回归

2 线性回归问题求解

2.1 线性回归API

python 复制代码
from sklearn.linear_model import LinearRegression
x=[[160],[166],[172],[174],[180]]
y=[56.3,60.6,65.1,68.5,75]

LR=LinearRegression()
LR.fit(x,y)
# 斜率
print(LR.coef_)
# 截距
print(LR.intercept_)
LR.predict([[176]])

2.2 损失函数

3 导数和矩阵

4 正规方程法

5 梯度下降法

6 线性回归模型评估

7 波士顿房价预测

7.1 正规方程法

python 复制代码
# 波士顿房价预测正规方程法
# 导包
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
import pandas as pd
import numpy as np

# 获取数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url,sep=r"\s+",skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# 划分数据
x_train,x_test,y_train,y_test=train_test_split(data,target,random_state=22)
# 特征工程
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
# 模型训练
LR=LinearRegression()
LR.fit(x_train,y_train)
print(LR.intercept_)
print(LR.coef_)
# 模型预测
y_predict=LR.predict(x_test)
print(y_predict)

# 模型评估
print(mean_squared_error(y_predict,y_test))

7.2 梯度下降法

python 复制代码
# 波士顿房价预测梯度下降法
# 导包
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression,SGDRegressor
import pandas as pd
import numpy as np

# 获取数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url,sep=r"\s+",skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# 划分数据
x_train,x_test,y_train,y_test=train_test_split(data,target,random_state=22)
# 特征工程
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
# 模型训练
LR=SGDRegressor(max_iter=100,learning_rate='constant',eta0=0.001)
LR.fit(x_train,y_train)
print(LR.intercept_)
print(LR.coef_)
# 模型预测
y_predict=LR.predict(x_test)
print(y_predict)

# 模型评估
print(mean_squared_error(y_predict,y_test))

8 欠拟合和过拟合

python 复制代码
# 欠拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
LR=LinearRegression()
LR.fit(X,y)

# 模型预测
y_predict=LR.predict(X)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(x,y_predict,color='r')
plt.show()
python 复制代码
# 正好拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
X2=np.hstack([X,X**2])
LR=LinearRegression()
LR.fit(X2,y)

# 模型预测
y_predict=LR.predict(X2)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r')
plt.show()
python 复制代码
# 过拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
X3=np.hstack([X,X**2,X**3,X**4,X**5,X**6,X**7,X**8,X**9,X**10])
LR=LinearRegression()
LR.fit(X3,y)

# 模型预测
y_predict=LR.predict(X3)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r')
plt.show()

8.1 欠拟合和过拟合的原因和解决方案

9 正则化

缓解过拟合的方法叫做正则化。

9.1 L1正则化

9.1 L1正则化缓解过拟合的原理

9.2 L2正则化缓解过拟合的原理

相关推荐
呼啦啦啦啦啦啦啦啦4 小时前
常见的排序算法
java·算法·排序算法
喂完待续5 小时前
【Tech Arch】Spark为何成为大数据引擎之王
大数据·hadoop·python·数据分析·spark·apache·mapreduce
胡萝卜3.05 小时前
数据结构初阶:排序算法(一)插入排序、选择排序
数据结构·笔记·学习·算法·排序算法·学习方法
地平线开发者5 小时前
LLM 中 token 简介与 bert 实操解读
算法·自动驾驶
scx201310046 小时前
20250814 最小生成树和重构树总结
c++·算法·最小生成树·重构树
阿巴~阿巴~6 小时前
冒泡排序算法
c语言·开发语言·算法·排序算法
散1126 小时前
01数据结构-交换排序
数据结构·算法
王者鳜錸6 小时前
PYTHON让繁琐的工作自动化-猜数字游戏
python·游戏·自动化
yzx9910137 小时前
Yolov模型的演变
人工智能·算法·yolo
若天明7 小时前
深度学习-计算机视觉-微调 Fine-tune
人工智能·python·深度学习·机器学习·计算机视觉·ai·cnn