简单线性回归原理&sklearn简单实现

1. 回归与分类

复制代码
回归模型:针对于连续值的预测,即线性关系
分类模型:预测离散值,非线性,针对于分类问题

2. 回归

回归算法是相对分类算法而言的,与我们想要预测的目标变量y的值类型有关。

复制代码
如果目标变量y是分类型变量,
    如预测用户的性别(男、女),预测月季花的颜色(红、白、黄......),预测是否患有肺癌(是、否),那我们就需要用分类算法去拟合训练数据并做出预测;

如果y是连续型变量,
    如预测用户的收入(4千,2万,10万......),
    预测员工的通勤距离(500m,1km,2万里......),
    预测患肺癌的概率(1%,50%,99%......),
我们则需要用回归模型。

有时分类问题也可以转化为回归问题,例如的肺癌预测,我们可以用回归模型先预测出患肺癌的概率,然后再给定一个阈值, 例如50%,概率值在50%以下的人划为没有肺癌,50%以上则认为患有肺癌。

复制代码
回归分析:寻找变量之间近似的函数关系
线性回归分析:寻找变量之间近似的线性函数关系

3. 一元线性回归

y=β0+β1x

当给定参数β0和β1的时候,画在坐标图内是一条直线(这就是"线性"的含义)

当我们只用一个x来预测y,就是一元线性回归,也就是在找一个直线来拟合数据。

线性回归就是要找一条直线,并且让这条直线尽可能地拟合图中的数据点。

4. 回归问题常用的损失函数

复制代码
残差平方和(RSS/SSR,residual sum of squares/sum squared residual)
均方误差 (MSE,Mean Squared Error)

5. python实现

sklearn中封装好了线性回归模型的实现,直接实例化类LinearRegression即可,

一般分为以下几个步骤:

1)训练集准备

特征集X

特征集对应的标签集y

  1. 实例化模型&模型拟合

model = LinearRegression()

model.fit(X_train,y_train)

  1. 预测新数据

model.predict(...)

4)误差计算,sklearn对于常见的误差函数也已经封装好

from sklearn.metrics import mean_squared_error

mse= mean_squared_error(y_真实,y_预测)

python 复制代码
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import pickle # 保存模型的包

# 假设有特征矩阵X和目标变量y
X = [[1, 2], [2, 4], [3, 6], [4, 8], [5, 10]]
y = [3, 6, 9, 12, 15]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 拟合模型
model.fit(X_train, y_train)

print(model.intercept_)  # 常数项  0.0
print(model.coef_)  # 变量系数  [0.6 1.2]

# 预测测试集
y_pred = model.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)

print("线性回归模型的均方误差:", mse)


# # load the saved model
# with open('my_model.pkl', 'rb') as f:
#     model = pickle.load(f)
#
# # predict using the loaded model
# model.predict(X)


# # load the saved model
# with open('my_model.pkl', 'rb') as f:
#     model = pickle.load(f)
#
# # continue training the model
# model.fit(X_train, y_train)
#
# # save the updated model
# with open('my_updated_model.pkl', 'wb') as f:
#     pickle.dump(model, f)
相关推荐
沪漂阿龙4 小时前
AI大模型面试题:线性回归是什么?最小二乘法、平方误差、正规方程、Ridge、Lasso 一文讲透
人工智能·机器学习·线性回归·最小二乘法
小糖学代码17 小时前
LLM系列:2.pytorch入门:10.划分训练集与测试集(sklearn.model_selection)
人工智能·python·深度学习·神经网络·学习·sklearn
AI机器学习算法18 小时前
说走就走的AI之旅第01课:浅谈机器学习
数据结构·人工智能·python·深度学习·机器学习·大模型·线性回归
初心未改HD2 天前
机器学习之线性回归与岭回归详解
人工智能·机器学习·线性回归
金融小师妹4 天前
基于AI宏观周期模型的黄金牛市研究:1979、2011与2026三轮行情的共性与结构分化
深度学习·机器学习·重构·逻辑回归·线性回归
kcuwu.4 天前
机器学习入门:线性回归完全指南(含波士顿房价预测案例)
人工智能·机器学习·线性回归
做cv的小昊6 天前
【TJU】研究生应用统计学课程笔记(8)——第四章 线性模型(4.1 一元线性回归分析)
笔记·线性代数·算法·数学建模·回归·线性回归·概率论
图码9 天前
如何用多种方法判断字符串是否为回文?
开发语言·数据结构·c++·算法·阿里云·线性回归·数字雕刻
小何code10 天前
人工智能【第8篇】监督学习实战:线性回归与逻辑回归算法详解(万字长文+完整代码实现)
人工智能·python·学习·机器学习·逻辑回归·线性回归
2401_8274999911 天前
机器学习03-线性回归
人工智能·机器学习·线性回归