基于Scikit-learn的多元线性回归模型构建与验证

废话不多说,直接上代码

python 复制代码
# import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import joblib  # 用于保存和加载模型

# 1. 导入数据(假设你有一个包含特征和目标值的CSV文件)
# 例如,data.csv 中有若干特征列和一个名为 'target' 的目标列
data = pd.read_csv('FuelConsumptionCo21.csv')

# 2. 准备数据
# 分离特征和目标值
X = data.drop('target', axis=1)
y = data['target']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

print(model.coef_)
print(model.intercept_)

# 4. 进行预测并评估模型
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')


# 5. 保存模型
joblib.dump(model, 'linear_regression_model.pkl')

# 6. 加载模型(可选,验证模型是否正确保存和加载)
loaded_model = joblib.load('linear_regression_model.pkl')
loaded_y_pred = loaded_model.predict(X_test)
loaded_mse = mean_squared_error(y_test, loaded_y_pred)
print(f'Mean Squared Error after loading: {loaded_mse}')

原始数据是汽车 二氧化碳污染指标排放,数据如下

|------------|-----------|----------------------|---------------------|----------------------|--------------------------|--------|
| ENGINESIZE | CYLINDERS | FUELCONSUMPTION_CITY | FUELCONSUMPTION_HWY | FUELCONSUMPTION_COMB | FUELCONSUMPTION_COMB_MPG | target |
| 2 | 4 | 9.9 | 6.7 | 8.5 | 33 | 196 |
| 2.4 | 4 | 11.2 | 7.7 | 9.6 | 29 | 221 |
| 1.5 | 4 | 6 | 5.8 | 5.9 | 48 | 136 |
| 3.5 | 6 | 12.7 | 9.1 | 11.1 | 25 | 255 |
| 3.5 | 6 | 12.1 | 8.7 | 10.6 | 27 | 244 |
| 3.5 | 6 | 11.9 | 7.7 | 10 | 28 | 230 |
| 3.5 | 6 | 11.8 | 8.1 | 10.1 | 28 | 232 |
| 3.7 | 6 | 12.8 | 9 | 11.1 | 25 | 255 |
| 3.7 | 6 | 13.4 | 9.5 | 11.6 | 24 | 267 |
| 2.4 | 4 | 10.6 | 7.5 | 9.2 | 31 | 212 |
| 2.4 | 4 | 11.2 | 8.1 | 9.8 | 29 | 225 |
| 3.5 | 6 | 12.1 | 8.3 | 10.4 | 27 | 239 |
| 5.9 | 12 | 18 | 12.6 | 15.6 | 18 | 359 |
| 5.9 | 12 | 18 | 12.6 | 15.6 | 18 | 359 |
| 4.7 | 8 | 17.4 | 11.3 | 14.7 | 19 | 338 |
| 4.7 | 8 | 18.1 | 12.2 | 15.4 | 18 | 354 |
| 4.7 | 8 | 17.4 | 11.3 | 14.7 | 19 | 338 |
| 4.7 | 8 | 18.1 | 12.2 | 15.4 | 18 | 354 |
| 5.9 | 12 | 18 | 12.6 | 15.6 | 18 | 359 |
| 2 | 4 | 9.9 | 7.4 | 8.8 | 32 | 202 |
| 2 | 4 | 11.5 | 8.1 | 10 | 28 | 230 |
| 2 | 4 | 10.8 | 7.5 | 9.3 | 30 | 214 |

相关推荐
封步宇AIGC1 小时前
量化交易系统开发-实时行情自动化交易-3.4.1.2.A股交易数据
人工智能·python·机器学习·数据挖掘
m0_523674211 小时前
技术前沿:从强化学习到Prompt Engineering,业务流程管理的创新之路
人工智能·深度学习·目标检测·机器学习·语言模型·自然语言处理·数据挖掘
weixin_307779132 小时前
证明存在常数c, C > 0,使得在一系列特定条件下,某个特定投资时刻出现的概率与天数的对数成反比
人工智能·算法·机器学习
封步宇AIGC2 小时前
量化交易系统开发-实时行情自动化交易-3.4.1.6.A股宏观经济数据
人工智能·python·机器学习·数据挖掘
小森( ﹡ˆoˆ﹡ )10 小时前
词嵌入方法(Word Embedding)
人工智能·机器学习·自然语言处理·nlp·word·embedding
阿牛牛阿12 小时前
多模态大模型(1)--CLIP
算法·机器学习·ai·aigc
OAK中国_官方13 小时前
OAK相机:纯视觉SLAM在夜晚的应用
人工智能·机器学习·slam
小馒头学python15 小时前
【机器学习】突破分类瓶颈:用逻辑回归与Softmax回归解锁多分类世界
人工智能·python·算法·机器学习·分类·回归·逻辑回归
宋一诺3315 小时前
机器学习—多个输出的分类(Optional)
人工智能·机器学习
OpenBayes16 小时前
OpenBayes 一周速览丨VASP 教程上线!HPC 助力材料计算;AllClear 公共云层去除数据集发布,含超 23k 个全球分布的兴趣区域
人工智能·深度学习·机器学习·自然语言处理·开源·数据集·大语言模型