机器学习-保险花销预测笔记+代码

读取数据

复制代码
import numpy as np
import pandas as pd

data=pd.read_csv(r'D:\人工智能\python视频\机器学习\5--机器学习-线性回归\5--Lasso回归_Ridge回归_多项式回归\insurance.csv',sep=',')
data.head(n=6)

EDA 数据探索

复制代码
import matplotlib.pyplot as plt
%matplotlib inline

plt.hist(data['charges'])
复制代码
#上图出现右偏现象,要变成正态分布形式
plt.hist(np.log(data['charges']),bins=20)

特征工程

复制代码
data=pd.get_dummies(data)
data.head()
复制代码
x=data.drop('charges',axis=1)
x
复制代码
y=data['charges']

x.fillna(0,inplace=True)
y.fillna(0,inplace=True)

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3)

from sklearn.preprocessing import StandardScaler
scaler=StandardScaler(with_mean=True,with_std=True).fit(x_train)


x_train_scaled=scaler.transform(x_train)
x_test_scaled=scaler.transform(x_test)
x_train_scaled
复制代码
from sklearn.preprocessing import PolynomialFeatures
poly_features=PolynomialFeatures(degree=2,include_bias=False)
x_train_scaled=poly_features.fit_transform(x_train_scaled)
x_test_scaled=poly_features.fit_transform(x_test_scaled)

模型训练

复制代码
from sklearn.linear_model import LinearRegression


reg=LinearRegression()

reg.fit(x_train_scaled,np.log1p(y_train))
y_predict=reg.predict(x_test_scaled)

#%%
from sklearn.linear_model import Ridge
ridge=Ridge(alpha=0.4)

ridge.fit(x_train_scaled,np.log1p(y_train))
y_predict_ridge=ridge.predict(x_test_scaled)
#%%
from sklearn.ensemble import GradientBoostingRegressor
booster=GradientBoostingRegressor()

booster.fit(x_train_scaled,np.log1p(y_train))
y_predict_booster=ridge.predict(x_test_scaled)

模型评估

复制代码
from sklearn.metrics import mean_squared_error

#log变换之后的
log_rmse_train=np.sqrt(mean_squared_error(y_true=np.log1p(y_train),y_pred=reg.predict(x_train_scaled))) 
log_rmse_test=np.sqrt(mean_squared_error(y_true=np.log1p(y_test),y_pred=y_predict))
#没有做log变换的
rmse_train=np.sqrt(mean_squared_error(y_true=y_train,y_pred=np.exp(reg.predict(x_train_scaled))))
rmse_test=np.sqrt(mean_squared_error(y_true=y_test,y_pred=np.exp(reg.predict(x_test_scaled))))

log_rmse_train,log_rmse_test,rmse_train,rmse_test
python 复制代码
#log变换之后的
log_rmse_train=np.sqrt(mean_squared_error(y_true=np.log1p(y_train),y_pred=ridge.predict(x_train_scaled))) 
log_rmse_test=np.sqrt(mean_squared_error(y_true=np.log1p(y_test),y_pred=y_predict_ridge))
#没有做log变换的
rmse_train=np.sqrt(mean_squared_error(y_true=y_train,y_pred=np.exp(ridge.predict(x_train_scaled))))
rmse_test=np.sqrt(mean_squared_error(y_true=y_test,y_pred=np.exp(ridge.predict(x_test_scaled))))

log_rmse_train,log_rmse_test,rmse_train,rmse_test
python 复制代码
#log变换之后的
log_rmse_train=np.sqrt(mean_squared_error(y_true=np.log1p(y_train),y_pred=booster.predict(x_train_scaled))) 
log_rmse_test=np.sqrt(mean_squared_error(y_true=np.log1p(y_test),y_pred=y_predict_booster))
#没有做log变换的
rmse_train=np.sqrt(mean_squared_error(y_true=y_train,y_pred=np.exp(booster.predict(x_train_scaled))))
rmse_test=np.sqrt(mean_squared_error(y_true=y_test,y_pred=np.exp(booster.predict(x_test_scaled))))

log_rmse_train,log_rmse_test,rmse_train,rmse_test
相关推荐
嵌入式小企鹅1 小时前
CPU供需趋紧、DeepSeek V4全链适配、小米开源万亿模型
人工智能·学习·开源·嵌入式·小米·算力·昇腾
三品吉他手会点灯6 小时前
C语言学习笔记 - 20.C编程预备计算机专业知识 - 变量为什么必须的初始化【重点】
c语言·笔记·学习
kobesdu6 小时前
【ROS2实战笔记-12】rosshow:终端里的盲文可视化与无头机器人的现场调试
笔记·机器人·ros·移动机器人
sakiko_6 小时前
UIKit学习笔记1-创建项目(使用UIKit)、使用组件
笔记·学习
生信碱移7 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
智者知已应修善业7 小时前
【51单片机中的打飞机设计】2023-8-25
c++·经验分享·笔记·算法·51单片机
哥布林学者8 小时前
深度学习进阶(十三)可变形卷积 DCN
机器学习·ai
星幻元宇VR9 小时前
VR航空航天科普设备【VR时空直升机】
科技·学习·安全·生活·vr
_李小白9 小时前
【android opencv学习笔记】Day 2: Mat类(图片数据结构体)
android·opencv·学习
智者知已应修善业9 小时前
【51单片机按键调节占空比3位数码管显示】2023-8-24
c++·经验分享·笔记·算法·51单片机