机器学习(二)-线性回归实战

Scikit-learn python的一个针对机器学习的算法库,不支持深度学习和强化学习。

=======================================================

基于单因素的线性回归模型

练习目的:

基于generated_data.csv中的数据x,y,建立线性模型,并预测当输入是3.5时的预测值

import pandas as pd

data = pd.read_csv('generated_data.csv') #引入数据

#分别获取x,y的值

x = data.loc[:,'x']

y = data.loc[:,'y']

#展示图形

import matplotlib

from matplotlib import pyplot as plt

plt.figure

plt.scatter(x,y)

plt.show()

#set linear regression model 设置线性模型

import sklearn

from sklearn.linear_model import LinearRegressionlr_model = LinearRegression()

import numpy as np #数据格式处理,LinearRegression只能处理多维数组

x = np.array(x) #转为数组

print(type(x),x.shape)

x = x.reshape(-1,1) #转为10行,1列的数组,虽然我也没咋理解为啥这样写能让一个(10,)格式的数组变成一个(10,1)的数组。转为多维数组

print(type(x),x.shape)

y = np.array(y)

print(type(y),y.shape)

y = y.reshape(-1,1)

print(type(y),y.shape)

lr_model.fit(x,y) #把输入与输出投入训练

#预测x是3.5时的值

y_3 = lr_model.predict([[3.5]])

print(y_3)

predict_y = lr_model.predict(x)

print(predict_y)

#打印系数a和截距b

a = lr_model.coef_

b = lr_model.intercept_

print(a,b)

模型训练好坏的评估指标

from sklearn.metrics import mean_squared_error,r2_score

MSE = mean_squared_error(y,predict_y)

R2 = r2_score(y,predict_y)

print(MSE,R2)

plt.figure()

plt.scatter(y,predict_y)

plt.show()

plt.figure()

plt.plot(y,predict_y)

plt.show()

====================================================================

基于多因素的线性回归模型

练习目的:

通过房屋人员的收入、房龄、房间数、受欢迎程度、房屋面积,预测房屋价格。

'''

基于usa_housing_price.csv数据,建立线性回归模型,预测合理房价:

1、以面积为输入变量,建立单因子模型,评估模型表现,可视化线性回归预测结果

2、以income、house age、numbers of rooms、population、area为输入变量,建立多因子模型,评估模型表现

3、预测

Income=65000, House Age=5, Number of Rooms=5, Population=30000, size=200的合理房价

'''

import pandas as pd

import numpy as np

data = pd.read_csv('usa_housing_price.csv')

data.head()

from matplotlib import pyplot as plt

plt.figure(figsize=(10,10))

fig1 = plt.subplot(231) #生成两行三列的子图,且当前为子图1

plt.scatter(data.loc[:,'income'],data.loc[:,'price'])

plt.title('price vs income')

fig2 = plt.subplot(232) #生成两行三列的子图,且当前为子图1

plt.scatter(data.loc[:,'house age'],data.loc[:,'price'])

plt.title('price vs house age')

fig3 = plt.subplot(233) #生成两行三列的子图,且当前为子图1

plt.scatter(data.loc[:,'numbers of rooms'],data.loc[:,'price'])

plt.title('price vs numbers of rooms')

fig4 = plt.subplot(234) #生成两行三列的子图,且当前为子图1

plt.scatter(data.loc[:,'population'],data.loc[:,'price'])

plt.title('price vs population ')

fig5 = plt.subplot(235) #生成两行三列的子图,且当前为子图1

plt.scatter(data.loc[:,'area'],data.loc[:,'price'])

plt.title('price vs area ')

plt.show()

#先来单因素的

x = data.loc[:,'area']

x.head()

y = data.loc[:,'price']

y.head()

建立单因子模型 set up the linear regression model

from sklearn.linear_model import LinearRegression

LR1 = LinearRegression()

train the model

x = np.array(x).reshape(-1,1)

#y = np.array(y).reshape(-1,1)

#print(x.shape)

LR1.fit(x,y)

a = LR1.coef_

b = LR1.intercept_

print(a,b)

y_predict_1 = LR1.predict(x)

print(y_predict_1)

#评估模型

from sklearn.metrics import mean_squared_error,r2_score

mean_squared_error1 = mean_squared_error(y,y_predict_1)

r2_score1 = r2_score(y,y_predict_1)

print(mean_squared_error1,r2_score1)

fig6 = plt.figure()

plt.scatter(x,y)

plt.plot(x,y_predict_1,'r')

plt.show()

多因素线性回归

x_multi = data.drop('price',axis=1) #axis=1指定删除的是列,如果是axis=0则为指定删除的是行

#设置多因素线性模型

LR_multi = LinearRegression()

LR_multi.fit(x_multi,y)

#评估模型好坏

y_predict_multi = LR_multi.predict(x_multi)

mean_squared_error_multi = mean_squared_error(y,y_predict_multi)

r2_score_multi = r2_score(y,y_predict_multi)

print(mean_squared_error_multi,r2_score_multi)

#画图看下预测的y和实际的y

fig7 = plt.figure()

plt.scatter(y_predict_multi,y)

#plt.plot(x_multi,y_predict_multi)

plt.show()

fig8 = plt.figure()

plt.scatter(y_predict_1,y) #单因素的做下对比

plt.show()

相对来说,还是多因素更好些,收敛的更趋近于一条直线。

相关推荐
Li emily6 小时前
解决了加密货币api多币种订阅时的数据乱序问题
人工智能·python·api·fastapi
山川绿水6 小时前
bugku——PWN——overflow2
人工智能·web安全·网络安全
程序员cxuan6 小时前
微信读书官方发了 skills,把我给秀麻了。
人工智能·后端·程序员
fake_ss1986 小时前
AI时代学习全栈项目开发的新范式
java·人工智能·学习·架构·个人开发·学习方法
nassi_6 小时前
对AI工程问题的一些思考
大数据·人工智能·hadoop
AI技术控6 小时前
《Transformers are Inherently Succinct》论文解读:从“能表达什么”到“多紧凑地表达”
人工智能·python·深度学习·机器学习·自然语言处理
蔡俊锋7 小时前
AI记忆压缩术:从305GB到7.4GB的魔法
人工智能·ai·ai 记忆
Upsy-Daisy7 小时前
AI Agent 项目学习笔记(二):Spring AI 与 ChatClient 主链路解析
人工智能·笔记·学习
zhangxingchao7 小时前
AI应用开发六:企业知识库
前端·人工智能·后端
Terrence Shen7 小时前
关于传统软件工程后端技术和当代AI智能体agent构建的harness engineering的一点思考
人工智能·软件工程