机器学习(二)-线性回归实战

Scikit-learn python的一个针对机器学习的算法库,不支持深度学习和强化学习。

=======================================================

基于单因素的线性回归模型

练习目的:

基于generated_data.csv中的数据x,y,建立线性模型,并预测当输入是3.5时的预测值

import pandas as pd

data = pd.read_csv('generated_data.csv') #引入数据

#分别获取x,y的值

x = data.loc[:,'x']

y = data.loc[:,'y']

#展示图形

import matplotlib

from matplotlib import pyplot as plt

plt.figure

plt.scatter(x,y)

plt.show()

#set linear regression model 设置线性模型

import sklearn

from sklearn.linear_model import LinearRegressionlr_model = LinearRegression()

import numpy as np #数据格式处理,LinearRegression只能处理多维数组

x = np.array(x) #转为数组

print(type(x),x.shape)

x = x.reshape(-1,1) #转为10行,1列的数组,虽然我也没咋理解为啥这样写能让一个(10,)格式的数组变成一个(10,1)的数组。转为多维数组

print(type(x),x.shape)

y = np.array(y)

print(type(y),y.shape)

y = y.reshape(-1,1)

print(type(y),y.shape)

lr_model.fit(x,y) #把输入与输出投入训练

#预测x是3.5时的值

y_3 = lr_model.predict([[3.5]])

print(y_3)

predict_y = lr_model.predict(x)

print(predict_y)

#打印系数a和截距b

a = lr_model.coef_

b = lr_model.intercept_

print(a,b)

模型训练好坏的评估指标

from sklearn.metrics import mean_squared_error,r2_score

MSE = mean_squared_error(y,predict_y)

R2 = r2_score(y,predict_y)

print(MSE,R2)

plt.figure()

plt.scatter(y,predict_y)

plt.show()

plt.figure()

plt.plot(y,predict_y)

plt.show()

====================================================================

基于多因素的线性回归模型

练习目的:

通过房屋人员的收入、房龄、房间数、受欢迎程度、房屋面积,预测房屋价格。

'''

基于usa_housing_price.csv数据,建立线性回归模型,预测合理房价:

1、以面积为输入变量,建立单因子模型,评估模型表现,可视化线性回归预测结果

2、以income、house age、numbers of rooms、population、area为输入变量,建立多因子模型,评估模型表现

3、预测

Income=65000, House Age=5, Number of Rooms=5, Population=30000, size=200的合理房价

'''

import pandas as pd

import numpy as np

data = pd.read_csv('usa_housing_price.csv')

data.head()

from matplotlib import pyplot as plt

plt.figure(figsize=(10,10))

fig1 = plt.subplot(231) #生成两行三列的子图,且当前为子图1

plt.scatter(data.loc[:,'income'],data.loc[:,'price'])

plt.title('price vs income')

fig2 = plt.subplot(232) #生成两行三列的子图,且当前为子图1

plt.scatter(data.loc[:,'house age'],data.loc[:,'price'])

plt.title('price vs house age')

fig3 = plt.subplot(233) #生成两行三列的子图,且当前为子图1

plt.scatter(data.loc[:,'numbers of rooms'],data.loc[:,'price'])

plt.title('price vs numbers of rooms')

fig4 = plt.subplot(234) #生成两行三列的子图,且当前为子图1

plt.scatter(data.loc[:,'population'],data.loc[:,'price'])

plt.title('price vs population ')

fig5 = plt.subplot(235) #生成两行三列的子图,且当前为子图1

plt.scatter(data.loc[:,'area'],data.loc[:,'price'])

plt.title('price vs area ')

plt.show()

#先来单因素的

x = data.loc[:,'area']

x.head()

y = data.loc[:,'price']

y.head()

建立单因子模型 set up the linear regression model

from sklearn.linear_model import LinearRegression

LR1 = LinearRegression()

train the model

x = np.array(x).reshape(-1,1)

#y = np.array(y).reshape(-1,1)

#print(x.shape)

LR1.fit(x,y)

a = LR1.coef_

b = LR1.intercept_

print(a,b)

y_predict_1 = LR1.predict(x)

print(y_predict_1)

#评估模型

from sklearn.metrics import mean_squared_error,r2_score

mean_squared_error1 = mean_squared_error(y,y_predict_1)

r2_score1 = r2_score(y,y_predict_1)

print(mean_squared_error1,r2_score1)

fig6 = plt.figure()

plt.scatter(x,y)

plt.plot(x,y_predict_1,'r')

plt.show()

多因素线性回归

x_multi = data.drop('price',axis=1) #axis=1指定删除的是列,如果是axis=0则为指定删除的是行

#设置多因素线性模型

LR_multi = LinearRegression()

LR_multi.fit(x_multi,y)

#评估模型好坏

y_predict_multi = LR_multi.predict(x_multi)

mean_squared_error_multi = mean_squared_error(y,y_predict_multi)

r2_score_multi = r2_score(y,y_predict_multi)

print(mean_squared_error_multi,r2_score_multi)

#画图看下预测的y和实际的y

fig7 = plt.figure()

plt.scatter(y_predict_multi,y)

#plt.plot(x_multi,y_predict_multi)

plt.show()

fig8 = plt.figure()

plt.scatter(y_predict_1,y) #单因素的做下对比

plt.show()

相对来说,还是多因素更好些,收敛的更趋近于一条直线。

相关推荐
哈__几秒前
CANN图优化技术:深度学习模型的编译器魔法
人工智能·深度学习
灰灰勇闯IT2 分钟前
神经网络的基石——深度解析 CANN ops-nn 算子库如何赋能昇腾 AI
人工智能·深度学习·神经网络
秋邱3 分钟前
深度解析CANN与AIGC的核心联系:算力底座赋能生成式AI规模化落地
人工智能·aigc
一枕眠秋雨>o<4 分钟前
数学的底座:ops-math如何为AI计算注入确定性
人工智能
Henry-SAP8 分钟前
SAP(ERP)主要生产计划(MPS)业务视角解析
人工智能
猫头虎11 分钟前
2026年AI产业13大趋势预测:Vibe Coding创作者经济元年到来,占冰强专家解读AIGC未来图景
人工智能·开源·prompt·aigc·ai编程·远程工作·agi
程序员清洒11 分钟前
CANN模型部署:从云端到端侧的全场景推理优化实战
大数据·人工智能
deephub12 分钟前
LLM推理时计算技术详解:四种提升大模型推理能力的方法
人工智能·深度学习·大语言模型·推理时计算
lili-felicity16 分钟前
CANN性能调优与实战问题排查:从基础优化到排障工具落地
开发语言·人工智能
User_芊芊君子19 分钟前
HCCL高性能通信库编程指南:构建多卡并行训练系统
人工智能·游戏·ai·agent·测评