机器学习 day6 -线性回归练习

题目‌:

  1. Kaggle的"House Prices - Advanced Regression Techniques"数据集
  2. 使用Pandas读取数据,并查看数据的基本信息。
  3. 选择一些你认为对房屋价格有重要影响的特征,并进行数据预处理(如缺失值处理、异常值处理等)。
  4. 使用matplotlib绘制特征与目标变量(房屋价格)之间的散点图或箱线图,观察它们之间的关系。
  5. 将数据分为训练集和测试集。
  6. 使用numpy或scikit-learn搭建一个线性回归模型,并在训练集上进行训练。
  7. 在测试集上评估模型的性能,并计算均方误差(MSE)或均方根误差(RMSE)。
  8. 尝试使用不同的特征组合或进行特征选择,观察模型性能的变化。
python 复制代码
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

# 中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False


# 使用Pandas读取数据,并查看数据的基本信息。
data = pd.read_csv('./train.csv')
print(data.head())

# 选择一些你认为对房屋价格有重要影响的特征,并进行数据预处理(如缺失值处理、异常值处理等)。
# 判断是否有缺失值
print(data.isnull().sum())
# 使用中位数填充缺失值
data['LotFrontage'] = data['LotFrontage'].fillna(data['LotFrontage'].median())
data['MasVnrArea'] = data['MasVnrArea'].fillna(data['MasVnrArea'].median())
data['GarageYrBlt'] = data['GarageYrBlt'].fillna(data['GarageYrBlt'].median())
# 异常值处理
data = data[data['SalePrice'] < 500000]

# 使用matplotlib绘制特征与目标变量(房屋价格)之间的散点图或箱线图,观察它们之间的关系。
plt.scatter(data['GrLivArea'], data['SalePrice'], alpha=0.5)
plt.title('住房面积与房价的关系')
plt.xlabel('住房面积')
plt.ylabel('房价')
plt.show()

# 选择数值型特征
numeric_features = data.select_dtypes(include=[np.number]).columns.tolist()
numeric_features.remove('SalePrice')  # 移除目标变量

# 将数据分为训练集和测试集。
x = data[numeric_features]  # 只使用数值型特征
y = data['SalePrice']

# 特征工程(标准化)
transfer = StandardScaler()
# 将数值型特征进行标准化
x = transfer.fit_transform(x)

# 使用scikit-learn搭建一个线性回归模型,并在训练集上进行训练。
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(x_train, y_train)

# 在测试集上评估模型的性能,并计算均方误差(MSE)或均方根误差(RMSE)。
y_predict = model.predict(x_test)
mse = np.mean((y_predict - y_test) ** 2)
rmse = np.sqrt(mse)
print(f"均方误差(MSE):{mse}")
print(f"均方根误差(RMSE):{rmse}")

plt.show()
python 复制代码
Pytorch) c:\Users\Wennight531\Desktop\机器学习\day6>D:/Anaconda/envs/Pytorch/python.exe c:/Users/Wennight531/Desktop/机器学习/day6/House_prices.py
   Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley  ... MiscFeature MiscVal MoSold YrSold SaleType SaleCondition SalePrice
0   1          60       RL         65.0     8450   Pave   NaN  ...         NaN       0      2   2008       WD        Normal    208500       
1   2          20       RL         80.0     9600   Pave   NaN  ...         NaN       0      5   2007       WD        Normal    181500       
2   3          60       RL         68.0    11250   Pave   NaN  ...         NaN       0      9   2008       WD        Normal    223500       
3   4          70       RL         60.0     9550   Pave   NaN  ...         NaN       0      2   2006       WD       Abnorml    140000       
4   5          60       RL         84.0    14260   Pave   NaN  ...         NaN       0     12   2008       WD        Normal    250000       

[5 rows x 81 columns]
Id                 0
MSSubClass         0
MSZoning           0
LotFrontage      259
LotArea            0
                ...
MoSold             0
YrSold             0
SaleType           0
SaleCondition      0
SalePrice          0
Length: 81, dtype: int64
均方误差(MSE):784419750.0907469
均方根误差(RMSE):28007.494534333964
相关推荐
滴图服务-七七5 小时前
滴滴地图:精准定位赋能企业数字化转型
大数据·人工智能·地图服务·甲级测绘资质·商业授权
爱学习的程序媛5 小时前
2026上半年大模型全景技术解读:推理融合、Agent 爆发与多模态统一
人工智能·ai
A.说学逗唱的Coke6 小时前
【大模型专题】向量数据库深度解析:从原理到实战,构建企业级 AI 知识检索底座
数据库·人工智能
果丁智能6 小时前
智能锁赋能网约房民宿数字化管控:身份核验+远程授权,筑牢安全防线、降本增效
网络·数据库·人工智能·安全·智能家居
V搜xhliang02466 小时前
AI智能体的数据安全与合规实践
人工智能·学习·数据分析·自动化·ai编程
PPIO派欧云6 小时前
PPIO登上贵州新闻联播,深化AI算力生态建设
人工智能
hai3152475437 小时前
一种通过空间几何转换进行软件编程计算的方式与现有计算的对比
人工智能·深度学习·数学建模·硬件架构·几何学·图论·拓扑学
猿饵块7 小时前
LibreOffice---文档制作
人工智能
硅谷秋水7 小时前
HARBOR:一个面向具身智体机器人强化学习的驾驭框架
人工智能·深度学习·机器学习·机器人
Mr..Jackey7 小时前
瑞佑 RUI Builder 图形化 UI 设计工具
arm开发·人工智能·单片机·ui·人机交互·ra8889·lcd控制芯片