【机器学习-二-监督学习& 波士顿房价预测实战】

监督学习

什么是监督学习

监督学习最关键 的一个特征就是会给机器学习算法正确答案。这个意思就是,在使用机器学习算法的时候,会给算法一对 输入,这个输入包括:input x,以及 对应的期望输出output y(也就是所谓的标签label),通过这种学习,最终算法会在给定一个输入x的时候,预测对应的输出。

下面是监督学习的例子:

比如输入一个文本,让算法预测,这个正面还是负面评价

比如输入邮件,让算法预测,这是垃圾邮件还是正常邮件

比如输入用户信息和广告,预测用户是否会点击

比如输入雷达影像,输出其他汽车的位置

下面深入了解下监督学习

监督学习

我们训练一个算法,预测房价,首先我们需要收集一些数据,比如房屋的面积和房价,数据看起来是这样的:

有了这些数据以后,想预测比如房屋大小在750的时候,房子的价格大概是多少的时候,应该怎么做呢?

首先是把这些数据拟合成一条直线,根据这条直线就可以计算出数据在其他值的价格。

当然这条拟合线并不一定是直线,也有可能是曲线,后面的章节会学习到如何选用直线或者曲线或者更复杂的线来拟合这些数据。

回归

上面这种特定类型算法就叫做回归。

这种算法的学习任务就是要预测一个值,这个值有无限可能,可能是任何一个数字。这是回归任务的重要特征。

分类

还有一种监督学习方法,叫做分类。

比如输入一个文本,让机器判定这个评价是正面的还是负面的。

比如:今天电影很好看。这是正面的

比如:电影情节拖沓,漫长冗余。这个评价就是负面的。

这种分类通常是拟合一条线或者更复杂的函数,来划定区域,在某个特定的区域是一种类型,另外的区域就是另外的类型:

这种算法的学习任务,输出只有几种类型,当然分类可以超过三种或者众多种类,但是都是有限的集合。不像是回归,有无限可能。

波士顿房价预测-实战

下面是波士顿房价预测实战,使用sklearn库,并使用KNN LINEAR等算法来预测房价

加载模块

python 复制代码
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split  # 对数据集切分
from sklearn.metrics import r2_score

# 机器算法模型
from sklearn.neighbors import KNeighborsRegressor  # KNN,即K近邻算法
from sklearn.linear_model import LinearRegression  # 多元线性回归算法
from sklearn.linear_model import Ridge  # 线性回归算法Ridge回归,岭回归
from sklearn.linear_model import Lasso  # 线性回归算法Lasso回归,可用作特征筛选
from sklearn.tree import DecisionTreeRegressor  # 决策树,既可以做分类也可以做回归(本文主要用于分类问题)
from sklearn.svm import SVR  # 支持向量机

import pandas as pd
import numpy as np

读取数据

python 复制代码
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]
print(data.shape)
# 切割数据样本集合测试集
X_train, x_test, y_train, y_true = train_test_split(data, target, test_size=0.2)  # 20%测试集;80%训练集
# 可视化
data_df = pd.DataFrame(data)
data_df['房价值'] = target
print(data_df.head(10))

创建KNN Linear等学习模型&训练模型

python 复制代码
# 创建学习模型
knn = KNeighborsRegressor()
linear = LinearRegression()
ridge = Ridge()
lasso = Lasso()
decision = DecisionTreeRegressor()
svr = SVR()

# 训练模型
knn.fit(X_train, y_train)  # 学习率、惩罚项都封装好了
linear.fit(X_train, y_train)
ridge.fit(X_train, y_train)
lasso.fit(X_train, y_train)
decision.fit(X_train, y_train)
svr.fit(X_train, y_train)

预测数据

python 复制代码
y_pre_knn = knn.predict(x_test)
y_pre_linear = linear.predict(x_test)
y_pre_ridge = ridge.predict(x_test)
y_pre_lasso = lasso.predict(x_test)
y_pre_decision = decision.predict(x_test)
y_pre_svr = svr.predict(x_test)

评分以及绘图

python 复制代码
knn_score = r2_score(y_true, y_pre_knn)
linear_score = r2_score(y_true, y_pre_linear)
ridge_score = r2_score(y_true, y_pre_ridge)
lasso_score = r2_score(y_true, y_pre_lasso)
decision_score = r2_score(y_true, y_pre_decision)
svr_score = r2_score(y_true, y_pre_svr)

# 绘图
# KNN
plt.plot(y_true, label='true')
plt.plot(y_pre_knn, label='knn')
plt.legend()

# Linear
plt.plot(y_true, label='true')
plt.plot(y_pre_linear, label='linear')
plt.legend()

# Ridge
plt.plot(y_true, label='true')
plt.plot(y_pre_ridge, label='ridge')
plt.legend()

# Lasso
plt.plot(y_true, label='true')
plt.plot(y_pre_lasso, label='lasso')
plt.legend()

# Decision
plt.plot(y_true, label='true')
plt.plot(y_pre_decision, label='decision')
plt.legend()

# SVR
plt.plot(y_true, label='true')
plt.plot(y_pre_svr, label='svr')
plt.legend()

plt.show()

最终结果

简单学习后,效果还是不错的。

相关推荐
哥布林学者8 分钟前
高光谱拼接算法(一)扫推式成像和航带拼接算法
机器学习·高光谱成像
IT_陈寒13 分钟前
Redis缓存击穿把我整不会了,原来还有这手操作
前端·人工智能·后端
_李小白14 分钟前
【android opencv学习笔记】Day 17: 目标追踪(MeanShift)
android·opencv·学习
YuanDaima204819 分钟前
Linux 进阶运维与 AI 环境实战:进程管理、网络排错与 GPU 监控
linux·运维·服务器·网络·人工智能
跨境数据猎手27 分钟前
跨境商城反向海淘系统开发全流程逻辑(上)
人工智能·爬虫·系统架构
一只机电自动化菜鸟31 分钟前
一建机电备考笔记(40) 建筑机电施工—排水管道施工(含考频+题型)
经验分享·笔记·学习·职场和发展·课程设计
2301_8187305640 分钟前
numpy的学习(笔记)
学习·numpy
听你说321 小时前
丈八科技与浪潮海若达成战略合作:共建人工智能产测一体化超级工厂
人工智能·科技
初心未改HD1 小时前
深度学习之Attention注意力机制详解
人工智能·深度学习
code_pgf1 小时前
模态生成器:原理详解与推荐开源项目
人工智能·深度学习·开源