【菜菜的sklearn机器学习】(4)随机森林

具体的在Jupyter 里

课程学习:2 1. 集成算法概述_trim_哔哩哔哩_bilibili

课程 4-随机森林

1、集成算法

随机森林是一种集成算法。集成学习ensemble learning 不是一个单独的ML算法,而是通过在数据集上构成多个模型,集成所有模型的建模结果。随机森林、梯度提升数GBDT、Xgboost等集成算法应用较广。

目标:集成算法会考虑多个评估器的建模结果,++++汇总之后得到一个综合的结果,++++以此来获取比单个模型更好的回归或分类表现。

三类集成算法:袋装法bagging、提升法boosting和stacking

Singel单个模型;

bagging里面模型独立:装袋法的核心思想是++++构建多个相互独立的评估器++++ ,然后对其预测进行平均或多数表决原则来决定集成评估器的果。++++装袋法的代表模型就是随机森林。++++

boosting里面模型相关:提升法中,基评估器是相关的,是按顺序一一构建的。其核心思想是++++结合弱评估器的力量一次次对难以评估的进行预测,从而构成一个强评估器。++++ 提升法的代表模型有++++Adaboost++++ 和++++梯度提升树++++。

复习:sklearn中的决策树

决策树的主要功能是从一张有特征和标签的表格中,通过对特定特征进行提问,为我们总结出一系列的决策规则,并用树状图来呈现这些决策规则。

核心问题:

1如何找出正确的特征来进行提问,即分支节点-如何分支;

计算全部特征的不纯度指标=>选取不纯度指标最优的特征来分支=>第一个特征的分枝下,再计算all......

2树生长到什么时候应该停下

决策树追求不纯度小

2、RandomForestClassifier

参数:criterion、max_depth、min_samples_leaf、min_samples_split、max_features、min_impurity_decrease

(1)n_estimators越大效果越好

决策树也有决策边界,精确性不会再上升

Sklearn中的基本建模流程:

实例化

训练集带入实例化后的模型去进行训练,使用的接口是fit

使用其他接口讲测试集导入我妹训练好的模型,去获取我们希望获取的结果(score,Y_test)

sklearn中所有特征和标签是分开导入的

Score反应模型精确性(accuracy)

++++随机森林的效果是远远好于决策树的++++

(2)random_state

随机森林的本质是一种装袋集成算法Bagging

集成算法中多棵树的效果好于单科树

随机森林中的random_state生成一片固定的森林而非一棵树,生成的是固定模式,中间的每

(3)bootstrap&oob_score,默认true代表采用这种有放回的随机抽样技术,通常不会被设置为false

可能存在的问题:有些样本可能在同一个自助集中出现多次,而其他一些却可能被忽略

(4)重要属性和接口

.estimators_查看森林中所有树的样子

.oob_score_训练得分

接口用于调用输入数据集之后的结果,也可以用于训练apply、fit、predict、score

标签有几个分类,就会返回几个概率

(5)[选]Bonus:Badding的另一个必要条件

3、RandomForestRegressor

随机森林回归:通常使用mse

回归树的接口score返回的是R平方(1到负无穷),并不是MSE

交叉验证 cross_val_score(regressor, 完整原始数据,完整标签,交叉验证次数)

随机森林案例

用于填补缺失值

x_missing_mean.isnull() # 报错,因为x_missing_mean是一个Numpy结构的array,而isnull()只能在表dataframe中使用

相关推荐
databook10 小时前
Manim实现闪光轨迹特效
后端·python·动效
Juchecar11 小时前
解惑:NumPy 中 ndarray.ndim 到底是什么?
python
用户83562907805111 小时前
Python 删除 Excel 工作表中的空白行列
后端·python
Json_11 小时前
使用python-fastApi框架开发一个学校宿舍管理系统-前后端分离项目
后端·python·fastapi
数据智能老司机18 小时前
精通 Python 设计模式——分布式系统模式
python·设计模式·架构
数据智能老司机19 小时前
精通 Python 设计模式——并发与异步模式
python·设计模式·编程语言
数据智能老司机19 小时前
精通 Python 设计模式——测试模式
python·设计模式·架构
数据智能老司机19 小时前
精通 Python 设计模式——性能模式
python·设计模式·架构
c8i19 小时前
drf初步梳理
python·django
每日AI新事件19 小时前
python的异步函数
python