《机器学习》决策树集成学习随机森林参数及实例解析

class sklearn.ensemble.RandomForestClassifier(n_estimators='warn', criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)

1）n_estimators :（随机森林独有）

随机森林中决策树的个数。

在0.20版本中默认是10个决策树；

在0.22版本中默认是100个决策树；

2）criterion：节点分割依据（同决策树）

默认为基尼系数，可选entropy，信息增益

3）max_depth：决策树最大深度，最大层数（同决策树）

default=（None)设置决策树的最大深度，默认为None。

（1）数据少或者特征少的时候，可以不用管这个参数，按照默认的不限制生长即可

（2）如果数据比较多特征也比较多的情况下，可以限制这个参数，范围在10~100之间比较好

4）min_samples_split ：非叶子节点最小样本数 (同决策树)

这个值限制了子树继续划分的条件，如果某节点的样本数少于设定值，则不会再继续分裂。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则建议增大这个值。

5）min_samples_leaf ：最小叶子节点数样本数 (同决策树)

这个值限制了叶子节点最少的样本数

6）min_weight_fraction_leaf : (同决策树)

这个值限制了叶子节点所有样本权重和的最小值，

7）max_features : 最大特征数 (随机森林独有)

随机森林允许单个决策树使用特征的最大数量。选择最适属性时划分的特征不能超过此值。

当为整数时，即最大特征数；当为小数时，训练集特征数*小数；

8）max_leaf_nodes ：最大叶子结点数 (同决策树)

通过限制最大叶子节点数，可以防止过拟合，默认是"None"，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。

9）min_impurity_split: (同决策树)

这个值限制了决策树的增长，如果某节点的不纯度(基于基尼系数，均方差)小于这个阈值，则该节点不再生成子节点。即为叶子节点。一般不推荐改动默认值1e-7。

10） bootstrap =True (随机森林独有)

是否有放回的采样，按默认，有放回采样

11） n_jobs=1：

并行job个数。这个在是bagging训练过程中有重要作用，可以并行从而提高性能。1=不并行；n：n个并行；-1：CPU有多少core，就启动多少job。

6、代码实现

python 复制代码

import pandas as pd
from sklearn import tree
from sklearn.model_selection import train_test_split

# 回执混淆矩阵
def cm_plot(y, yp):    # 可视化混淆矩阵，网上都是包装好的，可以直接复制使用
    from sklearn.metrics import confusion_matrix
    import matplotlib.pyplot as plt

    cm = confusion_matrix(y, yp)
    plt.matshow(cm, cmap=plt.cm.Blues)
    plt.colorbar()
    for x in range(len(cm)):
        for y in range(len(cm)):
            plt.annotate(cm[x, y], xy=(y, x), horizontalalignment='center',verticalalignment='center')
            plt.ylabel('True label')
            plt.xlabel('Predicted label')
    return plt


# data = pd.read_csv('data.csv')
df = pd.read_csv("spambase.csv")  # 导入数据

x = df.iloc[:,:-1]  # 切分特征集和标签集
y = df.iloc[:,-1]

xtrain,xtest,ytrain,ytest = train_test_split(x,y,test_size=0.2,random_state=100)  # 对原始数据集进行切分

# 随机森林
from sklearn.ensemble import RandomForestClassifier   # 导入随机森林库
# 定义参数
rf = RandomForestClassifier(   # 定义模型并调整参数
    n_estimators=100,  # 决策树个数
    max_features=0.8,  # 最多传递多少个特征 80%
    random_state=0   # 随机种子
)

rf.fit(xtrain,ytrain)  # 对训练集进行训练

train_predicted = rf.predict(xtrain)  # 预测训练集本身正确率

from sklearn import metrics
# 打印分类报告
print(metrics.classification_report(ytrain,train_predicted))
# 绘制混淆矩阵
cm_plot(ytrain,train_predicted).show()

test_predicted = rf.predict(xtest)  # 对测试集进行测试，同时打印分类报告
print(metrics.classification_report(ytest,test_predicted))
cm_plot(ytest,test_predicted).show()

import matplotlib.pyplot as plt   # 导入绘图库

importances = rf.feature_importances_  # 将rf模型中特征的重要性评估保存在importances变量中
im = pd.DataFrame(importances,columns=['importances'])  # 将importances转换成DataFrame对象，并设置列名为importances
clos = df.columns  # 将数据集df的列名保存在clos变量中
clos_1 = clos.values   # 将clos转换成一个一维numpy数组，存放在clos_1中
clos_2 = clos_1.tolist()   # 将clos_1转换成一个python列表
clos = clos_2[0:-1]   # 取出除了最后一个的全部数据
im['clos'] = clos   #  将处理后的特征列名增加到DataFrame im中

im = im.sort_values(by=['importances'],ascending=False)[:10]  # 根据特征重要性的值对im进行降序排序，并选取前十个重要特征。

index = range(len(im))  # 生成一个范围对象，表示条形图的纵轴刻度
plt.yticks(index,im.clos)  # 设置纵轴的刻度标签为im中的特征列名
plt.barh(index,im['importances'])  # 绘制水平条形图，横轴表示特征重要性，纵轴表示特征名。
plt.show()

运行结果如下：

《机器学习》决策树 集成学习 随机森林 参数及实例解析

一、集成学习

1、含义

2、集成学习代表

1）bagging方法

2）boosting方法

3）stacking方法

二、随机森林

1、什么是随机森林

2、特点

1）数据采样随机

2）特征选取随机

3）森林

4）基分类器为决策树

3、为什么使用随机森林？

4、随机森林生成步骤

5、库及参数介绍