机器学习-决策树

决策树

1、概述

决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

2、相关概念

在决策树流程学习中,寻找最优划分属性是决策树过程中的重点。那么如何在众多的属性中选择最优的呢

2.1 信息熵

math 复制代码
Ent = - \sum_{k=1}^{K} p_k * log_2p_k
python 复制代码
import collections
def entropy(label):
    counter = collections.Counter(label)
    ent = 0.0
    for num in counter.values():
        p = num/len(label)
        ent += -p*np.log2(p)
    return ent

2.2 信息增益

python 复制代码
def information_gain(data,a):
    Ent = entropy(data)
    feature_class = data[a].value_counts()
    gain = 0
    for key in feature_class.keys():
        weight = feature_class[key]/data.shape[0]
        Ent_v = entropy(data.loc[data[a]==key])
        gain += weight * Ent_v
    return Ent - gain

2.3 信息增益率

信息增益率计算公式如下所示:

某数据集 D D D有若干属性值以及对应的值标记值,其样本大小为 ∣ D ∣ |D| ∣D∣,其中取一个属性特征为feature,该属性包含 V V V个不同的取值,属性值为第 v v v个值的大小为 ∣ D v ∣ ( ∑ v = 1 V ∣ D v ∣ = ∣ D ∣ ) |D_v|(\sum_{v=1}^{V} |D^v| = |D|) ∣Dv∣(∑v=1V∣Dv∣=∣D∣),该属性的信息熵为 E n t ( f e a t u r e ) Ent(feature) Ent(feature),则该属性对应的信息增益率为

math 复制代码
Gain_ratio(D,feature) = \frac{Gain(D,feature)} {Ent(feature)}
python 复制代码
def gain_ratio(data , a):
    #先计算固有值intrinsic_value
    IV_a = 0
    feature_class = data[a].value_counts()  # 特征有多少种可能
    for v in feature_class.keys():
        weight = feature_class[v]/data.shape[0]
        IV_a += -weight*np.log2(weight)
    gain_ration = cal_information_gain(data,a)/IV_a
    return gain_ration

2.4 基尼系数

gini系数计算方式如下:

某数据集 D D D有若干属性值以及对应的标记值,其总样本大小为 ∣ D ∣ |D| ∣D∣,该集合中样本标记类别总共有 K K K类,第 k k k类样本所占比例为 p k ( k = 1 , 2 , ... , K p_k (k=1,2,...,K pk(k=1,2,...,K)则该数据集对应的基尼系数为:

math 复制代码
Gini(D) = 1 - \sum_{k=1}^Kp_{k}^2
python 复制代码
#计算基尼指数
def gini(data):
    data_label = data.iloc[:, -1]
    label_num = data_label.value_counts() #有几类,每一类的数量
    res = 0
    for k in label_num.keys():
        p_k = label_num[k]/len(data_label)
        res += p_k ** 2
    return 1 - res

而取其中一个属性类型为 f e a t u r e feature feature,选定该类型的一个值为 v a l u e value value,根据 f e a t u r e feature feature这个属性是否为 v a l u e value value将数据集分为两个子集 D 1 D_1 D1和 D 2 D_2 D2,则该属性的 f e a t u r e feature feature对应的 G i n i Gini Gini系数为:

math 复制代码
Gini\_index(D,feature) = \frac{|D_1|}{|D|}Gini(D_1) +\frac{|D_2|}{|D|}Gini(D_2)

所以该函数中需要首先排除每一列中存在的重复值,计算出该值进行分类的Gini系数,计算出每个属性的每个非重复值的基尼系数,之后找到最小的Gini系数对应的属性维度以及对应值。

python 复制代码
# 计算每个特征取值的基尼指数,找出最优切分点
def gini_index(data,a):
    feature_class = data[a].value_counts()
    res = []
    for feature in feature_class.keys():
        weight = feature_class[feature]/len(data)
        gini_value = gini(data.loc[data[a] == feature])
        res.append([feature, weight * gini_value])
    res = sorted(res, key = lambda x: x[-1])
    return res[0]

3、决策树

数据进行划分。

python 复制代码
def split(feature, label, dimension):
    Len_label = len(label)#数据的长度
    a_d = np.unique(feature[:,dimension])#指定维度下的不同样本
    Len_a = len(a_d)#指定维度下的样本长度
    Feature = []
    Label = []
    split_feature = []
    split_label = []
    #初始化列表
    for j in range(Len_a):
        Feature.append(feature)
        Label.append(label)
    #对不同的a进行分类
    for j in range(Len_a):
        #从后往前判定,并删除不是该特征的数据
        for i in range(Len_label-1, -1, -1):
            if feature[i,dimension] != a_d[j]:
                Feature[j] = np.delete(Feature[j],i,axis=0)
                Label[j] = np.delete(Label[j],i,axis=0)
    #将输出结果整合为一个列表
    for j in range(Len_a):
        split_feature.append(Feature[j])
        split_label.append(Label[j])
    return split_feature,split_label

3.1 ID3决策树

通过寻找特征集合中信息增益最大属性,并进行分支。

输入:特征集合,标记集合

输出:该次划分的最佳信息增益,最佳划分维度S

计算信息增益公式:

某数据集 D D D有若干特征值以及对应的标记值,其总样本大小为 ∣ D ∣ |D| ∣D∣,这里取一个属性类型 f e a t u r e feature feature,该特征包含 V V V个不同的取值,特征值为第 v v v个值的数量为 ∣ D v ∣ |D^v| ∣Dv∣,则该特征值对应的信息增益为:

math 复制代码
Gain(G,feature) = Ent(D) - \sum_{v=1}^K \frac{|D^v|}{D}Ent(D^v)

所以需要计算出每个特征的信息增益并输出,然后返回最大的信息增益并返回该特征的维数以及最大的信息增益值。

python 复制代码
def one_split_ID3(feature,label):
    Ent_D = entropy(label)
    len_data, len_dimension = np.shape(feature)
    Gain = []
    for i in range(len_dimension):
        split_feature,split_label = split(feature,label,i) 
        len_split = len(split_label)
        E = 0.0 
        for j in range(len_split):
            Ent_D_v = entropy(split_label[j])
            len_D_v = len(split_label[j])
            p = len_D_v/len_data
            E = E + p*Ent_D_v 
        gain = Ent_D - E 
        Gain.append(gain)
    best_entropy = 0
    best_dimension = 0
    for i in range(len_dimension):
        if Gain[i] > best_entropy:
            best_entropy = Gain[i]
            best_dimension = i 
    return best_entropy, best_dimension

3.2 C4.5决策树

与ID3决策树不同,通过遍历找出该属性集合中信息增益率,最大的属性,进行节点分支。

python 复制代码
#输出每个特征的信息增益率,之后返回最大的信息增益率对应的属性维数以及最大的信息增益率
def one_split_C4_5(feature, label):
    #计算区域D的信息熵
    Ent_D = entropy(label)
    len_data,len_dimension = np.shape(feature)
    Grain_ratio = []
    #求出不同维度分类下的信息增益率
    for i in range(len_dimension):
        split_feature,split_label = split(feature, label, i)
        len_split = len(split_label)
        E = 0.0
        for j  in range(len_split):
            Ent_D_v = entropy(split_label[j] )
            len_D_v = len(split_label[j])
            p = len_D_v/len_data
            E = E + p*Ent_D_v
       
        grain = Ent_D - E
        Ent_f = entropy(feature[:,i])
        grain_ratio = grain / Ent_f#计算信息增益率
        Grain_ratio.append(grain_ratio)
   
    #通过比较得到最好的信息增益率以及维度
    best_entropy = 0
    best_dimension = 0
    for i in range(len_dimension):
       
        if Grain_ratio[i] > best_entropy:
            best_entropy = Grain_ratio[i]
            best_dimension = i  
           
    return best_entropy, best_dimension

3.3 CART决策树

CART决策树的结点划分,是遍历找出该属性集合中基尼系数(使用CART算法中的公式计算)最小的属性以及最佳的划分值

python 复制代码
#找到最小的基尼系数对应的属性维数以及对应的分类值
def one_split_CART(feature, label):
    
    len_data,len_dimension = np.shape(feature)
    #初始化所需要求的三个值
    best_entropy = 10000.0
    best_dimension = 10000
    best_value =10000    
    for i in range(len_dimension):
        split_feature,split_label = split(feature, label, i)
        unique_f = np.unique(feature[:,i])
        len_uni = len(unique_f)      
        Gini_index = []       
        for j in unique_f:
            #初始化所用到的计数器
            count1 = 0
            count2 = 0
            count3 = 0
            count4 = 0           
            #对二分类问题中的不同情况进行计数
            for k in range(len_data):
                if feature[k,i] == j:
                    count1 = count1 + 1
                    count2 = count2 + label[k]
                if feature[k,i] != j:
                    count3 = count3 +1
                    count4 = count4 + label[k]           
            p1 = count2/count1
            p2 = count4/count3
            #实现基尼系数的计算公式
            gini_D_1 = (count1/len_data) * ((1-p1)*(1-p1) +p1* p1)
            gini_D_2 = (count3/len_data) * ((1-p2)*(1-p2) +p2* p2)
            gini_index = gini_D_1 + gini_D_2
            Gini_index.append(gini_index)                      
        #通过比较找到最好的维度以及对应的分类值    
        for d in range(len_uni):
            if Gini_index[d] < best_entropy:
                best_entropy = Gini_index[d]
                best_dimension = i#对应的维度值i即为最佳维度
                best_value = unique_f[d]#此d对应的分类值即为最佳分类值           
    return best_entropy,best_dimension,best_value

决策树剪枝

剪枝分为预剪枝和后剪枝,预剪枝指在决策树生成过程中对每个节点先进行估计,如果划分能够带来准确率的上升,则进行划分,否则就不划分该节点;后剪枝则是在先使用训练集生成决策树,再对每个节点进行评估,若将其中节点替换能够提升决策树准确率,则替换,否则则不替换。

一般情况下,后剪枝的欠拟合风险小,泛化能力强于预剪枝。所以,我们这边选择实现后剪枝方法。

python 复制代码
import numpy as np
import pandas as pd
### 将数据进行转换
def drop_exist_feature(data,best_feature):
    attr = pd.unique(data[best_feature])
    new_data = [(nd,data[best_feature] == nd) for nd in attr]
    new_data = [(n[0],n[1].drop([best_feature],axis=1)) for n in new_data]
    return new_data
# 预测单条数据
def predict(Tree,test_data):
    first_feature = list(Tree.keys())[0]
    second_dict = Tree[first_feature]
    input_first = test_data.get(first_feature)
    input_value = second_dict[input_first]
    if is_dict(input_value,test_data): ## 判断是分支还是字典
        class_label = predict(input_value,test_data)
    else:
        class_label = input_value
    return class_label
#测试很多案例,话返回准确率
def predict_more(Tree, test_data, test_label):
    cnt = 0
    #计算如果该节点不剪枝的准确率
    for i in range(len(test_data)):
        after_data = test_data.reset_index().loc[i].to_dict()
        pred = predict(Tree,  after_data)
        if pred == test_label[i]:
            cnt += 1
    return cnt / len(test_label)
#用于预测节点剪枝后的预测正确数
def equalNums(label, featPreLabel):
    res = 0
    for l in label:
        if l == featPreLabel:
            res += 1
    return res
# 后剪枝
def post_purnning(tree,test_data,test_label,names):
    newTree = tree.copy()
    names = np.asarray(names)
    # 取决策点的名称,即特征名称
    feature_name = list(tree.keys())[0]
    # 取特征的列
    featcol =  np.argwhere(names==feature_name)[0][0]
    names = np.delet(names,[featcol])
    newTree[feature_name] = tree[feature_name].copy()
    feature_value_dict = newTree[feature_name]
    feature_pre_label = feature_value_dict.pop('prun_label')
   
    # 分割测试数据,如果有数据的话,则进行测试或者递归调用
    split_data = drop_exist_feature(test_data,feature_name)
    split_data = dict(split_data)
   
    for feature_value in feature_value_dict.keys():
        if type(feature_value_dict[feature_value]) == dict:
            split_data_feature = split_data[feature_value]
            split_data_label = split_data[feature_value].iloc[:,-1].values
            newTree[feature_name][feature_value] = post_purnning(   feature_value_dict[feature_value_dict],split_data_feature,split_data_label,split_data_feature.columns)
   
    ratio_PreDivision = equalNums(test_label, feature_pre_label) / test_label.size
        #计算如果该节点不剪枝的准确率
    ratioAfterDivision = predict_more(newTree, test_data, test_label)
    if ratioAfterDivision < ratio_PreDivision:
        newTree = feature_pre_label # 返回剪枝结果,其实也就是走到当前节点的数据最多的那一类
    return newTree
相关推荐
说私域1 小时前
社群团购平台的运营模式革新:以开源AI智能名片链动2+1模式商城小程序为例
人工智能·小程序
说私域1 小时前
移动电商的崛起与革新:以开源AI智能名片2+1链动模式S2B2C商城小程序为例的深度剖析
人工智能·小程序
cxr8281 小时前
智能体(Agent)如何具备自我决策能力的机理与实现方法
人工智能·自然语言处理
WBingJ1 小时前
机器学习基础-支持向量机SVM
人工智能·机器学习·支持向量机
QQ_7781329742 小时前
ChatGPT在数据分析与处理中的使用详解
机器学习·chatgpt
AI小欧同学2 小时前
【AIGC-ChatGPT进阶提示词指令】AI美食助手的设计与实现:Lisp风格系统提示词分析
人工智能·chatgpt·aigc
灵魂画师向阳2 小时前
【CSDN首发】Stable Diffusion从零到精通学习路线分享
人工智能·学习·计算机视觉·ai作画·stable diffusion·midjourney
Elastic 中国社区官方博客2 小时前
在不到 5 分钟的时间内将威胁情报 PDF 添加为 AI 助手的自定义知识
大数据·人工智能·安全·elasticsearch·搜索引擎·pdf·全文检索
埃菲尔铁塔_CV算法3 小时前
BOOST 在计算机视觉方面的应用及具体代码分析(二)
c++·人工智能·算法·机器学习·计算机视觉
Teng-Sun3 小时前
肘部法则确定聚类数
机器学习·支持向量机·聚类