机器学习_10、集成学习-随机森林

随机森林算法

随机森林(Random Forest)是一种集成学习方法,特别用于分类、回归和其他任务,它通过构建多个决策树(Decision Trees)在训练时进行预测,并采用平均或多数投票的方式来提高整体模型的准确性和鲁棒性。随机森林是由Leo Breiman和Adele Cutler提出的,它结合了Bagging(Bootstrap Aggregating)的思想和随机特征选择来构建决策树的集合。

工作原理

随机森林的工作过程可以概括为以下几个步骤:

  1. 自助采样(Bootstrap sampling):从原始数据集中使用有放回的抽样方式随机选择N个样本,形成一个训练集。这个过程重复进行多次,每次生成的训练集都用来构建一个新的决策树。

  2. 随机选择特征:在构建决策树的每个分裂节点时,不是查看所有特征来选择最佳分裂特征,而是随机选择一部分特征候选集,并从中选择最佳分裂特征。这一步增加了模型的随机性,有助于提高模型的泛化能力。

  3. 构建决策树:对于每个训练集,构建一个决策树。决策树在训练过程中不进行剪枝,允许它们尽可能地生长到最大深度。

  4. 汇总结果

    • 对于分类任务,随机森林通过多数投票的方式确定最终的类别输出。
    • 对于回归任务,随机森林将所有决策树的预测结果取平均值作为最终的预测输出。

特点和优势

  • 准确性高:通过集成多个决策树,随机森林通常能够达到很高的准确率,并且相比单个决策树,它更不容易过拟合。
  • 鲁棒性强:随机森林能够处理大量数据集,即使数据具有高维特征并且存在少量的缺失数据也能很好地工作。
  • 变量重要性评估:随机森林能够提供关于特征重要性的估计,这对于理解数据集中哪些特征对预测变量贡献最大非常有用。
  • 适用范围广:随机森林可以用于分类和回归任务,也被用于异常点检测等其他机器学习任务中。

应用场景

随机森林因其出色的准确性、鲁棒性和易用性,在各种领域得到了广泛的应用,包括但不限于:

  • 医疗诊断

  • 金融风险评估

  • 股票市场分析

  • 客户行为预测

  • 图像分类和识别

  • 生物信息学和基因分类

    #coding=utf-8
    #RandomForestClassifier.py
    import numpy as np
    import pandas as pd
    from sklearn.model_selection import train_test_split
    from sklearn.ensemble import RandomForestClassifier

    加载数据

    filename="./glass.data"
    glass_data = pd.read_csv(filename,index_col=0,header=None)

    先从DataFrame中取出数组值(.value),只是为了方便后面显示

    X,y = glass_data.iloc[:,:-1].values, glass_data.iloc[:,-1].values
    #X,y = glass_data.iloc[:,:-1], glass_data.iloc[:,-1]

    划分训练集与测试集

    X_train, X_test, y_train, y_test = train_test_split(
    X, y, shuffle=True, stratify=y, random_state=1)

    建立模型

    rfc = RandomForestClassifier(max_depth=4,bootstrap=True,
    random_state=0)
    rfc.fit(X_train, y_train)
    print("训练集准确率:",rfc.score(X_train,y_train))
    print("测试集准确率:",rfc.score(X_test,y_test))
    print("测试集前2个样本的预测分类标签:",rfc.predict(X_test[:2]))
    print("测试集前2个样本的真实分类标签:",y_test[:2])
    print("测试集前2个样本所属标签概率的预测值:\n",
    rfc.predict_proba(X_test[:2]),sep="")

相关推荐
潮汐退涨月冷风霜1 小时前
机器学习之非监督学习(四)K-means 聚类算法
学习·算法·机器学习
LQS20201 小时前
机器学习与深度学习之间的区别
机器学习
B站计算机毕业设计超人2 小时前
计算机毕业设计Python+Flask微博情感分析 微博舆情预测 微博爬虫 微博大数据 舆情分析系统 大数据毕业设计 NLP文本分类 机器学习 深度学习 AI
爬虫·python·深度学习·算法·机器学习·自然语言处理·数据可视化
羊小猪~~2 小时前
深度学习基础案例5--VGG16人脸识别(体验学习的痛苦与乐趣)
人工智能·python·深度学习·学习·算法·机器学习·cnn
开MINI的工科男4 小时前
深蓝学院-- 量产自动驾驶中的规划控制算法 小鹏
人工智能·机器学习·自动驾驶
AI大模型知识分享5 小时前
Prompt最佳实践|如何用参考文本让ChatGPT答案更精准?
人工智能·深度学习·机器学习·chatgpt·prompt·gpt-3
小言从不摸鱼7 小时前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt
Lossya11 小时前
【机器学习】参数学习的基本概念以及贝叶斯网络的参数学习和马尔可夫随机场的参数学习
人工智能·学习·机器学习·贝叶斯网络·马尔科夫随机场·参数学习
Trouvaille ~11 小时前
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
图像处理·python·机器学习·numpy·信号处理·时间序列分析·科学计算
qq_5503379914 小时前
研1日记14
人工智能·深度学习·机器学习