模式识别与机器学习(十二):随机森林

原理

随机森林(Random Forest, RF)是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging集成的基础上,在决策树的训练过程中引入随机属性选择。训练每颗决策树时随机选出部分特征作为输入,所以该算法被称为随机森林算法。

在RF中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集(假定有d个属性),然后再从这个子集中选择一个最优属性用于划分。参数k控制了随机性的引入程度,一般情况下推荐 k = log ⁡ 2 d \mathrm{k}=\log_{2}\mathrm{d} k=log2d。随机森林的具体形式如下图:

假设训练集 T 的大小为 N ,特征数目为 M ,随机森林的大小为 K ,随机森林算法的具体步骤如下:

1.遍历随机森林的大小 K 次:

(1).从训练集 T 中有放回抽样的方式,取样N 次形成一个新子训练集 D

(2).随机选择 m 个特征,其中 m < M

(3).使用新的训练集 D 和 m 个特征,学习出一个完整的决策树

2.得到随机森林

实现

python 复制代码
from sklearn.model_selection import KFold
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
import numpy as np

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 创建5折交叉验证器
kf = KFold(n_splits=5, random_state=42, shuffle=True)

# 创建随机森林分类器
clf = RandomForestClassifier(n_estimators=100, random_state=42)

# 存储每折的准确率
accuracies = []

# 进行5折交叉验证
for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    # 训练模型
    clf.fit(X_train, y_train)

    # 预测测试集
    y_pred = clf.predict(X_test)

    # 计算准确率
    accuracy = accuracy_score(y_test, y_pred)
    accuracies.append(accuracy)

# 计算平均准确率
average_accuracy = np.mean(accuracies)
print(f'Average accuracy: {average_accuracy}')

这段代码首先加载了鸢尾花数据集,并创建了一个5折交叉验证器和一个随机森林分类器。然后,对每一折的数据进行训练和测试,并计算了每一折的准确率。最后,计算了平均准确率。

相关推荐
亦复何言??2 分钟前
BeyondMimic 论文解析
人工智能·算法·机器人
Lee川5 分钟前
🛠️ LangChain Tools 实战指南:让 AI 拥有“动手能力”
人工智能
gorgeous(๑>؂<๑)6 分钟前
【CVPR26-索尼】EW-DETR:通过增量低秩检测Transformer实现动态世界目标检测
人工智能·深度学习·目标检测·计算机视觉·transformer
xianluohuanxiang10 分钟前
新能源功率预测的“生死局”:从“能报曲线”到“能做收益”,中间差的不是一点算法
人工智能
码农垦荒笔记27 分钟前
Claude Code 2026 年 3 月全面进化:Auto 模式、Computer Use 与云端持续执行重塑 AI 编程工作流
人工智能·ai 编程·claude code·agentic coding·computer use
threerocks33 分钟前
【Claude Code 系列课程】01 | Claude Code 架构全览
人工智能·ai编程·claude
熊猫代跑得快35 分钟前
Agent 通用架构入门学习
人工智能·agent·智能体
格林威35 分钟前
Baumer相机锂电池极片裁切毛刺检测:防止内部短路的 5 个核心方法,附 OpenCV+Halcon 实战代码!
开发语言·人工智能·数码相机·opencv·计算机视觉·c#·视觉检测
codeの诱惑38 分钟前
推荐算法(一):数学基础回顾——勾股定理与欧氏距离
算法·机器学习·推荐算法
codeの诱惑39 分钟前
推荐算法(三):余弦定理和余弦相似度的关系及公式推导
人工智能·机器学习·推荐算法