机器学习-随机森林解析

目录

一、.随机森林的思想

二、随机森林构建步骤

1.自助采样

2.特征随机选择

3构建决策树

4.集成预测

[三. 随机森林的关键优势](#三. 随机森林的关键优势)

[​**(1) 减少过拟合**](#(1) 减少过拟合)

[​**(2) 高效并行化**](#(2) 高效并行化)

[​**(3) 特征重要性评估**](#(3) 特征重要性评估)

[​**(4) 耐抗噪声**](#(4) 耐抗噪声)

[四. 随机森林的优缺点](#四. 随机森林的优缺点)

​优点

​缺点

[五. 参数调优(以scikit-learn为例)​](#五. 参数调优(以scikit-learn为例))

波士顿房价预测


一、.随机森林的思想

1.通过组成多个弱学习器(决策树)形成一个学习器

2.多样性增强:每颗决策树通过特征随机选择和样本随机抽样生成,降低模型之间的相关性,减少过拟合风险

二、随机森林构建步骤

1.自助采样

从原始数据集中有放回的随机抽样(每个子集大小等于原始数据集)。

大约30%的数据未被抽中,形成"袋外样本"(Out-of-Bag, OOB),用于模型评估。

2.特征随机选择

每棵决策树在构建时,仅从所有特征中随机选择一个子集(例如,对于分类任务,通常选择 m=sqrt(n_feature) 个特征)

增加特征间的独立性,避免模型偏向特定特征

3构建决策树

对每个子集和特征组合,递归地生成决策树(使用与单棵决策树相同的算法,如CART)。

不进行剪枝(Pre-pruning),允许树完全生长。

4.集成预测

分类任务:所有树的预测结果按多数票决定最终类别

回归任务:所有树的预测结果取平均值

三. 随机森林的关键优势

​**(1) 减少过拟合**
  • 单棵决策树易过拟合,但多棵树的"平均效应"降低了方差。
  • 无需复杂的剪枝操作。
​**(2) 高效并行化**
  • 树之间相互独立,可通过并行计算加速训练。
​**(3) 特征重要性评估**
  • 通过统计每棵树中特征被选中的频率,量化其对最终预测的贡献度。
​**(4) 耐抗噪声**
  • 对缺失值和异常值不敏感(需适当处理缺失值)。

四. 随机森林的优缺点

优点
  • 高准确率:在大多数任务中表现优于单个决策树。
  • 可解释性:可通过特征重要性分析和可视化部分树结构。
  • 适应性强:支持分类、回归、特征选择等多种任务。
缺点
  • 计算资源消耗大:生成大量树需要更多内存和计算时间。
  • 对高维稀疏数据效果不佳:特征随机选择可能无法覆盖关键特征。
  • 黑箱化风险:相比单棵决策树,集成模型的解释性略低。

五. 参数调优(以scikit-learn为例)​

参数 作用 默认值
n_estimators 树的数量 100
max_depth 树的最大深度 None(不限制)
min_samples_split 内部节点最少分割样本数 2
max_features 每棵树使用的特征数量 auto(分类任务为√n)
bootstrap 是否使用自助采样 True

波士顿房价预测

python 复制代码
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston

# 加载数据
boston = load_boston()
X, y = boston.data, boston.target

# 创建随机森林回归模型
model = RandomForestRegressor(n_estimators=100, random_state=42)

# 训练模型
model.fit(X, y)

# 预测均值绝对误差(MAE)
y_pred = model.predict(X)
print(f"Mean Absolute Error: {np.mean(np.abs(y - y_pred)):.2f}")
相关推荐
希艾席帝恩13 分钟前
拥抱智慧物流时代:数字孪生技术的应用与前景
大数据·人工智能·低代码·数字化转型·业务系统
Bar_artist16 分钟前
离线智能破局,架构创新突围:RockAI与中国AI的“另一条车道”
大数据·人工智能
双向3322 分钟前
高性能MCP服务器架构设计:并发、缓存与监控
人工智能
weixin_4640780729 分钟前
机器学习sklearn:处理缺失值
人工智能·机器学习·sklearn
2202_7567496932 分钟前
04 基于sklearn的机械学习-梯度下降(上)
人工智能·算法·机器学习
图灵学术计算机论文辅导1 小时前
提示+掩膜+注意力=Mamba三连击,跨模态任务全面超越
论文阅读·人工智能·经验分享·科技·深度学习·考研·计算机视觉
Albert_Lsk2 小时前
【2025/08/01】GitHub 今日热门项目
人工智能·开源·github·开源协议
居然JuRan2 小时前
解锁GraphRAG:大模型背后的高效工作流
人工智能
牛客企业服务2 小时前
2025校招AI应用:校园招聘的革新与挑战
大数据·人工智能·机器学习·面试·职场和发展·求职招聘·语音识别
shilim2 小时前
这位老哥提交了一个12万行代码的PR,程序员看了都说LGTM
人工智能·github·代码规范