模型训练-上
机器学习问题可以分为监督学习与非监督学习。按使用场景不同,监督学习分为回归、分类和协同过滤;而非监督学习分为聚类与频繁项集。
决策树系统算法
决策树是一种根据样本特征向量而构建的树形结构。决策树由节点与有向边组成,其中节点又分为两类,一类是内部节点,一类是叶子节点。内部节点表示的是样本特征,而叶子节点代表分类。决策树的推理过程,与人类的决策过程非常相似的。
数据样本的纯度,决定了模型算法选择哪些特征作为内部节点,同时也决定着决策树何时收敛。所谓样本纯度,简单地说,就是标签的多样性。对于一个集中的样本,如果样本的标签都一样,也即标签的多样性为1,那么就说这个集合的样本纯度很高。
Random Forest
Random Forest又叫随机森林。通过构建多个决策树并结合它们的预测结果来提高模型的准确性和鲁棒性。它属于Bagging(Bootstrap Aggregating)算法的一种,通过随机采样和特征选择降低过拟合风险。
随机森林通过以下方式生成多个决策树:
- 从原始数据集中进行有放回的随机采样(Bootstrap采样),生成多个子数据集。
- 对每个子数据集训练一棵决策树,且在每次分裂时随机选择部分特征进行最优分裂。
- 最终通过投票(分类)或平均(回归)方式整合所有树的预测结果
随机森林的优点
- 抗过拟合能力强:通过随机采样和特征选择降低方差。
- 处理高维数据:适用于特征数量较多的数据集。
- 鲁棒性好:对缺失值和噪声数据不敏感。
- 可并行化训练:每棵树独立训练,适合分布式计算。
随机森林的缺点
- 解释性较差:相比单棵决策树,随机森林的决策过程更复杂。
- 训练时间较长:树的数量较多时,训练和预测开销较大。
- 对噪声敏感:若数据中存在大量噪声,可能影响性能。