ID3，C4.5，CART对比

ID3、C4.5和CART是三种经典的决策树算法，均用于分类或回归任务，但在核心思想、分裂标准、处理能力等方面存在差异。

ID3使用信息增益（Information Gain）作为分裂标准，倾向于选择取值较多的特征，可能导致过拟合。

C4.5改进为信息增益比（Gain Ratio），通过引入分裂信息（Split Information）惩罚多值特征，缓解了ID3的偏差。

CART采用基尼指数（Gini Index）或均方误差（MSE），前者用于分类，后者用于回归，计算效率更高且支持连续特征。

ID3和C4.5生成多叉树，每个节点的分支数等于特征取值个数。

CART生成二叉树，通过二元分裂（如"是/否"或阈值划分）简化模型结构，更适合处理连续特征。

ID3不支持缺失值和连续特征，需预处理。

C4.5可处理缺失值并通过阈值离散化连续特征。

CART直接支持连续特征，通过寻找最优分割点处理。

ID3无剪枝机制，依赖提前停止条件（如最大深度）。

C4.5采用悲观剪枝（Pessimistic Pruning），基于统计显著性检验。

CART使用代价复杂度剪枝（Cost-Complexity Pruning），通过交叉验证选择最优子树。

ID3适用于小型离散数据集，简单但易过拟合。

C4.5适合需要处理缺失值或多值特征的场景，泛化能力更强。

CART广泛应用于分类和回归任务，尤其是集成学习（如随机森林、GBDT）。

ID3和C4.5仅支持分类任务。

CART支持分类和回归，通过基尼指数或MSE切换任务类型。

信息增益（ID3） :

( \text{InfoGain}(D, A) = H(D) - \sum_{v \in \text{Values}(A)} \frac{|D_v|}{|D|} H(D_v) )

其中 ( H(D) ) 为数据集 ( D ) 的熵。
信息增益比（C4.5） :

( \text{GainRatio}(D, A) = \frac{\text{InfoGain}(D, A)}{\text{SplitInfo}(D, A)} )

( \text{SplitInfo}(D, A) = -\sum_{v \in \text{Values}(A)} \frac{|D_v|}{|D|} \log_2 \frac{|D_v|}{|D|} )
基尼指数（CART分类） :

( \text{Gini}(D) = 1 - \sum_{i=1}^k p_i^2 )

其中 ( p_i ) 为类别 ( i ) 的比例。
均方误差（CART回归） :

( \text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 )