基于随机森林的红酒质量等级预测分类

1.作者介绍

李思蓉，女，西安工程大学电子信息学院，2025级研究生

研究方向：玻璃纤维低介电布表面缺陷视觉检测及分类算法研究

电子邮件：++++1332457612@qq.com++++

董柯帆，男，西安工程大学电子信息学院，2025级研究生，张宏伟人工智能课题组

研究方向：机器视觉与人工智能

电子邮件：867068473@qq.com

2 算法介绍

2.1 随机森林算法介绍

随机森林是一种集成学习（Ensemble Learning）算法，它通过构建多棵决策树（Decision Trees）并将它们的预测结果结合起来，从而获得更准确、更稳定的分类结果。它的原理类似于"三个臭皮匠，顶个诸葛亮"。由于单棵决策树容易过拟合，因此随机森林通过引入随机数据和特征让森林中的每棵树都有所不同，最后通过少数服从多数的投票制决定最终分类。核心机制主要有三个：第一，自助采样法，从原始数据中有放回地抽取样本，为每棵树创建一个独立的子训练集；第二，特征随机性，在分裂节点时，不是从所有特征中选最优，而是随机选取一部分特征进行评估；第三，众数投票，预测时，所有树各自给出结果，森林选择出现次数最多的类别。

随机森林算法用于红酒品质分类的完整过程，如图1所示，首先输入红酒理化指标数据，模型通过多棵基于不同样本与特征训练的独立决策树并行预测，各树输出独立分类结果后，采用投票汇总的方式，按少数服从多数规则得到最终预测，本实验中判定该红酒为优质酒（类别2）。

图1 随机森林算法流程示意图

图2 随机森林算法伪代码

该伪代码描述了一种基于随机森林的红酒品质三分类算法流程，如图2所示，首先对含理化特征与品质评分的红酒数据集进行预处理，将品质评分映射为一般、良好、优质三类标签，并按8:2划分为训练集与测试集；随后在训练阶段通过Bootstrap有放回抽样和随机特征子集选择，并行构建100棵独立决策树组成随机森林；最后在预测阶段对测试集样本采用多数投票规则输出分类结果，并计算准确率、混淆矩阵等评估指标，最终返回训练完成的模型与评估结果。

2.2 决策树算法介绍

由于随机森林是由多个决策树集成的，因此决策树的算法至关重要。图3展示了基于基尼指数的CART分类决策树构建流程，算法从输入当前节点数据集与可用特征集开始，首先计算节点基尼不纯度并检查停止分裂条件，若满足条件则生成叶子节点并标记类别；若不满足，则初始化最优分裂参数，遍历所有特征与切分点，对每个划分方案计算加权基尼指数，筛选出基尼指数最小的最优特征与切分点，随后依据最优方案将节点分裂为左右子节点，并对子节点递归执行上述流程，直至所有节点均满足停止分裂条件，完成整棵决策树的构建。

图3 基于基尼指数的CART分类决策树计算步骤

图4 程序里随机森林中的第一个决策树（前三层）可视化图

图4为红酒品质分类任务中一棵CART决策树的可视化结果，整棵树共包含820个训练样本，构建以基尼指数为分裂依据，以硫酸盐（sulphates≤0.675）作为根节点特征（基尼系数为0.294，节点内 $一般,良好,优质$ 样本分布为 $54,1061,164$ ，预测类别为"良好"），后续通过氯化物（chlorides≤0.061）、酒精度（alcohol≤11.15）、挥发性酸度（volatile acidity≤0.97）、游离二氧化硫（free sulfur dioxide≤18.5）等理化指标的阈值条件递归分裂，最终将样本划分为一般、良好、优质三类；节点内的基尼系数、样本数、类别分布与预测标签直观呈现了各分裂节点的数据纯度与分类逻辑，其中左下角的橙色节点基尼不纯度为0，代表该节点内的3个样本全部为"一般"品质，数据完全纯净，无需进一步分裂即可直接输出分类结果；整体来看，硫酸盐、酒精度、游离二氧化硫等指标是区分红酒品质的关键特征，同时也反映出训练集中"良好"品质样本占比最高、优质红酒需多指标协同达标等数据分布特点，为红酒品质分类提供了可解释的决策依据。

3．实验过程

3.1 数据集介绍

本研究使用来源于UCI机器学习存储库的Wine Quality Data Set（红葡萄酒质量数据集），发布于2009年。该数据集的样本数量为1599个样本，主要为11个理化特征（如表1所示）和1个质量分(3-8分的标签)，在本次研究中将该数据集分为三类，分别为3-4分（一般）、4-5分（良好）、7-8分（优质酒）。

表1 数据集中11个理化特征

|----------------------|--------|
| fixed acidity | 固定酸度 |
| volatile acidity | 挥发性酸度 |
| citric acid | 柠檬酸 |
| residual sugar | 残留糖分 |
| chlorides | 氯化物 |
| free sulfur dioxide | 游离二氧化硫 |
| total sulfur dioxide | 总二氧化硫 |
| density | 密度 |
| pH | 酸碱度 |
| sulphates | 硫酸盐 |
| alcohol | 酒精含量 |

3.2 代码实现

本次实验系统选用Windows11 64位；软件环境的核心语言为Python3.9.23，使用VS Code作为开发IDE，借助Anaconda3管理环境，同时配置numpy、pandas、scikitlearn、matplotlib、seaborn、imbalancedlearn、joblib等指定版本及以上的第三方库开展实验,具体实验硬件条件和环境配置如表2、3所示。

表2 实验硬件条件

|--------------|-----------------------------------------|
| 硬件组件 | 配置详情 |
| 处理器（CPU） | 英特尔酷睿 i5/i7或AMD锐龙 5/7 |
| 内存 (RAM) | 16GB/32GB DDR4 |
| 硬盘（存储） | 512GB/1TB SSD（SSD硬盘） |
| 显卡（GPU） | NVIDIA GeForce GTX/RTX 系列 |
| 操作系统 | Windows 10/11 64位或Ubuntu 20.04+ (Linux) |

表3 实验环境配置

|--------------------------|-----------------------------------|
| 软件/环境组件 | 版本/类型详情 |
| 核心程序语言 | Python 3.9.x / 3.10.x / 3.11.x 系列 |
| 开发环境（IDE） | VS Code 或 PyCharm |
| 环境与包管理器 | Anaconda / Miniconda 4.x+ (任选) |
| 核心计算库（numpy） | 1.21.0及以上版本 |
| 数据处理库（pandas） | 1.3.0及以上版本 |
| 机器学习库 (scikit-learn) | 1.0.0及以上版本 |
| 数据可视化库(matplotlib) | 3.4.0及以上版本 |
| 统计可视化库(seaborn) | 0.11.0及以上版本 |
| 不平衡学习库（imbalanced-learn） | 0.8.0及以上版本 |
| 模型序列化库(joblib) | 1.1.0及以上版本 |

训练代码的关键部分与注释如下：

python 复制代码

质量等级分类映射
def categorize_quality(quality):
    """将质量评分转换为三分类"""
    if quality in [3, 4]:
        return 0  # 一般
    elif quality in [5, 6]:
        return 1  # 良好
    else:  # 7, 8
        return 2  # 优质

数据集划分
    # 2. 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42, stratify=y
    )
    print(f"\n数据划分:")
    print(f"  训练集: {X_train.shape[0]} 样本")
print(f"  测试集: {X_test.shape[0]} 样本")

随机森林模型训练与保存
def train_random_forest(X_train, y_train, n_estimators=100, random_state=42):
    """训练随机森林模型"""
    print("\n" + "=" * 60)
    print("训练随机森林模型")
    print("=" * 60)

    rf = RandomForestClassifier(
        n_estimators=n_estimators,
        random_state=random_state,
        max_depth=None,
        min_samples_split=2,
        min_samples_leaf=1,
        n_jobs=-1
    )

    rf.fit(X_train, y_train)
    print(f"随机森林训练完成")
    print(f"  树的数量: {n_estimators}")
    print(f"  特征数量: {X_train.shape[1]}")

    return rf

模型预测与评估
def evaluate_model(rf, X_test, y_test, feature_names):
    """评估模型性能"""
    print("\n" + "=" * 60)
    print("模型评估指标")
    print("=" * 60)

    # 预测
    y_pred = rf.predict(X_test)

    # 准确率
    accuracy = accuracy_score(y_test, y_pred)
    print(f"\n整体准确率: {accuracy:.4f} ({accuracy*100:.2f}%)")

    # 详细分类指标
    print("\n分类详细指标:")
    print("-" * 60)
    report = classification_report(
        y_test, y_pred,
        target_names=['一般(3-4)', '良好(5-6)', '优质(7-8)'],
        digits=4
    )
    print(report)

    # 计算每类的精确率、召回率、F1分数
    precision, recall, f1, support = precision_recall_fscore_support(
        y_test, y_pred, average=None
    )

    print("\n各类别指标汇总:")
    print("-" * 60)
    for i, category in enumerate(['一般(3-4)', '良好(5-6)', '优质(7-8)']):
        print(f"{category}:")
        print(f"  精确率 (Precision): {precision[i]:.4f}")
        print(f"  召回率 (Recall):    {recall[i]:.4f}")
        print(f"  F1分数 (F1-Score):  {f1[i]:.4f}")
        print(f"  样本数 (Support):   {support[i]}")
        print()

return y_pred, accuracy

预测分类代码的关键部分与注释如下：
模型加载
# 加载训练好的模型
model_path = r'D:\AI\Random Forest\random_forest_model_smote.pkl'
with open(model_path, 'rb') as f:
    rf = pickle.load(f)


新数据读取与预处理
# 读取新数据（不包含quality列）
new_data_path = r'D:\AI\Random Forest\new_wine_samples.csv'
df_new = pd.read_csv(new_data_path, sep=';')

print(f"\n新数据形状: {df_new.shape}")
print(f"特征列: {list(df_new.columns)}")
print("\n注意：新数据不包含'quality'列（这正是我们需要预测的）")

# 准备特征（全部列都是特征）
X_new = df_new.values
预测执行与结果打印
# 进行预测
y_pred = rf.predict(X_new)
y_pred_proba = rf.predict_proba(X_new)

# 类别名称
category_names = {0: '一般(3-4)', 1: '良好(5-6)', 2: '优质(7-8)'}

# 输出预测结果
print("\n" + "=" * 60)
print("预测结果")
print("=" * 60)

for i in range(len(y_pred)):
    pred_class = y_pred[i]
    prob = y_pred_proba[i]
    confidence = np.max(prob)

    print(f"\n样本 {i+1}:")
    print(f"  预测质量等级: {category_names[pred_class]}")
    print(f"  置信度: {confidence:.4f} ({confidence*100:.2f}%)")
    print(f"  各类别概率:")
    for j, cat in enumerate(['一般', '良好', '优质']):
        print(f"    {cat}: {prob[j]:.4f} ({prob[j]*100:.2f}%)")

# 统计预测结果
print("\n" + "=" * 60)
print("预测结果统计")
print("=" * 60)

unique, counts = np.unique(y_pred, return_counts=True)
for idx, count in zip(unique, counts):
    print(f"  {category_names[idx]}: {count} 样本 ({count/len(y_pred)*100:.1f}%)")
结果保存
# 保存预测结果
results = pd.DataFrame({
    'sample_id': range(1, len(y_pred) + 1),
    'predicted_class': [category_names[p] for p in y_pred],
    'confidence': np.max(y_pred_proba, axis=1)
})

# 添加各类别概率
for i, cat in enumerate(['prob_一般', 'prob_良好', 'prob_优质']):
    results[cat] = y_pred_proba[:, i]

output_path = r'D:\AI\Random Forest\new_samples_prediction_results.csv'
results.to_csv(output_path, index=False, encoding='utf-8-sig')
print(f"\n预测结果已保存到: {output_path}")

3.3 结果分析

该实验基于包含1599条样本、11个理化特征的红酒数据集开展，如图5所示，将原始品质评分合并为"一般""良好""优质"三类，按8:2划分为1279条训练集与320条测试集，构建含100棵决策树的随机森林模型；模型整体准确率达88.75%，但受类别分布不均衡影响，各类别表现差异显著。占比82.5%的"良好"类样本识别效果优异，精确率90.14%、召回率96.97%、F1分数93.43%；占比13.6%的"优质"类样本表现中等，F1分数为70.89%；而仅占3.9%的"一般"类样本则因训练样本不足，精确率、召回率与F1分数均为0，模型完全无法识别，宏平均F1分数仅54.77%，反映出模型对少数类的识别能力存在明显短板，整体性能受多数类主导，后续可通过采样或类别权重调整优化模型的均衡识别能力。

图5 训练打印结果

混淆矩阵热力图直观呈现了随机森林模型的分类表现，如图6所示，模型对测试集中占比最高的"良好"品质样本识别效果优异，264个样本中256个被正确预测，仅8个误判为"优质"；但受类别不平衡影响，模型对少数类识别能力不足，13个"一般"品质样本全部被误判为"良好"，43个"优质"品质样本中有15个被误判为"良好"，存在明显偏向多数类的偏差；右侧特征重要性排序则显示，酒精度是影响红酒品质分类的最关键特征，其次为挥发性酸度和硫酸盐，pH值、游离二氧化硫等特征贡献度相对较低，为后续模型优化与红酒品质分析提供了明确的特征优先级参考。

图6 训练模型的混淆矩阵和特征重要性排序

在进行基于随机森林的红酒质量等级预测分类时，新构建的数据集总共6个，每个数据集只有11个理化特征，如图7所示。

图7 新构建的数据集

最终预测结展示了随机森林模型对6个红酒样本的分类表现，如图8所示，其中4个样本被预测为"良好"品质、2个被预测为"优质"品质，无样本被预测为"一般"品质，与训练集的类别分布高度一致；样本1、5、6的预测置信度较，类别概率分布差异显著，模型判断清晰；而样本2、3、4的置信度仅为50%-55%，类别概率分布接近，模型对这类边界样本的判断存在明显犹豫，易出现混淆；整体来看，模型对区分度较高的样本识别效果稳定，但受类别不平衡影响，无法识别"一般"类样本，且对边界样本的置信度不足，实际应用中需对低置信度结果进行复核，并优化少数类样本的识别能力。

图8 预测结果

3.4 问题与分析

问题：由于"一般(3-4)"类别仅占总样本的3.9%，大多数类与少数类样本比高达20:9:1。随机森林的分割标准倾向于优化整体准确率而忽略少数类实验模式，导致难以学习有效的决策边界。尽管模型验证，整体准确率达到88.75%，但对"一般"类别的识别完全失效,类别指标最高0，如表4所示，因此本研究采用SMOTE处理类别不平衡数据的问题。

表4 类别不平衡导致的结果

|---------|----------------|----------------|----------------|-----|
| 类别 | 精确率 | 召回率 | F1 分数 | 样本数 |
| 一般 (34) | 0.0000 | 0.0000 | 0.0000 | 13 |
| 良好 (56) | 0.9014 | 0.9697 | 0.9343 | 264 |
| 优质 (78) | 0.7778 | 0.6512 | 0.7089 | 43 |

解决方法：利用SMOTE在特征空间中，对极少数样本进行采样k个最近邻样本进行线性插值，从而生成全新的非重复合成样本以改善类别分配。如图9所示，该伪代码描述了多分类SMOTE算法的完整流程，旨在通过过采样解决多分类任务中的类别不平衡问题：算法以原始特征矩阵X、目标标签向量y及近邻数k（默认值为5）为输入，首先统计各类别样本数量，将样本数最多的多数类规模maj_N设为少数类的补齐目标，并初始化合成样本存储空间；随后遍历每个少数类标签，提取该类所有原始样本并计算需合成的样本数量，通过循环生成新样本：先从当前少数类中随机选取根样本x，再从其k个同类近邻中随机选取一个近邻样本x_neigh，生成0到1之间的随机插值因子λ，通过核心公式x_new=x+λ×(x_neigh-x)线性插值生成新的特征向量，将新样本特征与对应标签存入合成样本列表，直至少数类样本数与多数类持平；最后将原始数据与所有合成样本合并，输出类别平衡后的数据集(X_bal,y_bal)，为后续模型训练提供均衡的数据基础。

图9 SMOTE算法伪代码

本研究采用SMOTE过采样算法对不平衡红酒品质数据集进行处理，如图10所示，过采样前，训练集中"一般""良好""优质"三类样本数分别为50、1055、174，类别分布严重失衡，模型对"一般"类样本的精确率与召回率均为0.00%，完全无法识别少数类；经SMOTE过采样后，三类样本数均被平衡至1055个，训练集规模由1279条扩展至3165条，新增合成样本1886条，有效消除了类别不平衡问题；对比实验结果表明，过采样后模型对"一般"类样本的精确率提升至33.33%、召回率提升至38.46%，实现了对少数类样本的有效识别，证明SMOTE算法能够显著改善模型在不平衡数据上的偏置问题，提升多分类任务中少数类样本的识别性能。

图10 在训练模型中加入SMOTE后的结果

4. 代码附录

wine_quality_rf_train .py