2024年中国研究生数学建模竞赛B题 (WLAN组网吞吐量机理建模+GBDT+LSTM 进阶建模文章)

全文请从 底部名片 处获取哦~

问题重述和分析

问题重述

本题旨在基于实际测量的WLAN（无线局域网）数据，建立一个精确的系统吞吐量预测模型。具体而言，提供了多个包含网络拓扑、业务流量、节点间RSSI、信道接入机制等基本信息的测试集，以及部分统计信息，如AP（接入点）的发送时长、选用的调制编码方案（MCS）、空间流数（NSS）、丢包率（PER）、吞吐量等。

需要解决的问题包括：

分析各参数对AP发送机会（发送数据帧序列的总时长）的影响，并预测AP的发送机会。
建立模型，预测AP发送数据时选用最多次数的（MCS, NSS）。
建立模型，预测系统的总吞吐量。
对模型的精度进行评估，绘制预测误差的累积分布函数（CDF），并计算模型的精度。

整体问题分析

赛题的核心是建立一个能够准确预测WLAN系统吞吐量的模型。在高密度部署场景下，节点密集度增加，导致干扰和碰撞加剧，实际带宽和数据传输速率下降。因此，需要准确地预测吞吐量，以优化WLAN系统性能。

主要挑战：

多因素耦合：节点间的RSSI、CCA门限、NAV机制、业务流量等因素相互影响，导致AP的发送机会和PHY层参数的选择具有复杂性。
数据复杂性：提供的数据集包含大量的参数，需要从中提取关键特征，并进行合理的简化和假设。
建模精度要求高：需要在模型中充分考虑各种影响因素，以满足赛题对预测精度的要求。

数据说明分析

赛题提供的数据集主要分为两部分：

测试基本信息：包括网络拓扑、业务流量、门限、节点间RSSI等。这些信息作为模型的输入参数，需要分析其对AP发送机会和PHY层参数的影响。
数据帧统计信息：包括AP发送数据的时长、选用的（MCS, NSS）、丢包率（PER）、吞吐量等。这些信息作为模型的输出参数，或者用于模型验证。

需要特别注意的是：

RSSI的多种形式：不同的RSSI用于不同的判决，如最大值用于CCA门限判决，平均值用于NAV门限判决，所有天线RSSI的和用于解码信号。
业务流量类型：UDP和TCP流量的特性不同，影响AP的发送行为，需要在模型中区分处理。

附录资料深入分析

随机回退和二进制指数退避算法

AP在信道竞争中采用二进制指数退避算法来决定发送时机。

竞争窗口（CW）在每次传输失败后翻倍，传输成功后重置为CWmin。

退避计数器（BO）在 0 , C W − 1 0, CW - 1 0,CW−1范围内随机选取，决定了回退的时隙数。

数据帧序列和RTS-CTS机制

采用RTS-CTS机制可以减少碰撞，提高信道利用率。

一个完整的帧序列包括：RTS、CTS、数据帧、ACK，以及相应的帧间隔（DIFS、SIFS）。

聚合机制

采用AMSDU和AMPDU聚合，可以提高小包传输的效率。

聚合的PPDU时长不超过4.5ms，聚合的MSDU和MPDU个数有限制。

业务流量类型

UDP流量 ：单向数据流，报文大小为1500 Bytes，发送间隔服从泊松分布。
TCP流量：双向数据流，需要考虑上行的TCP ACK。

问题建模与求解

问题一：AP发送机会的分析与预测

目标：根据实测数据，分析各参数对AP发送机会（seq_time）的影响，并预测AP的发送机会。

分析各参数对AP发送机会的影响

节点间RSSI

影响：AP之间的RSSI决定了它们是否能"听"到彼此，以及干扰的程度。
情况分析 ：
RSSI > ED门限（-62dBm） ：AP能够检测到对方的传输，避免同时发送，导致发送机会减少。
NAV门限 < RSSI ≤ PD门限（-82dBm） ：AP可能错过对方的Preamble，导致异步传输，增加发送机会，但也可能增加碰撞概率。
RSSI ≤ NAV门限：AP无法感知对方的存在，可能导致更多的信道占用。

CCA门限

影响：CCA门限决定了AP对信道忙闲的判断。
判决规则 ：
包检测（PD）门限 ：用于检测Wi-Fi报文的Preamble。
能量检测（ED）门限 ：用于检测非Wi-Fi报文。
判决条件 ：
RSSI max ≥ PD ⟹ 信道繁忙 \text{RSSI}_{\text{max}} \geq \text{PD} \implies \text{信道繁忙} RSSImax≥PD⟹信道繁忙

PD > RSSI max ≥ ED ⟹ 信道繁忙 \text{PD} > \text{RSSI}_{\text{max}} \geq \text{ED} \implies \text{信道繁忙} PD>RSSImax≥ED⟹信道繁忙

RSSI max < ED ⟹ 信道空闲 \text{RSSI}_{\text{max}} < \text{ED} \implies \text{信道空闲} RSSImax<ED⟹信道空闲

NAV机制

影响：NAV门限决定了AP是否会进入静默期。
情况分析 ：
RSSI ≥ NAV门限 ：AP接收到相邻AP的帧，更新NAV，进入静默期，发送机会减少。
RSSI < NAV门限：AP无法更新NAV，不进入静默期，可能导致信道竞争加剧。

业务流量

影响：业务流量的类型（UDP/TCP）、数据包大小、发送间隔等影响AP的发送需求。
分析：
UDP流量 ：发送间隔服从泊松分布，发送需求较稳定。
TCP流量：由于需要接收TCP ACK，发送需求可能受到网络状况影响。

影响性强弱排序

节点间RSSI
CCA门限
NAV机制
业务流量参数

建模方法

数据预处理

输入特征提取 ：

节点间RSSI： RSSI AP i − AP j \text{RSSI}_{\text{AP}_i-\text{AP}_j} RSSIAPi−APj

CCA门限：PD、ED值

NAV门限：NAV值

业务流量参数：协议类型、数据包长度（pkt_len）

统计分析

相关性分析 ：

计算各输入特征与seq_time的皮尔逊相关系数。

识别主要影响因素。

可视化 ：

绘制散点图，观察特征与seq_time之间的关系。

可能发现线性或非线性的关系。

数学建模

多元回归模型 ：

建立回归模型，将seq_time作为因变量，输入特征作为自变量。

回归模型形式：
seq_time i = β 0 + β 1 ⋅ RSSI i + β 2 ⋅ CCA i + β 3 ⋅ NAV i + β 4 ⋅ Traffic i + ε i \text{seq\time}i = \beta_0 + \beta_1 \cdot \text{RSSI}{i} + \beta_2 \cdot \text{CCA}{i} + \beta_3 \cdot \text{NAV}{i} + \beta_4 \cdot \text{Traffic}{i} + \varepsilon_i seq_timei=β0+β1⋅RSSIi+β2⋅CCAi+β3⋅NAVi+β4⋅Traffici+εi

其中， β 0 , β 1 , β 2 , β 3 , β 4 \beta_0, \beta_1, \beta_2, \beta_3, \beta_4 β0,β1,β2,β3,β4为回归系数， ε i \varepsilon_i εi为误差项。

非线性模型 ：

如果发现特征与seq_time之间的关系非线性，可以考虑多项式回归或对数变换。

机器学习模型

模型选择 ：

决策树、随机森林、支持向量机（SVM）、人工神经网络（ANN）等。

优点：

能够捕捉复杂的非线性关系。

对于高维特征具有较好的处理能力。

模型训练与验证

训练集与验证集划分 ：

使用交叉验证或留出法，评估模型的泛化能力。

模型评估指标 ：

均方误差（MSE）、平均绝对误差（MAE）、决定系数（ R 2 R^2 R2）等。

预测测试集

使用训练好的模型，对test_set_1_2ap和test_set_1_3ap进行预测，得到每个AP的seq_time。

数学公式与推导

发送概率模型

假设：

AP采用CSMA/CA机制，发送概率与竞争窗口有关。

发送概率 ：
τ i = 2 W i + 1 \tau_i = \frac{2}{W_i + 1} τi=Wi+12

其中， W i W_i Wi为AP_i的竞争窗口大小。

碰撞概率

AP_i的碰撞概率 ：
P collision , i = 1 − ∏ j ≠ i ( 1 − τ j ) P_{\text{collision}, i} = 1 - \prod_{j \neq i} (1 - \tau_j) Pcollision,i=1−j=i∏(1−τj)

成功发送概率

AP_i的成功发送概率 ：
P success , i = τ i ∏ j ≠ i ( 1 − τ j ) P_{\text{success}, i} = \tau_i \prod_{j \neq i} (1 - \tau_j) Psuccess,i=τij=i∏(1−τj)

平均发送时长

AP_i的平均发送时长 ：
seq_time i = test_dur × P success , i × T tx \text{seq\_time}i = \text{test\dur} \times P{\text{success}, i} \times T{\text{tx}} seq_timei=test_dur×Psuccess,i×Ttx

其中， T tx T_{\text{tx}} Ttx为一次成功发送的时长。

代码和可视化结果如下

python 复制代码

# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

# 设置中文字体
from matplotlib import rcParams

rcParams['font.sans-serif'] = ['SimHei']
rcParams['axes.unicode_minus'] = False


# 读取数据
training_data_path = 'training_set_2ap_loc0_nav82.csv'
test_data_path = 'test_set_1_2ap.csv'

# 加载数据集
df_train = pd.read_csv(training_data_path)
df_test = pd.read_csv(test_data_path)

# 打印训练数据和测试数据的前几行，了解数据结构
print("训练数据前几行：")
print(df_train.head())
print("测试数据前几行：")
print(df_test.head())

# 数据分析
print("训练数据的描述性统计：")
print(df_train.describe())

# 缺失值分析
print("训练数据的缺失值统计：")
print(df_train.isnull().sum())

# 将数据分为数值列和非数值列

# 全文详见底部名片加群获取~


# 将数值列和分类列合并
df_train_imputed = pd.concat([df_train_numeric_imputed, df_train_categorical_imputed], axis=1)

# 对分类列进行编码（Label Encoding）
label_encoders = {}
for col in categorical_cols:
    le = LabelEncoder()
    df_train_imputed[col] = le.fit_transform(df_train_imputed[col])
    label_encoders[col] = le

# 假设目标列是 'throughput'，如果实际目标列不同，请根据实际情况修改
if 'throughput' in df_train.columns:
    X = df_train_imputed.drop(columns=['throughput'])  # 特征
    y = df_train_imputed['throughput']  # 目标
else:
    raise KeyError("训练数据中没有找到目标列 'throughput'，请检查列名或修改代码中的目标列名称")

# 划分训练集和验证集
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.8, random_state=42)

# 创建GBDT模型
gbdt = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# 训练模型
gbdt.fit(X_train, y_train)

# 训练集和验证集上的预测
y_train_pred = gbdt.predict(X_train)
y_valid_pred = gbdt.predict(X_valid)

# 计算RMSE
train_rmse = np.sqrt(mean_squared_error(y_train, y_train_pred))
valid_rmse = np.sqrt(mean_squared_error(y_valid, y_valid_pred))

print(f"训练集上的RMSE: {train_rmse}")
print(f"验证集上的RMSE: {valid_rmse}")

# 对测试数据进行同样的预处理
df_test_numeric_imputed = pd.DataFrame(imputer_numeric.transform(df_test[numeric_cols]), columns=numeric_cols)
df_test_categorical_imputed = pd.DataFrame(imputer_categorical.transform(df_test[categorical_cols]), columns=categorical_cols)

# 将数值列和分类列合并
df_test_imputed = pd.concat([df_test_numeric_imputed, df_test_categorical_imputed], axis=1)

# 对测试数据的分类列进行编码（与训练数据一致），并处理新的标签
for col in categorical_cols:
    if col in label_encoders:
        le = label_encoders[col]
        # 处理未见过的标签，将新标签映射为一个特殊的未知标签编码
        df_test_imputed[col] = df_test_imputed[col].apply(lambda x: le.transform([x])[0] if x in le.classes_ else -1)

# 在测试集中寻找目标列并进行预测
if 'throughput' in df_test.columns:
    X_test = df_test_imputed.drop(columns=['throughput'], errors='ignore')
else:
    X_test = df_test_imputed  # 如果测试集没有目标列 'throughput'

# 进行预测
test_predictions = gbdt.predict(X_test)

# 将预测结果保存到文件中
df_test['throughput_predictions'] = test_predictions
output_path = 'test_predictions.csv'
df_test.to_csv(output_path, index=False)

print(f"预测完成，结果已保存到 {output_path} 文件中。")

# 可视化：预测值 vs 真实值，特征重要性和热力图
plt.figure(figsize=(16, 12))

# 子图1：训练集预测值 vs 真实值
plt.subplot(2, 2, 1)
plt.scatter(y_train, y_train_pred, alpha=0.5, color='b')
plt.title("训练集: 预测值 vs 真实值")
plt.xlabel("真实值")
plt.ylabel("预测值")
plt.grid(True)

# 子图2：验证集预测值 vs 真实值
plt.subplot(2, 2, 2)
plt.scatter(y_valid, y_valid_pred, alpha=0.5, color='g')
plt.title("验证集: 预测值 vs 真实值")
plt.xlabel("真实值")
plt.ylabel("预测值")
plt.grid(True)

# 子图3：特征重要性
plt.subplot(2, 2, 3)
importances = gbdt.feature_importances_
indices = np.argsort(importances)[::-1]
plt.barh(range(X_train.shape[1]), importances[indices], align='center')
plt.yticks(range(X_train.shape[1]), [X_train.columns[i] for i in indices])
plt.title("特征重要性")
plt.xlabel("重要性得分")

# 子图4：相关性热力图
plt.subplot(2, 2, 4)
corr_matrix = df_train_imputed.corr()
sns.heatmap(corr_matrix, cmap='coolwarm', annot=False)
plt.title("特征相关性热力图")

# 显示图表
plt.tight_layout()
plt.show()

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/ae3ee156908a4bb7afeb7352a47352b4.png#pic_center

问题二：AP的（MCS, NSS）选择预测

目标：预测AP发送数据时选用最多次数的（MCS, NSS）。

分析影响因素

信号与干扰

信号功率 ：AP到STA的RSSI，记为 P signal P_{\text{signal}} Psignal。
干扰功率 ：其他AP到STA的RSSI，记为 P interference P_{\text{interference}} Pinterference。

SINR计算

公式：

省略部分内容

其中， P noise P_{\text{noise}} Pnoise为噪声功率。

传输方式的影响

同步传输 ：干扰较小，SINR较高。
异步传输：干扰较大，SINR降低。

PER与SINR的关系

PER模型 ：
PER = e − α ( SINR − β ) \text{PER} = e^{-\alpha (\text{SINR} - \beta)} PER=e−α(SINR−β)

其中， α \alpha α、 β \beta β为拟合参数。

建模方法

SINR计算

信号功率 ：
P signal = sta_from_ap_x_sum_ant_rssi P_{\text{signal}} = \text{sta\_from\_ap\_x\_sum\_ant\_rssi} Psignal=sta_from_ap_x_sum_ant_rssi

干扰功率 ：
P interference = ∑ j ≠ i sta_from_ap_j_sum_ant_rssi P_{\text{interference}} = \sum_{j \neq i} \text{sta\_from\_ap\_j\_sum\_ant\_rssi} Pinterference=j=i∑sta_from_ap_j_sum_ant_rssi

噪声功率 ：可设定为常数，例如， P noise = − 90 dBm P_{\text{noise}} = -90\, \text{dBm} Pnoise=−90dBm。

（MCS, NSS）映射

建立映射表 ：

根据标准或实测数据，确定SINR与（MCS, NSS）的对应关系。

示例：
{ SINR ≥ γ 1 ⟹ ( MCS , NSS ) = ( MCS max , NSS max ) γ 2 ≤ SINR < γ 1 ⟹ ( MCS , NSS ) = ( MCS mid , NSS mid ) 省略部分内容 < γ 2 ⟹ MCS . . . . . . \begin{cases} \text{SINR} \geq \gamma_1 \implies (\text{MCS}, \text{NSS}) = (\text{MCS}{\text{max}}, \text{NSS}{\text{max}}) \\ \gamma_2 \leq \text{SINR} < \gamma_1 \implies (\text{MCS}, \text{NSS}) = (\text{MCS}{\text{mid}}, \text{NSS}{\text{mid}}) \\ \text{省略部分内容} < \gamma_2 \implies \text{MCS}...... \end{cases} ⎩ ⎨ ⎧SINR≥γ1⟹(MCS,NSS)=(MCSmax,NSSmax)γ2≤SINR<γ1⟹(MCS,NSS)=(MCSmid,NSSmid)省略部分内容<γ2⟹MCS......

分类模型

使用机器学习算法 ：

多分类模型，如决策树、随机森林、支持向量机（SVM）、神经网络等。

特征：

SINR、信号功率、干扰功率、传输方式（同步/异步）、PER等。

目标变量 ：

（MCS, NSS）组合。

模型训练

数据集 ：

使用训练集中的数据，提取特征和目标变量。

模型评估 ：

准确率、召回率、F1-score等。

预测测试集

对于test_set_2_2ap和test_set_2_3ap，计算SINR，输入模型，预测（MCS, NSS）。

问题二部分可视化展示

问题三：系统吞吐量的建模与预测

目标：预测网络的总吞吐量。

步骤

获取发送时长（seq_time）

使用问题一的预测结果。

确定PHY速率（PHY Rate）

使用问题二的（MCS, NSS）预测结果，查表获取PHY Rate。

PHY Rate查表 ：

例如，对于20MHz带宽，MCS和NSS的组合对应的PHY Rate。

计算有效传输时间

公式：

省略部分内容

计算成功传输的比特数

公式：

省略部分内容

考虑聚合机制

PPDU有效载荷计算 ：
PPDU有效载荷 = num_ppdu × pkt_len × 8 bits \text{PPDU有效载荷} = \text{num\_ppdu} \times \text{pkt\_len} \times 8\, \text{bits} PPDU有效载荷=num_ppdu×pkt_len×8bits

吞吐量计算修正 ：

省略部分内容

计算每个AP的吞吐量

公式：
Throughput i = 成功传输的比特数 i test_dur \text{Throughput}_i = \frac{\text{成功传输的比特数}_i}{\text{test\_dur}} Throughputi=test_dur成功传输的比特数i

系统总吞吐量

公式：

省略部分内容

模型优化

PER模型的精细化：
- 根据SINR与PER的关系，建立更精确的模型。
- 可能采用分段函数或插值方法。
协议开销的考虑：
- 考虑RTS、CTS、ACK等帧的开销。
- 修正有效传输时间。
调整因子：
- 根据实测数据，加入调整因子，提高模型精度。

问题三部分可视化展示

目标：评估模型的精度，绘制预测误差的CDF曲线。

步骤

计算预测误差（error）

公式：
error i = 预测吞吐量 i − 实测吞吐量 i 实测吞吐量 i × 100 % \text{error}_i = \frac{\text{预测吞吐量}_i - \text{实测吞吐量}_i}{\text{实测吞吐量}_i} \times 100\% errori=实测吞吐量i预测吞吐量i−实测吞吐量i×100%

绘制CDF曲线

步骤：

将所有error按从小到大排序，形成序列 { error ( 1 ) , error ( 2 ) , ... , error ( N ) } \{\text{error}{(1)}, \text{error}{(2)}, \ldots, \text{error}_{(N)}\} {error(1),error(2),...,error(N)}。

计算累积分布函数（CDF）：

省略部分内容

绘制图形 ：

横轴为error，纵轴为CDF。

模型精度评估

定义模型精度 ：

找到使CDF达到90%的error值，记为 ERROR 90 \text{ERROR}_{90} ERROR90。

模型精度为：

省略部分内容

解释：

当90%的预测误差小于 ERROR 90 \text{ERROR}{90} ERROR90时，模型精度越高， ERROR 90 \text{ERROR}{90} ERROR90越小。

分别评估

每个AP的吞吐量预测精度 ：

对每个AP的error单独计算CDF，得到AP级别的模型精度。

系统吞吐量的预测精度 ：

对所有AP的总吞吐量计算error和CDF，得到系统级别的模型精度。

附录：关键公式与参数

SINR计算公式

SINR = P signal P interference + P noise \text{SINR} = \frac{P_{\text{signal}}}{P_{\text{interference}} + P_{\text{noise}}} SINR=Pinterference+PnoisePsignal
PER模型

PER = e − α ( SINR − β ) \text{PER} = e^{-\alpha (\text{SINR} - \beta)} PER=e−α(SINR−β)
PHY Rate查表

20MHz带宽时，选用不同（MCS, NSS）组合的PHY Rate（单位：Mbps）：

MCS	NSS=1	NSS=2
0	8.6	17.2
1	17.2	34.4
2	25.8	51.6
3	34.4	68.8
4	51.6	103.2
5	68.8	137.6
6	77.4	154.9
7	86.0	172.1
8	103.2	206.5
9	114.7	229.4
10	129.0	258.1
11	143.4	286.8

帧序列时长

RTS-CTS模式下的帧序列总时长 ：
T tx = T RTS + SIFS + T CTS + SIFS + T data + SIFS + T ACK T_{\text{tx}} = T_{\text{RTS}} + \text{SIFS} + T_{\text{CTS}} + \text{SIFS} + T_{\text{data}} + \text{SIFS} + T_{\text{ACK}} Ttx=TRTS+SIFS+TCTS+SIFS+Tdata+SIFS+TACK

各部分时长 ：

省略部分内容

竞争窗口

二进制指数退避算法 ：

省略部分内容

其中， k k k为重传次数。

发送概率

省略部分内容

总结

通过对WLAN系统的深入分析，建立了从输入参数到AP发送机会、PHY层参数、最终系统吞吐量的完整预测模型。利用数学公式和机器学习方法，详细阐述了每个问题的解题思路和步骤。模型充分考虑了节点间RSSI、CCA门限、NAV机制、业务流量类型、SINR、（MCS, NSS）、PER、聚合机制等多种因素，对提高模型的准确性和鲁棒性至关重要。最后，通过CDF曲线评估了模型的精度，为模型的优化和改进提供了参考。

全文请从 底部名片 处获取哦~