基于Qlearning强化学习的免授权频谱下NR-U与WiFi共存资源最优分配策略matlab仿真

✨1.前言

📡2.算法测试效果图预览

🔍3.算法运行软件版本

✅4.部分核心程序

🚀5.算法理论概述

[1️⃣5.1 计算共存场景下NR-U系统与WiFi系统的吞吐量](#1️⃣5.1 计算共存场景下NR-U系统与WiFi系统的吞吐量)

[2️⃣5.2 共存场景下的最优ABS数量](#2️⃣5.2 共存场景下的最优ABS数量)

[3️⃣5.3 基于Q学习匹配ABS位置](#3️⃣5.3 基于Q学习匹配ABS位置)

💡6.算法完整程序工程

✨1.前言

随着5G新空口免授权频谱（NR-U）技术的发展，5G NR系统需要与WiFi系统在免授权频谱（如5GHz和6GHz频段）上共存。由于两种系统采用不同的接入机制------NR-U基于调度的接入方式与WiFi基于竞争的CSMA/CA机制存在本质差异，直接共存会导致严重的相互干扰，降低整体频谱利用效率。因此，需要设计一种智能的资源分配方法，使两种系统能够公平、高效地共享免授权频谱资源。

本方法的核心原理是引入几乎空白子帧（Almost Blank Subframe，ABS）机制，NR-U系统在某些子帧上主动静默（即不发送数据），将这些时间资源让给WiFi系统使用，从而实现时域上的资源分割。并引入Q学习算法，通过强化学习的方式智能匹配ABS位置与WiFi系统的传输需求。Q学习是一种无模型的强化学习算法，智能体通过与环境的交互，逐步学习在每个状态下采取何种动作能够获得最大的长期累积奖励。Q学习维护一个Q值表，记录每个状态-动作对的期望累积奖励值，通过不断更新Q值表来逼近最优策略。在本方法中，Q学习被用于解决ABS位置匹配这一组合优化问题，将频谱资源分配建模为马尔可夫决策过程。

📡2.算法测试效果图预览

🔍3.算法运行软件版本

matlab2024b

✅4.部分核心程序

复制代码

% 系统参数
T = 10;                    % 一个无线帧的子帧数量
B = 20e6;                  % 系统带宽 20MHz
P_NR = 23;                 % NR-U发射功率 (dBm)
P_WiFi = 20;               % WiFi发射功率 (dBm)
N0_dBm = -174;             % 噪声功率谱密度 (dBm/Hz)
N0 = 10^((N0_dBm-30)/10);  % 转换为瓦特

% 信道参数
g_NR = 10^(-80/10);        % NR-U信道增益 (路径损耗80dB)
g_WiFi = 10^(-75/10);      % WiFi信道增益
g_cross = 10^(-90/10);     % 交叉干扰信道增益

% 功率转换
P_NR_W = 10^((P_NR-30)/10);
P_WiFi_W = 10^((P_WiFi-30)/10);

% WiFi CSMA/CA参数
n_wifi = 5;                % WiFi竞争节点数
tau = 0.05;                % 每个节点传输概率

% 业务需求
D_NR = 50e6;               % NR-U业务需求 (bps)
D_WiFi = 30e6;             % WiFi业务需求 (bps)

🚀5.算法理论概述

1️⃣5.1 计算共存场景下NR-U系统与WiFi系统的吞吐量

首先建立共存场景的系统模型。假设在免授权频谱上，存在一个NR-U基站和多个WiFi接入点(AP)，它们共享相同的频谱资源。设NR-U系统的带宽为B，一个无线帧包含T个子帧。

NR-U系统吞吐量计算：

当NR-U系统在非ABS子帧上传输数据时，其信号干扰噪声比（SINR）为

其中PNR为NR-U基站的发射功率，gNR为NR-U基站到用户的信道增益，N0为噪声功率谱密度，M为WiFi接入点的数量，PWiFi,j为第j个WiFi AP的发射功率，gj,NR为第j个WiFiAP对NR-U用户的干扰信道增益。

NR-U系统在一个无线帧内的可用子帧数为T−NABS，其中NABS为ABS的数量。NR-U系统的吞吐量为：

WiFi系统吞吐量计算：

WiFi系统采用CSMA/CA协议进行信道竞争接入。设WiFi网络中有n个竞争节点，每个节点的传输概率为τ。WiFi系统成功传输的概率为：

WiFi系统在信道空闲时（包括NR-U的ABS期间）可以进行传输。WiFi用户的SINR为：

其中INR为NR-U系统对WiFi用户造成的干扰，1non−ABS为指示函数，在非ABS子帧期间取值为1，在ABS子帧期间取值为0。WiFi系统的归一化吞吐量可以基于Bianchi模型计算：

考虑ABS的影响，WiFi系统的有效吞吐量与ABS数量和位置密切相关。当ABS位置与WiFi系统的传输时机良好匹配时，WiFi系统能获得更多的无干扰传输机会，其有效吞吐量为：

根据计算得到的吞吐量，分别确定NR-U系统与WiFi系统对频谱资源的需求比例：

其中DNR和DWiFi分别为两个系统的业务需求量。

2️⃣5.2 共存场景下的最优ABS数量

最优ABS数量的确定需要在NR-U系统和WiFi系统之间取得公平性与总吞吐量的平衡。定义ABS比例因子为q，则ABS占无线帧的比例为(1−q)，即NR-U系统在比例为q的子帧上传输数据。建立以比例公平性为准则的优化目标函数：

其中α为权重因子，用于调节两个系统之间的公平性，RNR,min和 RWiFi,min分别为两个系统的最低吞吐量保障。

3️⃣5.3 基于Q学习匹配ABS位置

确定了ABS的数量NABS后，需要确定这些ABS在无线帧中的具体位置。这是一个组合优化问题，可能的位置组合数为 (TNABS)，随着T和NABS 的增大，穷举搜索的计算复杂度将急剧增长。因此，本方法采用Q学习来高效求解此问题。

状态空间： 状态s定义为当前已分配的ABS位置集合以及WiFi系统的信道状态信息。

其中sch表示WiFi系统当前的信道状态（繁忙、空闲、碰撞），sABS表示已确定的ABS位置向量 a= $a1,a2,...,aT$ ，ai∈{0,1}a表示第i个子帧是否为ABS。

动作空间： 动作 aa 定义为在当前子帧位置上的决策。

其中0表示该子帧为正常传输子帧，1表示该子帧为ABS。

奖励函数： 奖励函数综合考虑系统总吞吐量和公平性。

其中β1、β2、β3为权重系数，第一项鼓励最大化总吞吐量，第二项保证公平性，第三项惩罚ABS数量偏离最优值的情况。

Q值更新规则：

Q学习的核心更新公式为：

其中αl为学习率（0<αl≤10<αl≤1），控制新信息对已有知识的更新程度；γd为折扣因子（0≤γd<1），决定未来奖励的重要性；rt+1为在状态st下执行动作at后获得的即时奖励。

💡6.算法完整程序工程

OOOOO

OOO

关注GZH后输入回复：0038