基于人工智能 RL 算法的边缘服务器智能选择模式研究

提出了一种基于人工智能深度强化学习算法的扩展性及智能性较高的智能选择模式。在人工智能深度强化学习

算法的基础上，引入了动作抑制、四重 Q 学习 (QQL) 及归一化 Q-value 等机制，研究并实现了在满足业务延迟要求及公平

性的原则下，物联终端更智能地选择其接入或切换边缘服务器。该方案减少了业务延迟，提高了响应效率，有助于提高业务

安全及运营管理水平。

关键词人工智能；云边端；深度强化学习算法；边缘服务器；配电站房运检

中图分类号 TM18 文献标志码 A doi:10.12178/1001-0548.2022119

Research on Intelligent Selection Mode of Edge Server Based on

Artificial Intelligence Deep Reinforcement Learning Algorithm

LI Xiaojing1*, YANG Dongdong1, HAN Rundong2, YU Hua1, and YIN Chongzhi1

(1. Electric Power Research Institute of State Grid Shanxi Electric Power Company Taiyuan 030001;

Equipment Department of State Grid Shanxi Electric Power Company Taiyuan 030001)

Abstract Based on the artificial intelligence deep reinforcement learning algorithm, this paper proposes an

intelligent selection mode with high fairness, expansibility and intelligence. On the basis of the artificial

intelligence deep reinforcement learning algorithm, innovative mechanisms such as action inhibition, quadruple Q-

learning (QQL) and normalized Q-value are introduced. With the research results of this paper, the IoT (Internet of

Thing) terminal can more intelligently select its access or handover edge server under the principle of meeting the

service delay requirements and fairness. This scheme reduces service delay, improves service response efficiency,

and has good value significance for improving service security and operation management level.

Key words artificial intelligence; cloud edge end; deep reinforcement learning algorithm; edge server;

operation inspection of distribution station building

近年来，人工智能和物联网技术得到飞速发

展，物联终端接入数量呈现几何级数增长，相应的

物联网相关系统仍以终端感知数据采集及分析处理

为主，信息化系统由传统的 C/S、B/S 架构，逐渐

演进为云端系统结合边缘代理服务器的云−边−端

架构模式，以提高业务处理前置化能力[1]。相对传

统技术架构而言，云−边−端架构中，部署边缘服

务器更有利于大量终端设备的接入，以及结合运检

业务进行本地计算和处理，降低业务对云端后台系

统的依赖性，因为边缘服务器在物理上比传统云服务器

更靠近现场和客户，同时可提供更低的网络延迟[2]。

由于边缘服务器在计算、存储和通信资源等方

面存在一定限制，部署服务有限。当海量终端接入

后，通讯及业务处理并发量大时，存在着由于数据

计算和业务处理需排队导致堵塞延时的问题，甚至

宕机等风险[3]。由此提出在现场部署多个边缘服务

器或在附近区域租用云服务器做边缘处理，构建边

缘服务器集群。由于现场并发通讯的终端数量较

多，如何选择最佳边缘服务器进行计算和业务处理

是研究的主要问题。以电网某配电站房运检业务为

收稿日期：2022 − 04 − 26；修回日期：2022 − 08 − 30

基金项目：国网山西省电力公司科技项目 (520530202002)

作者简介：李小婧 (1992 − )，女，高级工程师，主要从事人工智能、物联网等方面的研究.

*通信作者：李小婧，E-mail：594122581@qq.com

第 52 卷第 4 期电子科技大学学报 Vol.52 No.4

2023 年 7 月 Journal of University of Electronic Science and Technology of China Jul. 2023

例，当本地的边缘服务器已发生通讯堵塞或宕机问

题时，常见的解决方案会将终端切换到有足够容量

且延迟最低的边缘服务器[4]。

由此，本文利用人工智能 (AI)，提出采用深度

强化学习 (RL) 算法的边缘服务器智能选择方法来

构建 Q 平衡网络，该网络具备高度动态匹配、高

度智能选择、最低延迟等优点。由于 RL 算法特别

适合高度变化的环境，本文基于该算法，引入动作

抑制、四重 Q 学习 (QQL) 和 Q 值归一化等机制，

构建了终端−服务器匹配延迟方差的强化学习模

型，提出智能选择边缘服务器的具体解决方案。该

方案在终端设备尤其并发数超标或边缘服务器宕机

后，终端设备快速选择最优的边缘服务器进行智能

切换，同时减轻延时等风险问题，实现了边缘服务

器在满足延迟要求下的智能动态选择切换，同时考

虑到了公平性策略[5]。本文研究不仅更好地解决了

海量终端接入及大并发时导致的边缘服务器堵塞延

迟甚至宕机等风险，同时对边缘服务器提供了更加

科学合理的部署策略，以减少服务器的数量。

1 主要问题及研究思路

1.1 主要问题

对于服务器的选择和配置方法，国内外开展了

较多研究，如文献 [6] 提出优化切换镜像服务器后

减少整体用户延迟；文献 [7] 提出了用户−服务器

匹配算法，利用系统最大化处理能力使用户切换到

不同的服务器上达到整体延迟优化；文献 [8] 提出

中值优化方法减少视频流端到端传输延迟优化问

题；文献 [9] 提出在客户端使用域名系统 (DNS)

代理，并采用负载均衡功能选择延迟最低的内容分

发网络 (content delivery network, CDN)，以供客户

端选择合适的 CDN 服务器；文献 [10] 结合遗传算

法进行移动边缘计算中的服务选择，以减少时延。

但上述常见方法只考虑了减少延迟，并未实现高度

动态化、智能化、公平化[11]。

以图 1 终端−服务器拓扑图为例，U、EN 和

DEN 分别为终端、边缘节点 (单个边缘服务器) 和

委托的边缘节点[12]。EN 和 DEN 是配电站房运检系

统中的一部分，DEN 是终端首次链接的边缘节点

EN，当发生终端设备切换 EN 时，服务器选择算

法在 DEN 中运行，并由 DEN 给出终端该链接或切

换的 EN。EN

DEN

U U

DEN

50 ms

图 1 终端−服务器拓扑图

一个 EN 可处理多个终端，但其容量有限，尤

其高并发时系统必须确保终端和 EN 之间的延迟不

超过本设备指定的延迟阈值。如若有一些终端一起

同时上报数据，并且 EN 同时针对终端进行业务处

理，假设其端到端的延时阈值为 100 ms，那么任

何终端与其 EN 之间的单向延迟不能超过 50 ms，

因此给出 50 ms 的半径到每个 EN。此外，系统须

确保终端在会话中所经历的延迟彼此尽可能接近，

即终端间延迟变化最小，以提供公平的处理能力和

竞争环境[13]。从图中可以看出，黑色终端可以连接

到本地及相邻的多个 EN，考虑到多 EN 选择和延

迟阈值、最大容量等约束条件，需充分考虑如何有

效解决多变量优化问题，如终端设备会因上电\关

机\重启动态接入，每类终端设备需满足延迟阈值

要求，EN 达到处理瓶颈时引发堵塞甚至宕机等问

题；动态部署或删除 EN 时，系统能否灵活、合理

地将终端设备分配到合适的 EN 成为挑战[14]。

本文中的终端−边缘服务器匹配的公平性原则

主要指早接入的终端拥有更高的优先权以及更低的

延迟分配资源进行数据和业务处理，相对后接入的

终端存在相对意义上的"不公平"。为此，本文使

用 RL 并提出了一种智能选择方案，该方案提供了

更高的公平性，同时也能更好地减少延迟。

1.2 研究思路

针对上述问题描述，为在满足延迟的条件下，

实现动态化、智能化、公平化的终端−边缘服务器

选择，本文主要围绕以下两项内容展开研究。

边缘服务器选择模式研究。当终端切换边缘
服务器时，公平性问题就突显出来。已接入的终端
与后接入的终端相比具有较大的优势，因为存储、
计算及网络资源有限，已接入的终端比后者能更快
地接收在线实时数据，并占用更多的资源进行本地
计算和业务处理，且当警告产生时，能更快与声光
第 4 期李小婧，等：基于人工智能 RL 算法的边缘服务器智能选择模式研究 589
设备进行联动报警。而后接入的终端会因为排队等
机制，会将延迟效应进行积累。因此需研究更智能
更公平的新型选择模式。
RL 强化学习算法研究。RL 算法提出将奖
励的方差最小化，旨在充分考虑了系统性能、合理
性及安全性后，在强化学习过程中将奖励最大化[15]。
文献 [16] 提出了一种 RL 算法分类：具有安全系数
折现的机制，并通过外部知识和风险进行指导纠
正，该方法虽然预期的效果有可能很好，但由于风
险值与环境的随机性有关，可能会出现较大的负面
结果，因此不适合本文场景。
对此，本文使用终端和边缘服务器之间的地理
距离作为延迟的参考指标，提出了两组次优匹配概
念，设计了减少距离方差的方法[17]。针对公平性问
题，本文借鉴了动作消除网络 (action elimination
network, AEN)，即一种利用两个神经网络的系
统：一个包含 Q 函数的近似值、另一个同时学习
消除动作，提出了减少延迟变化的方法[18]。该方法
输出一个线性上下文模型，并以高概率值来抑制动
作。在该方式基础上，本文改进了 Q-table 技术，
通过线性向量来指示动作是否可用，文章用固定的
或学习的矢量值来处理动作的可用性。
2 主要研究内容
针对前述问题，本文采用 RL 技术，尤其是 Q-
learning 算法开展模型研究，由于其具有较好的灵
活性和动态性，也称为 Q 平衡网络。常规的 Q-
learning 模型通常会选择最近的边缘服务器，即使
其容量已到上限。本文将采用新技术应用于 Q-
learning 算法，通过设计一个带奖励值的 Q 学习模
型以实现终端设备智能公平选择边缘服务器。使
用 RL 将终端设备加入网络这一过程称为"状
态"，将接入这些终端设备的可用边缘服务器称为
"动作空间"，本文将"动作"与"选择服务器"
和"状态"与"终端"同义地关联起来[19]。
2.1 动作抑制
2.1.1 原理
由于服务器计算能力有限，一段时间后，边缘
服务器处理能力将达到上限，一些预期动作在服务
器某一时间点后将不可用。因此，必须考虑动作发
生后更新 Q-values 时服务器的可用性，否则若奖励
产生后仍使用即将不可用的服务器将导致消极恶性
结果，影响后续终端的接入。区别于现有的动作屏
蔽算法，当动作发生后，奖励也随即产生。动作抑
制算法能将预期动作及奖励完全移除，该技术不仅
能将不可用的服务器从备选状态中过滤掉，也有能
力预测并选择期望的动作哪怕其 Q-values 不是最
高。算法 1 对该技术进行了相关地说明。
算法 1 典型代码 1：Q-learning 动作抑制算法
initialize Q(s, a) for all s ∈ S, a ∈ A(s),
arbitrarily.
define Aavailable for all possible a ∈ A(s)
set Q(terminal state,•)=0
for each episode do
initialize s
repeat (for each state of the episode)
choose highest a for s using policy derived
from Q(e.g., −greedy)
while a /∈ Aavailable do
choose next highest a using the same policy
take action a, observe r, s' (according to a
reward function)
remove a from Aavailable if limit is reached
Q(s, a) ← Q(s, a) + α[r + γ • maxaQ(s', a) −
Q(s, a)]
s ← s'
until s is terminal and Aavailable isn't empty
2.1.2 技术实现
技术实现的主要思想是在学习过程中抑制不可
用情况。通过设计并使用可用操作集表来引导下一
个动作，并跟踪在下一次迭代中可能采取的动作，
选择最高的动作 Q-value，同时算法会分析服务器
是否可用，若不可用会选择下一个最高的动作 Q-
value。一旦服务器的容量达到最大值，在下一次
迭代之前将其从操作集中删除。另外，算法将根据
概率值 1−ε选择动作。在某些情况下，抑制动作会
加强 Q-learning 中的探索。由于被淘汰的动作可能
是最常被选中的动作之一，在后续迭代中被选中的
概率较高。因此，需设计从可用动作中删除高概率
已选择过的动作而选择次优的算法，即根据预期回
报总和探索其他次优动作，既不采取随机动作也不
使用最佳动作，而是介入两者之间的动作。
需要注意的是 RL 实体首先将进行离线训练，
以获得有关环境的知识和训练策略参数以更接近最
优策略。在这个阶段，算法将简单获得有关如何匹
配和如何获得服务器与终端公平分配的知识。当模
型部署并在线训练时，算法可能会惩罚某个终端−
服务器的分配，在不好的状态下不再采取匹配动
作。如果匹配时处于一个好的状态，则可以减轻处
罚，这样"惩罚"或 Q-value 将逐步调整并收敛到
590 电子科技大学学报第 52 卷
其真实值，以反应为未来训练中的预期奖励。
2.1.3 正则化效果
神经网络的 Dropout 概念和方法，通过随机神
经元的输出乘以零以防止过度拟合。Q-learning 中
的抑制动作与神经网络中的 Dropout 方法类似。由
于在 Dropout 中某些神经元被丢弃并且其输出被忽
略，删除动作类似于将 Q-value 与零相乘并忽略其
对选择下一步操作的影响。通常，这会在训练中执
行某种形式的正则化，在动作和状态空间很大的情
况下是难以避免的[20]。
2.1.4 动作抑制的影响
消除网络可能会对后续构建更多的复杂算法并
在网络上产生后续影响，被淘汰的动作表明其在某
些场景的需求量很大，这些重要信息可以保留下
来，用来对边缘服务器的部署提供建议，或构建一
个更智能的代理来学习和预测网络的下一个状态。
当所在的边缘服务器发生过载时其剩余容量可供终
端选择。此外，需重要考虑的是参数"有效性"应
被设计为可固定的，也可以是能学习的。在程序
中，使用了服务器的固定容量来标识可用性，但当
服务器的任务和请求接近容量上限时，也可以学习
该值以消除过载的服务器。
2.2 Q 模型
本文将公平性定义为按终端设备与之接近的平
均地理距离进行边缘服务器匹配。因此，本文在
Q-learning 模型中，需定义一个全局变量 D 代表距
离的集合。该全局变量会在每次迭代时更新，并反
映在动作的奖励中。为了在公平选择的背景下给出
奖励，设计了 4 个不同的奖励函数以及 6 个模型。
为将距离最小化，对所有的模型对距离的求和值给
出负奖励。负奖励将驱使所有代理选择能最小化距
离集总和值的动作，并影响其动作的 Q-value 值。
模型设计如下。
模型 1 (奖励 = −1 ×d)：d 是已匹配的终端与
边缘服务器的距离，为训练代理尽可能减少地理距
离，将奖励值设为 d 的负值，即为−1×d。地理距
离最低时，Q-value 最高。关于终端 (U) 与边缘服
务器 (E) 之间的地理距离计算以经纬度计算，公式为：d =
√(elong − ulong)2 + (elat − ulat)2 (1)
模型 2 (奖励 = −1× stdv (D))：通过将奖励设
置为当前连接距离的当前方差值 STDV 的负值来减
少距离的全局平均值。由于代理的选择会影响平均
值的变化，因此将奖励设置为将训练实体做出使距
离的全局 STDV 值最小化的选择，从而使匹配的终
端和服务器地理距离更接近平均值。
模型 3(奖励 = −1× Δ stdv (D))：为促使距离
STDV 波动的发生，模型 3 给出与其采取的动作引
起 STDV 变化成正比的负奖励。当代理采取动作
时，模型会对延迟的 STDV 造成的变化给出惩罚。
这将鼓励采取过多会导致 STDV 波动较小。
模型 4 (奖励 = −1× |Δ 标准差 (D)|)：区别于
模型 3，STDV 采用了变化的绝对值，即可以是负
值或正值，但目标是将 STDV 的变化最小化。
模型 5(组合模型 QQL)：为了减少距离方差及
变化，组合上述所有模型方法。受多表 Q-learning
学习工作的启发[21]，模型 5 查看 4 个 Q-tables 的各
自状态，从中选择最高的 Q-value，该想法类似于
双 Q-learning，区别为双 Q-learning 是单目标，使
用相同的奖励模型，而本文是多目标，并且是从多
个奖励模型中进行选择。4 个模型中的每一个都会
为代理所处的状态选择一个动作，QQL 将选择带
来最高 Q-value 的动作。
模型 6(最小值−最大值归一化模型)：上述模
型涉及 4 个奖励函数，在每个表中都有不同的尺度。
如 Model 1 使用实际距离作为奖励，而 Model 4 使用
STDV 的变化作为奖励。为达到最佳的公平性效果，
模型 6 公平地比较了 QQL 中具有不同尺度的 4 个
Q-table，并进行了最小值−最大值归一化处理。该方法
类似于局部响应归一化 (LRN) 理论[22]。LRN 将 4 层
CNN 在 CIFAR-10 数据集上的有效性从 13% 的测
试误差减少到 11%。因此对 Model6，通过使用最小
值−最大值计算来对 4 个表的 Q-values 按 0～1 的范
围归一化。模型 6 为本文研究所推进的最佳模型，
具体设计参见图 2，Q-table 中每一行表示每个状态
的 Q-values 值，最小值−最大值归一化的计算公式为：xnormi j=
xi j − xmini
xmaxi − xmini
∀i ∈ rows，∀ j ∈ columns (2)
2.3 Q 表扩展性设计
由于 Q-learning 初始设计为处理有限和预定义
的动作和状态空间，需对其开展扩展性和实用性改
进，因终端和边缘服务器可能会动态的增加或减
少，而固定大小的 Q-table 无法动态增加。为解决
该问题，通过构建了一个估算函数去获得当前 Q-
table 新的状态和新的动作。该估算函数将相邻终
端的状态及其服务器的动作所对应的 Q-values 平均
化，形成并插入一条新的记录。为进一步提高上述
扩展性，将 Q-table 实现为动态哈希图，也称为字
典或哈希表，用以实现对表的快速高效地查找、增
加和删除[23]。
第 4 期李小婧，等：基于人工智能 RL 算法的边缘服务器智能选择模式研究 591
3 实验及性能评估
3.1 数据收集
首先，在每台边缘服务器上运行了一个收集每
个终端的延迟、抖动、IP 地址和位置 (经、纬
度) 的脚本，并将记录结果存入到 CGCSDD 数据
集。在模拟测试中，153 个终端分布在某一个虚拟
区域。如图 3 所示，在终端附近随机模拟部署
153 个边缘服务器并开展了仿真实验。边缘服务器
终端
图 3 终端节点及服务器随机分布图
3.2 实验与仿真
通过执行脚本，将 153 个终端分配到 153 台边
缘服务器上后，无论每个终端有没有指定到最优的
边缘服务器，都会导致会话量大，理论上会产生
153！=2×10 269 个可能匹配的数量。在训练过程
中，采用超参数解决 RL 的范围问题，并指定在表
查询中使用超参数进行算法优化。本实验和模型中
所用的超参数采用以下各值：学习率 α = 0.1，奖
励折扣因子 γ = 0.6，探索因子 ε = 0.1，训练持续
时期 = 100 000。
本文在传统方法的基础上又构建了 3 种锚方
法，力图将延迟最小化而不仅是延迟的方差，同时
尽量减少延迟的变化。具体描述如下。
锚点 1 是实践中最常用的方法，通过将终端
匹配到最近的边缘服务器 (基于地理距离)，该服务
器具有留给新终端的容量。
锚点 2 将终端匹配到第二近的可用边缘服务
器。这种方法会将"最佳"服务器信息保存起来以
匹配后续需接入的终端。
锚点 3 将前一半的 76 个终端匹配到距离范
围 50% 以内的边缘服务器 (即第 75 个最近的边缘
服务器)，同时将另一半终端匹配到最近的边缘服
务器。
传统方法的主要目的是减少方差，其原理
为：①对第一个终端，找到该节点与任何边缘服务
器之间的最低和最高延迟，并将这两个值计算平均
值 dconv，然后将该节点连接到 dconv 最接近的边
缘服务器；②对接下来的每个节点，将其连接到延
迟与 dconv 最接近的边缘服务器 (dconv 参见步骤
①只计算一次)。
图 4 为采用了锚点方式、传统方式、本文模
型 6 方式所测试的终端−边端服务器地理距离分布
效果图。表 1 为各模型及方式的延迟测试结果，在
锚点 2 和锚点 3 中，稍微降低了方差的同时也增加
了平均值，锚点 2 具有最佳方差。
传统方法的结果取决于第一个选择的节点，它
决定了 dconv 值。因为算法运行了 153 次，每次都
从不同的节点开始，根据 3 个典型 dconv 值：最减少延迟方差值
减少延迟方差的绝对值
减少延迟方差值的变化
状态
S 奖励
R
实体
有效动作
动作
A
环境
动作抑制
模型 1 (奖励=−1d)
模型 2 (奖励=−1 stdv (D))
模型 3 (奖励=−1Δstdv (D))
Sn Q1
Q2 Q3
Q4
LRN
a1
a2 a2 终端-边缘服务器
智能分配
Max
a3
a4
模型 4
模型 3
Q-values 标准化
模型 2
模型 1
模型 4 (奖励=−1 |Δ标准差 (D)|)
多重 Q-leaming 算法
图 2 系统设计概略图
592 电子科技大学学报第 52 卷
低、中间、最高选择了 3 个案例开展测试及

基于人工智能 RL 算法的边缘服务器智能选择 模式研究

基于人工智能 RL 算法的边缘服务器智能选择模式研究