2026年IEEE TITS，面向按需外卖配送调度的特定问题知识与基于学习元启发式算法，深度解析+性能实测

1.摘要

针对按需外卖配送中最小化总延迟时间与总行驶距离的多目标调度问题，本文建立了基于订单与位置两种数学模型。通过引入双串编码、多约束初始化以及七种基于特定问题知识的局部搜索算子，对差分进化、粒子群与人工蜂群算法进行了改进，并结合强化学习设计了局部搜索算子的动态选择策略。基于真实场景实例的对比实验验证了所提模型与策略的有效性，结果表明改进的人工蜂群算法（ABC_LS_Q1）表现出最优竞争性能。

2.问题描述

针对按需外卖配送调度问题（OFDSP），调度任务旨在将总订单合理分配给 n r n_r nr名骑手，其中总订单集合由新订单、未取餐现有订单及已取餐现有订单构成：
O = O n o ∪ O u o ∪ O p o O = O_{no} \cup O_{uo} \cup O_{po} O=Ono∪Ouo∪Opo

两类模型分别利用不同的布尔决策变量构建骑手配送序列。基于订单模型定义骑手 R i R_i Ri从订单 O j O_j Oj的 k k k节点前往订单 O l O_l Ol的 m m m节点的连通性：
y i , j , k , l , m ∈ { 0 , 1 } y_{i,j,k,l,m} \in \{0,1\} yi,j,k,l,m∈{0,1}

基于位置的模型则直接刻画骑手 R i R_i Ri在空间位置 I g I_g Ig与 I u I_u Iu间的状态转移：
z i , g , u ∈ { 0 , 1 } z_{i,g,u} \in \{0,1\} zi,g,u∈{0,1}

在维持现有订单所属关系不变的前提下，模型综合考虑商家备餐时间、节点服务时间及骑手最大载重限制，通过动态重构路径，旨在同时最小化骑手新增绕行距离与订单延迟时间，实现运力负载与客户履约率的全局最优平衡。

两类模型均同时最小化总订单延迟时间 ( f 1 f_1 f1)与骑手总行驶距离 ( f 2 ) (f_2) (f2) ,以此在满足履约时效的前提下优化运力成本。基于订单的模型以订单匹配与调度为决策核心，其目标函数为：

f 1 = min ⁡ ∑ j = 1 n t o D j f_1=\min\sum_{j=1}^{n_{to}}D_j f1=minj=1∑ntoDj

f 2 = min ⁡ ∑ i = 1 n r ∑ j = 0 n t o ∑ k ∈ U j ∑ l = 0 n t o ∑ m ∈ U l y i , j , k , l , m × d i , j , k , l , m f_2=\min\sum_{i=1}^{n_r}\sum_{j=0}^{n_{to}}\sum_{k\in U_j}\sum_{l=0}^{n_{to}}\sum_{m\in U_l}y_{i,j,k,l,m}\times d_{i,j,k,l,m} f2=mini=1∑nrj=0∑ntok∈Uj∑l=0∑ntom∈Ul∑yi,j,k,l,m×di,j,k,l,m

基于位置模型以空间节点间的资源流转为导向，强调在不同物理位置间的合理调度，其目标函数为：

f_{1}=\\min\\sum_{g=1}\^{n_{to}}\\tilde{D}_{g}, f_{2}=\\min\\sum_{i=1}^{n_r}\\sum_{g=1}^{n_l+n_r}\\sum_{u=1}\^{n_l+n_r}\\tilde{d}*{g,u}\\times z* {i,g,u}

3.算法设计

算法架构采用强化学习引导的元启发式自适应优化框架，通过领域知识启发式策略初始化种群确保初始解的可行性并构建帕累托前沿。此外，针对问题特征设计了七种局部搜索算子，并引入Sarsa与Q-learning算法在迭代中进行算子的动态智能选择。

解表示方案

为表征外卖配送调度解，本文采用由骑手向量与路径向量构成的双串编码技术，联合刻画任务运力分配与执行序列。骑手向量定义为：

ρ = ( ρ 1 , ... , ρ n l ) \rho=(\rho_1,\ldots,\rho_{nl}) ρ=(ρ1,...,ρnl)

用于指示订单的归属分配，其中现有订单维持原属骑手，新订单依据当前状态动态指派。路径向量定义为：

θ = ( θ 1 , ... , θ n l ) \theta=(\theta_1,\ldots,\theta_{nl}) θ=(θ1,...,θnl)

用于表征节点访问的先后序列。

基于多约束的初始化

针对外卖配送中订单分配与路径规划的复杂约束，本文提出一种多约束初始化策略以构建高质量的可行解种群，依序处理现有订单以确保取送节点的时序逻辑，并将新订单随机指派给单一骑手；随后对各骑手任务序列进行随机扰动以增强解集多样性；最后引入动态载重检查与修复机制，通过在发生超载冲突时强制优先执行送餐任务来修正序列。

解决方案生成与更新

多目标优化问题可定义为：

min ⁡ G ( x ) = $g 1 ( x ) , g 2 ( x ) , ... , g m ( x )$ , x ∈ Ω \min G(x)= $g_1(x),g_2(x),\\ldots,g_m(x)$ ,\quad x\in\Omega minG(x)= $g1(x),g2(x),...,gm(x)$ ,x∈Ω

其中， x x x为决策变量， Ω \Omega Ω为可行解空间。当且仅当某解在所有目标上不劣于其他解，且至少在一个目

标上严格占优时，形成帕累托支配关系，所有非支配解在目标空间的映射即构成帕累托前沿。为有效平衡骑手行驶距离与订单延迟时间，本文引入快速非支配排序框架，首先由元启发式算法 (PSO、DE或ABC)生成候选解集，随后依据非支配关系对种群进行分层，并结合精英保留策略筛选优秀个体，通过持续迭代最终收敛至帕累托最优解集。

基于知识的局部搜索算子

通过强调特定问题知识引导邻域搜索的必要性，本文设计了七种基于知识的局部搜索算子（KLSOs）。这些算子在严格遵守外卖配送特有约束前提下执行位置调整，有效规避了无效搜索。

学习引导的算子选择机制

为克服随机选择局部搜索算子效率低下缺陷，本文将Q-learning与Sarsa强化学习算法引入元启发式框架，以动态优选七种特定问题算子（KLSOs）。模型依据新解与当前解的帕累托支配关系定义奖励函数（占优为2，被占优为0，互不占优为1）。

针对状态空间设计了两种机制以构建四种算法变体：策略一 (Q-learning1/Sarsa1) 以种群内各解个体为状态，构建 P × 7 P\times7 P×7维Q表；策略二(Q-learning2/Sarsa2)直接以七种算子为状态，构建 7 × 7 7\times7 7×7维Q表，利用不同局部搜索算子间时序转移规律与协同增强效应。

4.结果展示

5.参考文献

Y. Ren, K. Gao, Z. Lin, N. Wu, L. Wang and L. Zhao, "Problem-Specific Knowledge and Learning-Based Meta-Heuristics for On-Demand Food Delivery Scheduling," in IEEE Transactions on Intelligent Transportation Systems.