学习量子网络中的最佳路径

大家读完觉得有帮助记得关注和点赞！！！

抽象

量子网络（QN）通过嘈杂的量子通道传输精细的量子信息。量子密钥分发（QKD）和分布式量子计算（DQC）等关键应用程序依赖于高效的量子信息传输。了解 QN 中一对终端节点之间的最佳路径是增强此类应用程序的关键。本白皮书讨论了在在线学习环境中学习 QN 中的最佳路径。我们探讨了两种类型的反馈："链接级"和"路径级"。链路级反馈与具有高级量子开关的 QN 相关，可实现链路级基准测试。另一方面，路径级反馈与基本量子开关相关联，这些开关只允许路径级基准测试。我们介绍了两种在线学习算法，BeQuP-Link 和 BeQuP-Path，分别使用链路级和路径级反馈来识别最佳路径。为了学习最佳路径，BeQuP-Link 对关键链路进行动态基准测试，而 BeQuP-Path 则依赖于子例程，传输路径级观测值以批量方式估计链路级参数。我们分析了这些算法的量子资源复杂性，并证明两者都可以有效地且很有可能确定最佳路径。最后，我们执行基于 NetSquid 的模拟，并验证两种算法是否准确有效地识别最佳路径。
索引术语：
量子网络，最佳路径选择，在线学习，量子密钥分发

第一介绍

量子网络（QN）由通过量子通道交换量子信息的量子设备组成[1].这些设备对量子态执行量子运算，例如量子测量和门，以处理量子信息。量子网络支持各种应用，包括量子传感[2]、量子密码学[3]和量子计算[4].
由于量子信息在传输过程中的指数衰减率，两个节点之间的直接长距离量子通信具有挑战性[1].为了减轻这种衰减，量子中继器[5]已被提议作为中间节点，将长距离量子通信分成更短的段。最近Dai 等人 [6]进一步扩展了量子中继器的要求，使其能够连接多个节点，称为量子开关 。图 1 说明了由量子链路和量子开关组成的量子网络。我们指的是两个量子开关之间的直接连接作为量子链接 ，涉及中间节点的连接作为量子路径，它由多个量子链接组成。
然而，即使使用量子中继器和开关，量子力学的无克隆定理[7]防止量子信息被放大，从而导致传输过程中出现噪声和退相干。为了评估这些误差，已经提出了保真度 作为量子通道的度量[4].

图 1：具有多个链接和路径的量子网络
本文重点介绍如何确定最大化量子网络中两个节点之间保真度的最佳路径。给定一组Kpaths 和L链接，我们首先说明如何使用网络基准测试来估计路径的保真度[8].为了估计这些参数，我们引入了两种类型的量子网络基准测试：（1）链路级和（2）路径级。链路级基准测试可评估单个量子链路的保真度参数，适用于交换机提供量子作访问权限的量子网络。路径级基准测试评估量子路径的保真度参数，适用于不提供交换机访问的网络。我们将这个问题定义为学习是圣区安图Path （BeQuP）的
在链路级反馈环境中，一种朴素的方法会对量子网络中的所有链路进行基准测试，以估计其保真度参数并确定最高保真度路径。但是，这种方法会占用大量资源，尤其是在多个路径共享链接的情况下。例如，如果某些链接由所有路径共享，则仅对每条路径中的唯一链接进行基准测试就足以确定最佳路径，从而使重叠链接的基准测试变得多余。为了解决这个问题，我们提出了 BeQuP-Link 算法，该算法按顺序对所选路径中的唯一链路进行基准测试，以降低资源成本，同时确保以高概率识别最佳路径。我们还推导出了该算法的量子资源需求的上限。
在 path-level feedback 环境中，paths 数量的潜在组合爆炸带来了挑战。为了解决这个问题，我们提出了一个估计程序，通过线性回归将路径参数估计映射到链接参数估计。利用这些估计，我们引入了 BeQuP-Path 算法，该算法维护并连续减少一组候选路径，直到只剩下最佳路径。此算法以高置信度识别最佳路径以及低量子资源成本。
本文的贡献如下：

•
我们提出了一个量子网络模型 BeQuP，该模型具有一个基准测试子程序，用于在链路级和路径级基准测试下确定具有最高保真度的路径（第 III 节）。
•
我们介绍了两种算法，用于链路级基准测试的 BeQuP-Link（第 IV 节）和用于路径级基准测试的 BeQuP-Path（第 V 节）。这两种算法都以高概率确定了最佳路径，我们分析了它们的量子资源复杂性要求。
•
除了量子通信的保真度指标外，QN 的另一个关键应用是量子密钥分发（QKD）[3]. 密钥分发协议的效率由密钥分数（SKF）量化。我们扩展了我们的模型和算法，以确定第六部分 SKF 最高的最佳路径。
•
我们验证了所提出的算法的性能，并使用量子网络模拟器 NetSquid 将它们与现有基线进行比较[9]（第七节）。

第二背景

II-A 型量子网络

量子网络在节点之间传输量子态，在 QKD 等技术中发挥着关键作用[3]、量子传感[2]和量子计算[4].然而，由于通信速率衰减，长距离传输具有挑战性[1].为了克服这个问题，网络使用分层结构，其中较短的段由量子中继器连接[5]和开关[6]. 量子网络面临三个主要的噪声（误差）源：（1）量子态传输过程中的损耗错误，（2）量子门作期间的作错误[10]，以及（3）量子内存退相干，我们专注于这项工作中的前两个错误。为了减少这些错误，使用了两种主要方法：预示纠缠生成（HEG）[5]和量子纠错（QEC）[11]，其中 HEG 需要双向经典通信的帮助，而 QEC 只需要单向经典通信。
当 QEC 解决了这两个错误时，它称为单向量子网络。当 HEG 处理两个误差源时，该网络称为双向量子网络。文献中[10]，双向量子网络也称为第一代量子网络，而单向量子网络称为第三代量子网络。结合 QEC 和 HEG 方法的网络称为第二代量子网络。

II-B 型网络基准测试

构建量子网络的主要挑战之一是量子信息容易受到环境、设备和窃听者可能造成的噪声源的影响。噪声通常建模为量子通道Λ将一个输入量子态转换为另一个输出量子态[4，第 8 章].我们注意到量子通道主要是一个数学模型，量子通道可以有不同的物理实现，例如单向或双向量子网络。已经引入了几个指标来表征量子通道中的噪声;我们将使用 Fidelity [4]，用于衡量输出量子态的好坏Λ⁢(|ψ⟩⁢⟨ψ|)近似输入量子态|ψ⟩⁢⟨ψ|.正式地，我们定义了通道的平均保真度Λ如f≔∫Tr⁡[Λ⁢(|ψ⟩⁢⟨ψ|)⁢|ψ⟩⁢⟨ψ|]⁢𝑑ψ其中积分被所有纯量子态所取代|ψ⟩.
要估计量子通道的保真度，可以使用网络基准测试 [8]. 网络基准测试的工作原理是，信道旋转过程[12]，这涉及 Clifford 运算的随机应用[13]，将任何量子通道转换为保持相同保真度级别的去极化通道。通过反复访问这些去极化通道，可以评估它们的平均保真度，从而有效地反映原始通道的保真度。此过程利用参数ℳ和T0哪里ℳ，称为 Bounce Number Set，由一系列整数组成，并且T0指示每个退回编号的重复次数m∈ℳ.当节点S对状态应用随机 Clifford作并将其转发到 nodeD，在将其发送回S.
计算通道的平均保真度节点之间S和D，则执行此序列T0每个m∈ℳ，请执行以下步骤：（i）节点S生成初始状态;（ii）节点S和D退回状态m次;（iii）节点S执行最终作并测量状态。的平均值T0测量结果，表示为bm，通常称为生存概率，由指数模型确定bm=一个⁢p2⁢m哪里一个是补偿量子态准备和测量误差的常数，并且p是 twirled 通道的去极化参数。从去极化参数p，可以将通道保真度推断为f=(1+p)/2 [8]. 因此，通过应用这个指数模型bm=一个⁢p2⁢m到收集到的网络基准测试数据中，可以估计去极化参数p，表示为p^，并推断通道保真度f^=(1+p^)/2. 我们表示节点上的网络基准测试S和D（表示为xS↔D）T0repetitions 和ℳbounce number 设置为板凳⁢(xS↔D;T0,ℳ).
基准测试过程需要两者S和D能够执行所需的量子运算和测量。单向量子网络中的大多数节点（例如量子开关）都可以支持此要求，但只能由双向量子网络中的源节点和目标节点支持，其中大多数内部节点通常是简单的中继器。稍后，我们对前者进行建模，能够将每个链接作为链路级 基准测试，而后者作为路径级基准测试。表示将一个链接作为量子资源单位进行基准测试的成本。然后，对由x链接消耗x的量子资源单位，因为此基准测试会在 PATH 中的所有链接中产生成本。

第三型

III-A 系列网络模型参数

考虑一对源节点和目标节点，这些节点由量子网络中的多条路径连接（如图 1 所示）。让K∈ℕ+表示这两个节点之间的量子路径总数，形成一组路径𝒦≔{1,2,...,K}. 让L∈ℕ+表示组成这些Kpaths 和 letℒ≔{1,2,...,L}是 link 集。适用于任何路径k∈𝒦让𝒙⁢(k)≔(xℓ⁢(k))ℓ∈ℒ∈{0,1}L是一个二进制向量，表示链接ℓ属于 PATHk哪里xℓ⁢(k)=1if 链接ℓ位于路径k和xℓ⁢(k)=0否则。让L⁢(k)≔∑ℓ∈ℒxℓ⁢(k)表示 PATH 中的量子链路数k和ℒ⁢(k)≔{ℓ∈ℒ:xℓ⁢(k)=1}作为 path 中的量子链接集k. 在不损失一般性的情况下，假设矩阵𝑿≔{𝒙⁢(1),𝒙⁢(2),...,𝒙⁢(K)}的排名正好为L.如果没有，我们可以将矩阵投影到较低维空间，其中相应的网络图保留相同的最佳臂。
每个量子链路ℓ∈ℒ与保真度参数关联fℓ∈(0,1)和去极化参数pℓ∈(0,1). 我们使用粗体字，例如𝒑=(pℓ)ℓ∈ℒ来表示向量，其中L条目，每个条目对应于L链接。同样，每个路径k∈𝒦与保真度参数关联f（路径）⁢(k)和去极化参数p（路径）⁢(k). 去极化参数p（路径）⁢(k)等于路径中每个量子链路的去极化参数的乘积[14,8]那是

在这个模型中，网络拓扑是先验已知的，但链路和路径参数，例如fℓ,f（路径）⁢(k)）是未知的，需要对这些参数进行基准测试（学习）。

III-B 型保真度参数转换

我们的目标是确定最佳路径，即具有最高通道保真度的路径f（路径）⁢(k)在量子网络中，即k∗=精氨酸⁢麦克斯k∈𝒦⁡f（路径）⁢(k),在不失去通用性的情况下，我们假设最佳路径是唯一的。我们首先详细阐述了保真度的单调双射映射f（路径）如下

其中映射（a）是由于保真度与网络基准测试的量子路径的去极化参数之间的关系（第 II-B 节），即f（路径）⁢(k)=(p（路径）⁢(k)+1)/2, 映射（b）是通过日志在（1）、我们定义F⁢(k)作为转换后的保真度，因为它与原始保真度具有单调双射f（路径）⁢(k).
为了便于表示，我们略微滥用了标量的表示法日志函数来表示逐项向量日志函数，使得日志⁡𝒑=(日志⁡pℓ)ℓ∈ℒ. 因此，变换后的保真度函数F⁢(k)可以表示为二进制向量的内积𝒙⁢(k)对于 pathk和向量日志⁡𝒑那是F⁢(k)=𝒙T⁢(k)⁢日志⁡𝒑. 如精氨酸⁢麦克斯k∈𝒦⁡f（路径）⁢(k)=精氨酸⁢麦克斯k∈𝒦⁡F⁢(k)，最佳路径k∗也可以通过最大化F⁢(k)在（2）中。此后，我们估计去极化参数pℓ网络中的每个量子链路的pℓ以计算保真度。
为了便于以后分析我们的算法，我们定义了两个保真度差距。对于链路级别，我们定义间隙如下：

链路差距Δℓ测量最佳全局路径的保真度差异k∗以及（不包含）包含 link 的路径中的最佳本地路径ℓ当链接（不）属于最佳路径时。对于路径级，我们定义任何次优路径的路径间隙k≠k∗,Δ（路径）⁢(k)≔F⁢(k∗)−F⁢(k),这就是最佳路径的保真度差异k∗和次优路径k≠k∗;和最佳路径k∗，则间隙为Δ（路径）⁢(k∗)≔分钟k≠k∗⁡Δ（路径）⁢(k).

III-C 系列链路级和路径级网络基准测试

在第 II-B 节中，我们将网络基准测试子程序定义为板凳⁢(xS↔D;T0,ℳ)，用于估计去极化参数pS↔D节点之间的通道S和D，这两个节点都需要能够执行高级量子运算和测量。为简单起见，我们修复了弹跳数字集ℳ和回合T0并专注于选择基准测试通道x.我们将符号简化为板凳⁢(x)哪里x是基准化渠道。
根据中间量子中继器是否可以执行必要的量子作，我们考虑两种类型的基准测试应用程序：链路级和路径级基准测试。链接级基准测试 适用板凳⁢(x)到量子链路，即x=ℓ对于任何链接ℓ∈ℒ，以估计链路去极化参数pℓ.路径级基准测试（也称为端到端）适用板凳⁢(x)到量子路径，即x=ℒ⁢(k)适用于任何路径k在网络中，估计路径去极化参数p（路径）⁢(k).如第 II-B 节所述，路径级基准测试适合量子处理能力有限的量子网络，而链路级基准测试更适合具有高级量子处理能力的网络。一个链接级查询会产生一个单位的量子资源成本，而 path 上的一个路径级查询k招L⁢(k)由于路径级查询所依赖的L⁢(k)在 PATH 中建立链接。然后，我们陈述网络基准测试的结果。

引理 1 （改编自Liu 等人 [15，引理 1]).

对于任何量子链路ℓ∈ℒ，给定平均值p^ℓ之N∈ℕ+样本板凳⁢(ℓ;ℳ,T0)和参数δ∈(0,1)我们有

其中常数C取决于设置的弹跳号码ℳ、轮次T0和其他网络参数。
引理 1 表明基准测试可以高置信度估计链路的去极化参数，并且（3）描述了估计的集中率。类似的浓度结果也适用于路径级基准测试。

III-D 型在线学习问题制定

我们考虑了学习量子网络中最佳路径的问题：一个顺序决策过程，其中，在每个时间t中，学习者会选择一个链接ℓt（或路径kt）进行基准测试并接收链路（或路径）去极化参数的估计值p^ℓt（或p^（路径）⁢(kt)）从 Network Benchmarking 子例程获取。根据基准测试反馈，学习器更新每个链路（或路径）的去极化参数的估计值，然后决定在下一个插槽中对哪个进行基准测试。我们在步骤 1 中总结了该问题。
给定一个置信度参数δ∈(0,1)，我们的目标是确定最佳路径k∗充满信心1−δ，即ℙ⁢(k^输出=k∗)⩾1−δ，成本尽可能低量子资源。我们通过消耗的总量子资源来评估学习算法的性能。这称为（量子）资源复杂性，表示为Q. 让T表示算法的最后一轮（Stop Round）。然后Q=T在 link-level benchmarking 和Q=∑t=1TL⁢(kt)在路径级基准测试下。

程序 1 BeQuP：学习是圣区安图P阿斯
1:路径集𝒦、链接集ℒ, confidence 参数δ
2: 重复
3:选择链接ℓt/路径kt进行基准测试
4:观察链路级反馈Xℓt,tfrom 子例程板凳⁢(ℓt)/ 路径级别Yt⁢(kt)从板凳⁢(ℒ⁢(kt))
5: 直到确定最佳路径k∗充满信心1−δ
6:最佳路径k∗

四链路级算法

本节介绍了 BeQuP-Link 算法，通过链路级反馈和算法的资源复杂性分析来确定量子网络中的最佳路径。

算法 2 BeQuP-Link：链路级最佳路径识别
1:路径集𝒦、链接集ℒ, confidence 参数δ、置信半径函数拉德t⁢(N)、子例程 BestPath
2: **initialization：**设置时间t←L; 对每个链接进行基准测试ℓ∈ℒ一次初始化其去极化参数估计p^ℓ,t，设置相应的计数器Nℓ,t←1
3: 而 true 则执行
4: k^t←最佳路径⁢(𝒑^t,𝒦)
5:▷ 输入中性链路估计值
6: p~ℓ,t←{p^ℓ,t−拉德t⁢(Nℓ,t)如果⁢ℓ∈ℒ⁢(k^t)p^ℓ,t+拉德t⁢(Nℓ,t)否则
7:▷ 悲观/乐观的链接估计
8: k~t←最佳路径⁢(𝒑~t,𝒦)▷ 勘探
9: 如果 ℒ⁢(k^t)=ℒ⁢(k~t) 然后
10: 破▷ 确定了最佳路径
11: ℓt←精氨酸⁢麦克斯ℓ∈ℒ⁢(k^t)△ℒ⁢(k~t)拉德t(Nℓ,t)) 112套一个和ℬ、运算符一个△ℬ是两组的对称差，定义如下，一个△ℬ≔(一个∖ℬ)∪(ℬ∖一个)哪里一个∖ℬ≔一个∩ℬC是 set less作。
12:▷ 任意打破关系
13: Xℓt,t←板凳⁢(ℓt)
14: Nℓ,t+1←{Nℓ,t+1如果⁢ℓ=ℓtNℓ,t否则
15: p^ℓ,t+1←{(Xℓ,t+Nℓ,t⁢p^ℓ,t)/Nℓ,t+1如果⁢ℓ=ℓtp^ℓ,t否则
16: t←t+1
17:路径k^t

IV-A 型算法设计

IV-A1 号最佳路径子程序

给定链路去极化参数𝒑=(pℓ)ℓ∈ℒ和路径集𝒮⊆𝒦，BestPath 输出集合中的最佳路径𝒮最大化保真度函数F⁢(k)那是最佳路径:(𝒑,𝒮)→精氨酸⁢麦克斯k∈𝒮⁡F⁢(k). 例如，当输入路径𝒮=𝒦，可以通过应用 Dijkstra 算法来实现 BestPath[16]在量子网络图中查找具有边长（或链接权重）的最短路径−日志⁡(pℓ). 估算{日志⁡(pℓ)}ℓ∈ℒ并求解 BestPath 函数，我们需要传递去极化参数的估计值p^ℓ前往估价日志⁡p^ℓ, 这会给我们的算法带来额外的估计误差。稍后在 IV-B 中，我们分析了这些错误对算法资源复杂度性能的影响。

IV-A2 号BeQuP-Link 连接器算法

BeQuP-Link（算法 2）采用路径集𝒦、链接集ℒ、置信度参数δ、半径函数拉德t⁢(⋅)（稍后在定理 4 中定义）和子例程 BestPath 作为输入并返回最佳路径k∗作为输出。在每个时间段t，该算法首先调用 BestPath 返回最佳路径k^t基于当前链路估计值𝒑^t. 然后，该算法构建置信度估计p~ℓ,t对于所有链路去极化参数：使用乐观估计p~ℓ,t=p^ℓ,t+拉德t⁢(Nℓ,t)对于不在经验最佳路径中的链接k^t和悲观估计p~ℓ,t=p^ℓ,t−拉德t⁢(Nℓ,t)对于经验最佳路径中的链接k^t（第 6 行），其中拉德t⁢(Nℓ,t)是链接参数估计值的置信半径p^ℓ,t在t. 然后，根据置信度估计𝒑~t，BeQuP-Link 调用 BestPath 来计算第二好的经验路径k~t（第 8 行）。所有链接都受 EMPIRICAL Best 路径的青睐ℒ⁢(k^t)是悲观估计的，而所有其他不受欢迎的链接（不在ℒ⁢(k^t)）是乐观估计的。因此，如果另一条路径可能优于第一条经验上的最佳路径k^t，它将被确定为第二条经验最佳路径k~t.
然后，该算法检查经验最佳路径k^t和探索性最佳路径k~t都是一样的。如果是这样，没有其他手臂可能更好，算法终止并输出经验最佳路径k^t（第 9 行），这是概率较高的最佳路径。否则，算法将继续，如下所示。在对称差异中的链接之间ℒ⁢(k^t)△ℒ⁢(k~t)，即，在 path 中独占k^t或 exclusive in pathk~t中，算法会选择置信半径最大的链接拉德t⁢(Nℓ,t)（即不确定性）到基准（第 12 行）。从所选链接收到新观察后ℓt（第 13 行），该算法更新了去极化参数估计值p^ℓ,t和计数器Nℓ,t对于链接ℓt（第 14 行和第 15 行）。

IV-B 型量子资源复杂性分析

本小节介绍了算法 2 的资源复杂性，用于通过链接级反馈确定最佳路径。由于篇幅限制，本文所有理论结果的详细证明将在扩展版本中提供。

定理 2 （BeQuP-Link 的资源复杂性）。

给定置信度参数δ>0并设置 radius 函数拉德t⁢(Nℓ,t)=C⁢日志⁡(2⁢L⁢t3δ)/Nℓ,t具有相同的常量C在引理 1 中，算法 2 确定最佳路径的概率至少为1−δ以前

哪里L麦克斯≔麦克斯k∈𝒦⁡L⁢(k)是最长路径的长度。
算法 2 的资源复杂度与最长路径的长度呈二次依赖关系L麦克斯. 这L麦克斯依赖性是由于链路去极化参数的变换引入的估计误差p^ℓ前往路径去极化参数p^（路径）⁢(k)在 BestPath 函数中。在实践中，去极化参数pℓ∈(0,1)通常具有较窄的范围，例如，介于(p分钟,p麦克斯). 因为小于p分钟表示链路噪声太大，无法用于传输量子信息，并且大于p麦克斯需要高级但价格不合理的物理实现。通过这个约束，可以证明任何长度大于L分钟⁢日志1/p麦克斯⁡(1/p分钟)不能是最佳路径，其中L分钟是最短路径的长度，因此，我们可以删除这些路径并表示L麦克斯⩽L分钟⁢日志1/p麦克斯⁡(1/p分钟)，它通常比L. 因此，另一个术语∑ℓ∈ℒ(1/Δℓ2)、链接数呈线性L是算法 2 资源复杂度中的主导术语，根据最佳臂识别文献是可以避免的[17].

V路径级算法

在本节中，我们介绍了 BeQuP-Path 算法，用于通过路径级反馈确定量子网络中的最佳路径，并确定其资源复杂性。

V-A算法设计

算法 3 LinkEst 公司⁢(𝒮,N)：从路径级基准测试估计链路去极化参数
1:一组路径索引𝒮和一些样本N
2:𝝀(𝒮)←精氨酸⁢麦克斯𝝀⁡𝔼k∼𝒟⁢(𝝀,𝒮)⁢[𝒙⁢(k)⁢𝒙T⁢(k)]
3: 为 n=1,...,N 做
4:采样路径kn从𝒮带概率𝒟⁢(𝝀(𝒮),𝒮)
5: Yn←板凳⁢(ℒ⁢(kn))
6:一个←N⁢∑k∈𝒮λ(𝒮)⁢(k)⁢𝒙⁢(k)⁢𝒙T⁢(k)
7:𝒃←∑n=1N日志⁡(Yn)⁢𝒙⁢(kn)
8:日志⁡𝒑^←一个−1⁢𝒃
在路径级反馈下，我们对每条路径进行基准测试k∈𝒦并估计去极化参数p（路径）⁢(k)对于此路径。尽管可以将每条路径视为一个单独的量子"链接"，并应用 LinkSelFiE[15]算法来识别最佳路径，该算法需要大量的资源，这些资源与路径数量呈线性关系K，最大为O⁢(LL麦克斯)在最坏的情况下。也就是说，单独学习每条路径会产生资源复杂性，该复杂性在最长路径的长度上呈指数级增长L麦克斯，这对于大型量子网络来说是不切实际的。为了避免这种指数级依赖，应该利用路径之间的重叠，即路径可以共享链接。因此，我们设计了一个称为 LinkEst 的子例程，以从路径级反馈中估计每个链路的去极化参数。在本小节中，我们首先介绍 LinkEst 的详细信息，然后介绍使用路径级反馈确定最佳路径的主要算法。

V-A1 号LinkEst 公司子程序

LinkEst 子例程有两个输入：路径集𝒮和样本数量N. 注意链路级和路径级参数之间的乘法关系，p（路径）⁢(k)=∏ℓ∈ℒ⁢(k)pℓ，我们可以通过求解线性回归来估计每个环节的去极化参数，线性回归由应用日志函数添加到等式的两边，即日志⁡p（路径）⁢(k)=∑ℓ∈ℒ⁢(k)日志⁡pℓ.
LinkEst 首先按照 G 最优设计原则收集路径级样本[18]，旨在最大限度地提高估计准确性。也就是说，根据使方差矩阵最大化的分布对路径进行采样𝔼k∼𝒟⁢(𝝀,𝒮)⁢[𝒙⁢(k)⁢𝒙T⁢(k)]哪里𝒟⁢(𝝀,𝒮)是中路径的多项式分布𝒮向量中的离散概率𝝀∈[0,1]|𝒮|（第 2 行）。
使用最优设计分布𝝀(𝒮)、LinkEst 随机采样N路径集中的路径𝒮并获取路径级反馈Yn对于每个采样路径kn从路径级 Bench （第 3-5 行）。然后，这些路径级观测值用于建立一个线性方程组，每个路径一个k∈𝒮，在 LinkEst（第 6 行 - 输出）中，其解是对数去极化参数的估计值{日志⁡pℓ}ℓ∈ℒ（第 6 行 - 输出）。算法 3 中详细介绍了该过程。以下引理描述了最终估计的准确率日志⁡p^ℓ.

引理 3 （LinkEst 的准确性）。

给定路径集𝒦、链接集ℒ、置信度参数δ和 error 参数ε, 如果 LinkEst 公司的输入采样时间N⩾C0⁢(4⁢L+(6+ε)⁢L2)ε2⁢日志⁡5⁢Lδ哪里C0是一个常数，具体取决于C在引理 1 中，然后LinkEst 公司⁢(𝒦,N)algorithm （算法 3）输出𝐩t，并且至少有概率1−δ，则估计值满足

引理 3 指出，当输入样本大小N大于给定阈值时，LinkEst 会以高概率准确估计去极化参数，从而使估计的保真度F^⁢(k)=𝒙T⁢(k)⁢日志⁡𝒑^t接近真正的转换保真度F⁢(k)=𝒙T⁢(k)⁢日志⁡𝒑适用于所有路径k∈𝒦.

V-A2 号BeQuP 路径算法

如算法 4 所示，BeQuP-Path 维护一个候选臂集𝒮初始化为完整路径集𝒦，并迭代删除候选路径集，直到只剩下最佳路径。具体来说，该算法迭代两个嵌套循环。在每次由下标索引的外部循环迭代期间h（第 3 行），算法将候选路径集减半。在每次外部迭代中，该算法都会执行一个由上标索引的内部循环s以连续修剪路径集，直到候选路径集减半（第 6 行）。在每次内部迭代中，算法首先设置 confidence 参数δh(s)和 Exploration 参数ξh(s)（第 8 行）通过调用 LinkEst 子程序（第 10 行）来估计每个链路的去极化参数。这些详细参数是根据引理 3 选择的。然后，该算法通过删除明显比最佳路径差的路径来修剪路径集（第 11 行）。

算法 4 BeQuP-Path：路径级最佳路径识别
1:路径集𝒦、链接集ℒ, confidence 参数δ
2: **初始化：**候选集𝒮0←𝒦
3: 为 h=0 自 ⌈日志2⁡L⌉ 做
4:▷ 在每个h迭代
5: 𝒮h(1)←𝒮h和s←1
6: 而 |𝒮h(s)|>⌊L2h⌋ 做
7:▷ 修剪路径s迭代
8: δh(s)←36π4⋅δ(h+1)2⁢s2和εh(s)←12s
9:
日志⁡𝒑^h(s)←LinkEst 公司⁢(𝒮h(1),C0⁢2+(6+εh(s)/4)⁢L(εh(s)/4)2⁢日志⁡5⁢|𝒮h(1)|δh(s))
10: kh(s)←最佳路径⁢(𝒑^h(s),𝒮h(s))
11:
𝒮h(s+1)←{k∈𝒮h(s):(𝒙⁢(kh(s))−𝒙⁢(k))T⁢日志⁡𝒑^h(s)<εh(s)}
12:▷ 修剪路径集
13: s←s+1
14: 𝒮h+1←𝒮h(s)▷ 减半路径集
15:路径输入𝒮h+1

V-B量子资源复杂性分析

我们对 BeQuP-Path 算法的资源复杂度分析如下：

定理 4 （BeQuP-Path 的资源复杂性）。

给定置信度参数δ>0，算法 4 至少以1−δ，其消耗的总资源上限如下：

where 路径[ℓ]引用路径，其中ℓ-第大p（路径）⁢(⋅)在所有路径中，即Δ（路径）⁢([ℓ])是ℓ-第 1 个最小路径间隙。
应用 LinkSelFiE 算法[15]对 BeQuP 模型产生O⁢(L麦克斯⁢∑k=2K1(Δ（路径）⁢(k))2⁢日志⁡Kδ)资源复杂度 / 其中，总和范围对K路径可以大得多（O⁢(LL麦克斯)在最坏的情况下）比 top 以上的范围L（5）中 BeQuP 路径复杂度的路径。因此，与 LinkSelFiE 相比，BeQuP-Path 可以显著降低资源复杂性。
与（4）中 BeQuP-Link 的复杂度相比，（5）中 BeQuP-Path 的复杂度相似，但在两个关键方面有所不同：（1）路径级复杂度基于路径间隙Δ（路径）⁢([ℓ])而链路级复杂性使用链路间隙Δℓ，并且这两个差距的幅度很接近; （2）链路级复杂度具有L麦克斯2因子，这通常比线性L麦克斯路径级复杂度的依赖性。但是，在最坏的情况下K=O⁢(LL麦克斯), BeQuP-Path 的复杂度将变为O⁢(L麦克斯2⁢∑ℓ=2L1(Δ（路径）⁢([ℓ]))2⁢日志⁡Lδ),这与 BeQuP-Link 的复杂度相同。因此，路径级和链路级基准测试（及其相应的算法）都具有实际意义，具体取决于特定的量子网络场景和可用的量子资源。

六学习 QKD 的最佳路径

在本节中，我们将结果扩展到确定量子密钥分发（QKD）场景的保真度最高的路径，我们的目标是找到最大化 QKD 效率的路径。我们首先介绍 QKD（第 VI-A 节）并定义密钥分数（SKF）指标（第 VI-B 节），该指标量化了 QKD 的效率。然后，在第 VI-C 节中，我们说明了如何修改 BeQuP-Link 和 BeQuP-Path 算法，以确定具有最大 SKF 的路径。

VI-A 型背景：量子密钥分发和 BB84 协议

量子密钥分发（QKD）是量子网络的一个重要应用。它通过利用量子力学原理（如无克隆定理）在各方之间安全地共享加密密钥[7]，以防止窃听者拦截。已经为 QKD 设计了多种方案，包括 BB84[3]、E91[19]和 B92[20]等。其中，由 Bennett 和 Brassard 于 1984 年引入的 BB84 协议[3]是第一个也是最著名的 QKD 协议。该协议的流程如下：
阶段 1：量子密钥初始化。 Alice 会生成一个随机N-bit 字符串𝒙0和一个随机的N-bit 基字符串。她编码𝒙0到N量子比特，并通过量子通道将量子比特传输给 Bob。Bob 还生成了一个随机的N-bit 基字符串，并使用它来测量接收的量子比特。它们公开共享其基字符串，并仅保留基数匹配的位，从而形成初始密钥𝒙1的N/2位。第 2 阶段：噪音和窃听者检测。 Alice 随机选择𝒙1进行验证，并通过传统身份验证通道将索引发送给 Bob。他们比较这些位以确定错误率δ错误.如果错误率超过预定义的阈值，他们将中止协议。其余位形成一个键𝒙2的N/4位。*第 3 阶段：纠错和隐私放大。*基于错误率δ错误中，Alice 和 Bob 执行纠错和隐私放大，以派生更短的密钥𝒙3.
QKD 的效率是通过最终密钥的长度来衡量的𝒙3，这取决于受量子通道噪声和潜在窃听影响的误码率。第 3 阶段后保留的密钥分数称为密钥分数（SKF）。确保量子网络路径中的高 SKF 可增强 QKD 安全性。

VI-B 型QKD 目标：Secret Key 分数

为了定义 SKF，我们首先引入 Werner 状态参数wℓ（resp.，w（路径）⁢(k)）用于 Quantum Linkℓ（resp.，路径k），它描述了链路（或路径）的噪声级别。此参数取决于错误率δ错误在 BB84 的第 2 阶段。Werner 参数的两个属性至关重要：

路径的 Werner 参数是路径中链接的 Werner 参数的乘积[14]，即

Werner 链接参数wℓ与保真度相关fℓ和去极化参数pℓ如下[14]:

其中（7）的方程（a）来自 Werner 状态参数与链路上生成的纠缠对的保真度之间的关系fℓ [14]，即fℓ=3⁢wℓ+14，（7）的方程（b）来自链路保真度和去极化参数之间的关系pℓ [8]，即fℓ=pℓ+12.22请注意，在[8]是指量子通道的平均保真度，它与生成的纠缠对的纠缠保真度不同。然而，如Helsen 和 Wehner [8]，当量子通道通过隐形传态实现，并且纠缠对由相同产生时，保真度密切相关。
表示u⁢(k)作为 SKF[21]部署 BB84[3]路径k.该 SKF 可以表示为：

哪里h⁢(x)=−x⁢日志2⁡x−(1−x)⁢日志2⁡(1−x)是二进制香农熵。SKF 公制可以扩展到密钥率（SKR）是u⁢(k)和量子通道容量[21].为简单起见，我们在本文中重点介绍 SKF。 SKF 功能u⁢(k)路径k可以通过单调双射进行变换，如下所示，

其中映射（a）来自二进制熵函数的单调增加h⁢(x)为0⩽x⩽12，映射（b）遵循（6）和对数函数的单调增加，（8）遵循（7）。作为转型后的 SKFU⁢(k)具有 SKF 的单调双射u⁢(k)，我们的目标变成了找到路径k∗最大化U⁢(k).

VI-C 型用于学习 QKD 最佳路径的算法

与转换后的保真度相比F⁢(k)=∑ℓ∈ℒ⁢(k)日志⁡pℓ, 转换后的 SKF 功能U⁢(k)在（8）中涉及去极化参数的额外线性变换，即将pℓ跟(2⁢pℓ+1)/3. 由于这种转换，就保真度而言，最佳路径可能不是 SKF 的最佳路径。为了确定 SKF 的最佳路径，需要修改 BeQuP-Link 和 BeQuP-Path，以分别通过链路级和路径级基准测试来确定 QKD 的最佳路径。
对于链路级基准测试，唯一的 BestPath 需要修改。而不是找到经验最短（最佳）路径k^t使用边长−日志⁡pℓ，则 BestPath 现在使用边长−日志⁡((2⁢pℓ+1)/3).改进的 BeQuP-Link 算法的估计变换来自链路去极化参数估计p^ℓ自日志⁡((2⁢p^ℓ+1)/3).
对于路径级基准测试，修改 BeQuP-Path 更加复杂。回想一下，线性回归 LinkEst 子程序（算法 3）估计了去极化参数日志⁡p^ℓ对于每个链接ℓ.但是，在 QKD 场景中，我们需要估计日志⁡((2⁢p^ℓ+1)/3))用于 SKFU⁢(k)在（8）中。因此，为了最大化 SKF，LinkEst 需要进行以下转换，p^（路径）⁢(k)⁢→(一个)⁢日志⁡p^ℓ⁢→(b)⁢p^ℓ⁢→(c)⁢日志⁡((2⁢p^ℓ+1)/3).转换（a）通过 LinkEst 将路径级基准测试转换为链路级基准测试。变换（b）应用指数函数来否定对数，以及（c）将去极化参数转换为 Werner 参数。以下引理描述了日志⁡((2⁢p^ℓ+1)/3).结果表明，修改后的 LinkEst 的估计误差是估计日志⁡p^ℓ，需要调整 BeQuP-Path 第 11 行的路径修剪条件。

引理 5 （QKD 的 LinkEst 准确性）。

在与引理 3 相同的条件下，估计保证

总之，当 SKF 为公制时，BeQuP-Path 需要进行两项修改：（1）将过程（a）、（b）和（c）添加到 LinkEst 进行估算日志⁡((2⁢p^ℓ+1)/3)，以及（2）将第 11 行中的路径修剪条件从ε自2⁢ε.
改进的 BeQuP-Link 和 BeQuP-Path 算法可以分别使用链路级和路径级基准测试来识别量子网络中具有最大 SKF 的路径。相应的复杂性分析结果与定理 2 和 4 中的结果相同（在大Operspective）与 GapsΔℓ和Δ（路径）⁢(k)根据 SKF 定义U⁢(k)，因此此处省略了详细信息。

七模拟

在本节中，报告了 BeQuP-Link 和 BeQuP-Path 在高保真和高 SKF 路径识别任务中的性能。我们首先描述我们的实验设置并展示我们的结果，重点关注与基线相比的资源复杂性。

七-A实验设置

网络拓扑。 为了证明我们提出的算法的优势，我们使用一个简单而典型的拓扑，其中路径数约为4大于链接数的倍数，如图 2 所示。对于路径数量明显超过链接数量的拓扑，我们的算法的优势会更加明显。通过改变相邻节点之间的并行链接数量，我们构建了具有不同路径数量的网络拓扑。分配的保真度可确保唯一的最佳路径。
基线算法。 我们将我们的算法与以下基线算法进行了比较：（1） LinkSelFiE[15]，（2）成功[22]、（3） Uniform-Path 和（4） Uniform-Link。 LinkSelFiE、SuccElim 和 Uniform-Path 是将 Bench 应用于量子路径的路径级算法。 LinkSelFiE 和 SuccElim 使用消除策略来确定最佳路径。 Uniform-Path（统一路径）在所有路径（或链接）上统一应用 Bench 并选择经验最佳路径。T0对于 Uniform-Path 和 Uniform-Link 设置为 200，以确保准确估计。较小的值T0，10 用于 SuccElim、BeQuP-Link 和 BeQuP-Path，因为这些算法会多次迭代对链路或路径进行基准测试。我们指定 bounce number setℳ={1,2,...,10}对于所有算法，请遵循[8].
Noise Models（噪声模型）。 我们使用四种典型的量子噪声模型来模拟量子噪声[4]：（1）去极化，（2）去相，（3）幅度阻尼，和（4）位翻转噪声。这些噪声模型在 NISQ 时代的量子网络中很常见。我们在图 2 中定义每个链路的保真度，如下所示：对于节点 C 和 D 之间的链路，一条链路的保真度为 0.99，其他链路的保真度从 0.95 降低，每条链路降低 0.1。对于节点 A 和 B 之间以及节点 B 和 C 之间的两个链接，保真度分别设置为 0.99 和 0.90。此设置可确保最佳路径是唯一的，并且路径是可区分的。为了确保这些噪声模型之间的公平比较，我们将给定的保真度值转换为初始化每个模型所需的相应噪声参数。所有网络基准测试作，例如 Clifford 门，都被假定为无噪声。如果它们有噪声，则可以首先单独对这些门进行基准测试[23]然后补偿它们对网络基准测试的影响。
所有算法均由 NetSquid 的现成量子网络模拟[9]. 我们对 10 次试验的评估结果进行平均，并在每个图中包含生成的误差线。

图 2：我们的实验中使用的网络拓扑示例。它有n+4links 和4⁢nA 和 D 之间的路径。

图 3：不同噪声模型下量子资源复杂性的比较，用于高保真路径识别。

图 4：不同噪声模型下用于高 SKF 路径识别的量子资源复杂性比较。

七-B高保真路径识别

我们首先通过将高保真路径识别算法应用于具有不同路径数的网络来评估它们的性能K=4⁢n通过变化n∈{2,3,...,7}并测量资源消耗（复杂性）。终止后，所有算法都会成功识别最佳路径。图 3 显示了不同噪声模型下资源消耗与路径数之间的关系，其中资源消耗通过消耗的量子纠缠对总数来量化。如图 3 所示， Uniform-Path 的资源复杂性与路径数量成比例地扩展，因为它为每个路径分配的资源相等。同样，由于基于网络拓扑的涉及链接数量增加，Uniform-Link 的资源复杂性会随着路径数量的增加而增加。相比之下，LinkSelFiE、SuccElim、BeQuP-Link 和 BeQuP-Path 可以根据链路或路径的质量自适应分配资源。然而，LinkSelFiE 和 SuccElim 与拓扑无关，这意味着它们将每条路径视为独立的路径，并忽略了重叠的结构，从而导致资源复杂性明显增加。相反，BeQuP-Path 利用路径之间的重叠链路来优化资源复杂性，而 BeQuP-Link 会跟踪每个量子链路的估计值，并有选择地对链路进行基准测试以区分路径，从而实现最佳性能。 BeQuP-Path 的曲线在路径数量方面比 BeQuP-Link 的曲线具有更高的斜率。因为 BeQuP-Path 的附加 LinkEst 子例程用于将路径级观测值转移到链路级参数，引入了更高的估计误差，从而导致其总量子资源复杂度中的常系数更高。

七-C最佳 SKF 路径识别

我们通过在具有不同路径数量的网络中应用算法来识别最佳 SKF 路径的性能K以及测量量子资源复杂性。获取路径的 SKF 需要有关路径中所有链接的信息。但是，LinkSelFiE、SuccElim 和 Uniform-Path 没有链路估计过程，因此无法完成此任务。因此，我们只将我们的算法 BeQuP-Link 和 BeQuP-Path 与 Uniform-Link 进行比较。结果如图 4 所示。与在高保真路径识别中观察到的趋势类似， BeQuP-Link 和 BeQuP-Path 在所有噪声模型中的资源复杂度都比 Uniform-Link 低得多，证明了它们的效率。

八相关作品

量子网络中的路径选择对于实现长距离量子通信至关重要[24,15,25,26,27,28].该领域的大多数先前工作都集中在制定量子网络模型[24,14]，建议用于路径选择（路由）的协议[27], 以及评估量子通信协议的性能[24].
Van Meter 等人 [24]是最早将量子网络中路径选择问题正式化的人之一，使用每秒贝尔对作为他们的度量并评估 Dijkstra 算法的性能。尽管该指标可用于评估一般量子网络性能，但它并不直接适用于我们主要关注的通道保真度和 SKF 指标。Vardoyan 和 Wehner [14]通过制定三种不同的效用函数来研究量子网络效用最大化问题：可提炼纠缠、密钥分数（SKF）和负性。虽然他们确实考虑了 SKF 指标，但他们的工作集中在将效用最大化作为离线优化任务上，并没有解决路径选择问题或在线算法的设计，而这正是我们的重点。
最近Liu 等人 [15]研究了量子网络中的链路选择问题，将两个节点之间的路径简化为单个链路，并提出了一种在线算法 LinkSelFiE，用于选择具有最高保真度的链路。虽然 LinkSelFiE 可以推广到路径选择问题，但当路径数量很大时，它会受到维数的诅咒，如第 V-B 节所述。我们的工作通过为量子网络中的路径选择问题引入一种新的在线算法来解决这个问题，该算法适用于保真度和 SKF 度量，即使在具有许多路径的场景中也是如此。
在一组可能的动作中学习最佳动作是强化学习中的一个基本问题[22,17,18].Even-Dar 等人 [22]调查从 Stochastic Bandit 设置中的多个单独作中识别最佳作，其中每个分支对应于奖励的随机分布。Chen 等人 [17]，Du 等人 [29]专注于组合纯探索（CPE）问题，该问题涉及在一组动作组合中寻找产生最高回报的单个动作的最佳组合。具体说来Chen 等人 [17]探索 Additive Reward 函数，以及Du 等人 [29]检查 Bottleneck 函数。
Tao et al. [18]研究线性老虎机中的最佳手臂识别，旨在确定一组具有线性奖励函数的手臂中奖励最高的手臂。他们对线性奖励函数结构的关注与我们的 BeQuP 问题中的路径级反馈乘法效用函数有关。然而，他们的研究强调线性加法奖励函数，而（8）中描述的去极化参数的乘法函数或奖励对数的加法函数尚未被探索。我们的 BeQuP-Path 算法引入了一种新的参数转换程序，以根据 V-A 部分中的路径级反馈估计路径的去极化参数。

九结论

本文解决了在在线学习框架内的量子网络中确定保真度和 SKF 最佳路径的挑战。我们引入了两种在线学习算法，BeQuP-Link 和 BeQuP-Path，旨在分别利用链路级和路径级基准测试来确定最佳路径。为这两种算法提供了理论保证，证明了它们在最小化量子资源成本方面的效率。此外，我们使用 NetSquid 模拟验证了我们的算法，展示了它们相对于既定基线的性能。