On Periodic Pulse Interval Analysis with Outliers and Missing Observations

Brian M. Sadler and Stephen D. Casey

Abstract---本文研究了基于到达时间的周期性脉冲序列分析问题，该问题可能存在大量缺失观测和数据污染情况。提出了一种基于改进欧几里得算法的周期估计器，该算法是一种计算简单、稳健的方法，用于估计含噪污染数据集的最大公约数（gcd）。尽管所得估计并非最大似然估计，但通过蒙特卡洛结果与克拉美-罗界（CRB）的对比表明，该估计可作为三步算法的初始化值，在中等噪声水平下能够达到克拉美-罗界（CRB）。该方法解决了含缺失观测和异常值的线性回归问题，并与基于点过程模型的周期图方法进行了对比。此外，还提出了一种利用多个独立数据记录的扩展方法，以克服高污染水平的影响。

I. 引言

脉冲序列分析是一个长期存在的研究问题，其应用领域包括雷达[8]、[9]、[12]、[19]、[20]、通信[9]、[10]、神经学[1]、[5]、[28]和天文学[27]等。例如，在雷达系统中，需要准确估计脉冲重复间隔（PRI）[24]、[31]。类似的问题还包括在中高信噪比（SNR）下，利用相位数据[14]、[29]或过零时间[25]估计加性高斯白噪声中的频率。从最基本的层面来说，脉冲序列分析仅基于到达时间信息，该信息可通过匹配滤波器或其他检测器获得。本文假设时间分辨率足够高，忽略任何时间量化误差。

本文主要关注单个周期性脉冲序列，该序列可能存在大量缺失观测，且数据可能受到异常值污染。对于该情况，基于到达时间tjt_{j}tj的数据模型为：
tj=ϕ+kjT+ηj,j=1,...,Nt_{j}=\phi+k_{j} T+\eta_{j}, j=1, ..., Ntj=ϕ+kjT+ηj,j=1,...,N

其中，TTT为未知周期，ϕ∼U[0,T)\phi \sim U[0, T)ϕ∼U[0,T)是均匀分布的随机相位，kjk_{j}kj为非重复正整数，ηj\eta_{j}ηj是零均值加性高斯白噪声，其方差为ση2\sigma_{\eta}^{2}ση2，且满足3ση≤T23 \sigma_{\eta} \leq\frac{T}{2}3ση≤2T。最后一个假设确保了两个连续测量值在时间顺序上几乎不可能颠倒。

设SSS为NNN个到达时间的样本集，即：
S={tj}j=1N(2)S=\left\{t_{j}\right\}_{j=1}^{N} \tag{2}S={tj}j=1N(2)

不失一般性，假设SSS中的元素按降序索引，即对于j=1,...,N−1j=1, ..., N-1j=1,...,N−1，有tj>tj+1t_{j}>t_{j+1}tj>tj+1。该假设在后续分析中会发挥作用，且不存在实际应用上的困难。该模型通过kjk_{j}kj的分布考虑了缺失观测的情况，异常值未在式(1)中明确体现，但会在后续内容中讨论。高斯噪声的假设可放宽至独立同分布（iid）的非高斯噪声，但此时结果不再是最优的。此外，ϕ\phiϕ的假设可放宽至任意正常数，给定SSS的一个实现后，ϕ\phiϕ被视为未知常数。神经学中常用的其他数据模型假设脉冲产生遵循"整合-发放"机制，例如Brillinger[5]及其相关文献。在某些情况下，还可能包含累积误差项[12]。

给定样本集SSS，核心问题是恢复周期TTT，并可能需要恢复相位ϕ\phiϕ。该线性回归问题的最小方差无偏估计采用最小二乘形式[见式(3)、(4)和(7)]，但这需要已知kjk_{j}kj的值。因此，本文提出一种三步流程：

i) 直接估计TTT；

ii) 估计kjk_{j}kj；

iii) 利用估计得到的kjk_{j}kj，通过最小二乘解法优化TTT的估计。

研究表明，尽管存在大量缺失观测和数据污染，该估计方法性能良好，在许多情况下能够达到克拉美-罗界（CRB）。

上述步骤i)中TTT的直接估计通过改进的欧几里得算法获得，该算法在[6]中已有所发展。其核心思想是：在无噪声情况下，当N≥10N \geq10N≥10时，TTT极有可能是样本集{tj−ϕ}j=1N\{t_{j}-\phi\}_{j=1}^{N}{tj−ϕ}j=1N的最大公约数（gcd）[6]。改进的欧几里得算法是一种计算简单、稳健的方法，用于从含噪污染数据集中估计最大公约数（gcd）。

本文的结构如下：第二节给出估计TTT和ϕ\phiϕ的最大似然解及克拉美-罗界（CRB）。为避免估计不可靠的ϕ\phiϕ，本文通过数据集{tj−tj+1}j=1N−1\{t_{j}-t_{j+1}\}_{j=1}^{N-1}{tj−tj+1}j=1N−1进行分析。第三节简要回顾基于点过程（0-1时间序列）视角的相关研究，包括基于周期图的方法。第四节详细描述用于估计TTT的改进欧几里得算法，包括适用于污染数据的稳健版本。第五节提出上述三步优化估计流程。第六节通过蒙特卡洛仿真将算法性能与克拉美-罗界（CRB）进行对比，验证该算法在大量缺失观测和数据污染情况下的优异性能，并与周期图方法进行直接对比。此外，还提出了利用多个独立数据记录克服高污染水平的方法。第七节介绍"公共振荡器"问题及其基于本文方法的解决方案。最后是结论部分。

II. 最大似然估计

给定式(2)中的样本数据集SSS，可将其表示为：

其中，T^MEA\hat{T}_{MEA}T^MEA是通过改进欧几里得算法（MEA）获得的TTT估计，round[x]=⌊x+12⌋round [x]=\left\lfloor x+\frac{1}{2}\right\rfloorround[x]=⌊x+21⌋表示四舍五入到最近的整数。

然后，将X^d\hat{X}{d}X^d代入式(8)，得到TTT的优化估计：
T^=(X^dTRδ−1X^d)−1X^dTRδ−1y(32)\hat{T}=\left(\hat{X}{d}^{T} R_{\delta}^{-1} \hat{X}{d}\right)^{-1} \hat{X}{d}^{T} R_{\delta}^{-1} y \tag{32}T^=(X^dTRδ−1X^d)−1X^dTRδ−1y(32)

当X^d\hat{X}{d}X^d接近XdX{d}Xd时，该结果接近最优最小方差性能。优化算法如表III所示。

表III 优化改进欧几里得算法（MEA/LS算法）

步骤	操作
1	通过改进欧几里得算法（MEA）估计TTT，记为T^MEA\hat{T}_{MEA}T^MEA
2	通过式(31)估计XdX_{d}Xd
3	将XdX_{d}Xd代入式(32)，优化TTT的估计，记为T^\hat{T}T^

B. 缺失观测模型

TTT估计的性能分析不仅依赖于噪声ηj\eta_{j}ηj的分布，还依赖于kjk_{j}kj的分布。本文假设理想情况下kj=N+1−jk_{j}=N+1-jkj=N+1−j（j=1,2,...,Nj=1,2, ..., Nj=1,2,...,N），其他情况均视为存在缺失观测。迭代式改进欧几里得算法（MEA）的性能分析较为复杂，因为它涉及顺序统计量，且第一次迭代后噪声不再是独立同分布（iid）的。本文重点关注单迭代改进欧几里得算法（MEA），并考虑两种缺失观测模型。

首先，考虑缺失观测的伯努利试验模型。假设tj=ϕ+kjT+ηjt_{j}=\phi+k_{j} T+\eta_{j}tj=ϕ+kjT+ηj是SSS的一个元素（对应某个kjk_{j}kj），则kj+1=kj−1k_{j+1}=k_{j}-1kj+1=kj−1是否为SSS的元素可通过以下方式建模：
Prob(kj+1=kj−1)=p(33)Prob\left(k_{j+1}=k_{j}-1\right)=p \quad (33)Prob(kj+1=kj−1)=p(33)

其中，0≤p≤10 \leq p \leq10≤p≤1是伯努利参数。若kj−1k_{j}-1kj−1未被纳入集合，则kj−2k_{j}-2kj−2以概率ppp被纳入或以概率1−p1-p1−p被拒绝，依此类推。伯努利模型常用于时间序列分析中的缺失观测建模，例如[3]的研究。例如，当p=0.75p=0.75p=0.75时，预计25%的可能观测会缺失。因此，经过改进的欧几里得算法（MEA）单次迭代后，预计有p(N−1)p(N-1)p(N−1)个数据样本围绕TTT的真实值对称分布。需注意，这些样本是在tj−tj+1=(kj−kj+1)T+(ηj−ηj+1)t_{j}-t_{j+1}=(k_{j}-k_{j+1}) T+(\eta_{j}-\eta_{j+1})tj−tj+1=(kj−kj+1)T+(ηj−ηj+1)且kj−kj+1=1k_{j}-k_{j+1}=1kj−kj+1=1时产生的。单迭代改进欧几里得算法（MEA）通过识别并平均围绕TTT的数据簇来估计TTT。在该集合元素独立的简化假设下，有：
E[T^MEA]=T(34)E\left[\hat{T}_{MEA}\right]=T \quad(34)E[T^MEA]=T(34)

其方差为：
var{T^MEA}=σδ2p(N−1)var\left\{\hat{T}{MEA}\right\}=\frac{\sigma{\delta}^{2}}{p(N-1)}var{T^MEA}=p(N−1)σδ2

显然，在伯努利模型中，当ppp较小时，单迭代改进欧几里得算法（MEA）的性能会下降，因为平均仅利用p(N−1)p(N-1)p(N−1)个数据样本。该算法更倾向于kj−kj+1=1k_{j}-k_{j+1}=1kj−kj+1=1的情况。例如，在扫描天线场景中，可能会观测到脉冲突发序列，且突发序列之间存在相对较长的间隔，此时就会出现这种情况。本文对该情况建模如下：

设
Kl={kl,kl+1,kl+2,...,kl+nl},l=1,...,L(36)K_{l}=\left\{k_{l}, k_{l}+1, k_{l}+2, ..., k_{l}+n_{l}\right\}, l=1, ..., L (36)Kl={kl,kl+1,kl+2,...,kl+nl},l=1,...,L(36)

其中，klk_{l}kl和nln_{l}nl为正整数，且
K=K1∪K2∪⋯∪KL(37)K=K_{1} \cup K_{2} \cup \cdots \cup K_{L} \tag{37}K=K1∪K2∪⋯∪KL(37)

令kl+1=(kl+nl)+mlk_{l+1}=(k_{l}+n_{l})+m_{l}kl+1=(kl+nl)+ml（mlm_{l}ml为正整数），则式(1)中的kjk_{j}kj集合由KKK组成。这导致数据中出现长度为nln_{l}nl的样本突发序列，且突发序列之间存在mlm_{l}ml个缺失观测或间隔。nln_{l}nl和mlm_{l}ml可随机或确定性选择。作为确定性示例，假设对于所有lll，nl=3n_{l}=3nl=3且ml=7m_{l}=7ml=7，L=3L=3L=3且k1=1k_{1}=1k1=1，则式(37)得到的集合为：
K=K1∪K2∪K3={1,2,3,4,11,12,13,14,21,22,23,24}\begin{aligned} K & =K_{1} \cup K_{2} \cup K_{3} \\ & =\{1,2,3,4,11,12,13,14,21,22,23,24\} \end{aligned}K=K1∪K2∪K3={1,2,3,4,11,12,13,14,21,22,23,24}

这些值构成式(1)中用于生成数据集SSS的kjk_{j}kj。

C. 异常值剔除

式(2)中的数据集SSS可能包含任意异常值。在这种情况下，SSS首先按照式(1)生成，然后通过在无异常值SSS的范围内（即[min(S),max(S)][min (S), max (S)][min(S),max(S)]）均匀分布选择数据来添加任意异常值。例如，当N=100N=100N=100且异常值比例为5%时，SSS包含95个符合式(1)的数据样本和5个在95个样本范围内的任意样本。需注意，这些异常值并非式(1)中TTT的含噪整数倍，而是时间上完全随机的数据。

自然，我们希望以某种方式从原始数据中剔除异常值，但在存在缺失观测、噪声和任意位置异常值的情况下，异常值剔除策略并不明确。本文提出利用改进的欧几里得算法（MEA）剔除异常值，因为该算法在估计TTT时自然会排除大部分异常值。假设通过表II中的稳健改进欧几里得算法（MEA）获得初始估计T^MEA\hat{T}{MEA}T^MEA，并将其用于表III中优化改进欧几里得算法（MEA）的初始化。异常值剔除策略如下：优化估计算法的步骤2和步骤3（见表II）不再重用所有数据，而是仅保留用于生成T^MEA\hat{T}{MEA}T^MEA的数据。设子集S′⊂SS' \subset SS′⊂S表示该数据，其元素为tj′t_{j}'tj′（j=1,...,N′<Nj=1, ..., N'<Nj=1,...,N′<N）。

表IV 含异常值剔除的优化改进欧几里得算法

步骤	操作
1	通过改进欧几里得算法（MEA）估计TTT，记为T^MEA\hat{T}_{MEA}T^MEA，并保存集合S′⊂SS^{\prime} \subset SS′⊂S
2	通过式(39)估计XdX_{d}Xd
3	将XdX_{d}Xd代入式(40)，优化TTT的估计，记为T^′\hat{T}^{\prime}T^′

构造元素为yj′=tj′−tj+1′y_{j}'=t_{j}'-t_{j+1}'yj′=tj′−tj+1′的y′y'y′，并求解：
X^d′=round[1T^MEAy′](39)\hat{X}{d}'=round\left[\frac{1}{\hat{T}{MEA}} y'\right] \tag{39}X^d′=round[T^MEA1y′](39)

优化估计为：
T^′=(X^d′T(Rδ′)−1X^d′)−1X^d′T(Rδ′)−1y′(40)\hat{T}'=\left(\hat{X}{d}^{\prime T}\left(R{\delta}'\right)^{-1} \hat{X}{d}'\right)^{-1} \hat{X}{d}^{\prime T}\left(R_{\delta}'\right)^{-1} y' \tag{40}T^′=(X^d′T(Rδ′)−1X^d′)−1X^d′T(Rδ′)−1y′(40)

其中，(Rδ′)−1(R_{\delta}')^{-1}(Rδ′)−1的形式与之前相同，仅尺寸发生变化。该算法如表IV所示，与表III中的优化改进欧几里得算法（MEA）相比，仅步骤1中的数据量有所减少。

一般情况下，当存在异常值时，T^′\hat{T}'T^′无法达到克拉美-罗界（CRB），但可能接近该界。这是由于S′S'S′中可能包含无法完全避免的任意异常值。设sm∈S′s_{m} \in S'sm∈S′表示SSS中的第mmm个异常值，考虑两种情况：第一，若两个异常值满足sm−sn≈Ts_{m}-s_{n} \approx Tsm−sn≈T，则改进的欧几里得算法（MEA）会将它们视为有效数据；第二，若sm≈kT+ϕs_{m} \approx k T+\phism≈kT+ϕ（kkk为整数），则改进的欧几里得算法（MEA）会将sms_{m}sm视为有效数据。显然，异常值数量越多，出现这些情况的可能性越大。第一种情况通常会对T^′\hat{T}'T^′产生更大的负面影响，因为它会污染X^d′\hat{X}_{d}'X^d′。在没有额外信息的情况下，这两种情况中的异常值都难以识别和剔除。但如果有其他可用信息（例如异常值的分布信息），则利用这些信息剔除异常值是可行且有价值的。

D. 多数据记录

若有多个独立的SSS实现可用，则可在阈值以下的过渡区域显著改进TTT的估计。这是因为对于相对较小的NNN，T^\hat{T}T^呈现出非高斯分布（后续将给出N=100N=100N=100的示例）。特别是在阈值区域，T^\hat{T}T^表现出重尾分布。因此，当对多个实现的T^(n)\hat{T}{(n)}T^(n)（n=1,2,...,Nrn=1,2, ..., N{r}n=1,2,...,Nr表示NrN_{r}Nr个总实现中的第nnn个）进行平均时，本文采用样本均值的稳健替代方法。具体而言，剔除与T^(n)\hat{T}{(n)}T^(n)的稳健标准差估计显著偏离的值（其中{T^(n)}n=1Nr\{\hat{T}{(n)}\}{n=1}^{N{r}}{T^(n)}n=1Nr包含所有实现的TTT估计）。

采用稳健标准差估计（见Ljung [18, 第400页]）：
σ^r=σ~0.7(41)\hat{\sigma}_{r}=\frac{\tilde{\sigma}}{0.7} \quad(41)σ^r=0.7σ~(41)

其中，σ~\tilde{\sigma}σ~（中位数绝对偏差）是{∣T^(n)−T~∣}\{|\hat{T}{(n)}-\tilde{T}|\}{∣T^(n)−T~∣}的中位数，T~\tilde{T}T~是{T^(n)}n=1Nr\{\hat{T}{(n)}\}{n=1}^{N{r}}{T^(n)}n=1Nr的中位数。例如，剔除T^(n)>3σ^r\hat{T}{(n)}>3 \hat{\sigma}{r}T^(n)>3σ^r的值（视为受异常值污染），剩余Nr′<NrN_{r}'<N_{r}Nr′<Nr个TTT估计。然后，对剩余Nr′N_{r}'Nr′个T^(n)\hat{T}{(n)}T^(n)值进行平均，得到最终估计：
T^M=1Nr′∑n=1Nr′T^(n)\hat{T}{M}=\frac{1}{N_{r}'} \sum_{n=1}^{N_{r}'} \hat{T}_{(n)}T^M=Nr′1n=1∑Nr′T^(n)

该方法具有数据自适应性：若数据并非重尾分布，则σ^r\hat{\sigma}{r}σ^r将非常接近传统标准差，导致任意nnn对应的T^(n)\hat{T}{(n)}T^(n)被剔除的概率极低，因此式(42)将退化为对所有实现的样本均值。

在独立性假设下，T^M\hat{T}{M}T^M的克拉美-罗界（CRB）为BTd/NrB{T_{d}} / N_{r}BTd/Nr[见式(12)]。一般情况下，由于式(42)中可能剔除部分数据，T^M\hat{T}{M}T^M无法达到该界，但如后续章节所示，在中高信噪比（SNR）下，T^M\hat{T}{M}T^M可能非常接近克拉美-罗界（CRB）。

注记：

ϕ\phiϕ和TTT的估计是线性回归问题，类似于直线拟合，其中ϕ\phiϕ为截距，TTT为斜率。观测到的含噪数据对斜率变化的敏感性远高于对截距变化的敏感性，这使得截距的估计难度大得多。ϕ\phiϕ的最大似然估计的克拉美-罗界（CRB）为O(N−1)O(N^{-1})O(N−1)，而TTT的最大似然估计的克拉美-罗界（CRB）为O(N−3)O(N^{-3})O(N−3)，例如Kay [15, 第43页]的研究。前文已指出，差分数据情况下TTT估计的克拉美-罗界（CRB）是原始数据情况下的两倍[见式(13)]；但该结果假设已知XXX或XdX_{d}Xd，而改进的欧几里得算法（MEA）方法无需此假设。
可通过式(19)获得ϕ\phiϕ的估计，该估计无需已知XXX或XdX_{d}Xd。ϕ^x\hat{\phi}{x}ϕ^x并非最大似然估计，即使在中等噪声水平下也具有较高的方差。为进行对比，本文实现了一种基于式(7)的优化算法：利用X^=round[1T^MEA(t−ϕ^x)]\hat{X}=round\left[\frac{1}{\hat{T}{MEA}}\left(t-\hat{\phi}{x}\right)\right]X^=round[T^MEA1(t−ϕ^x)]估计XXX（其中ϕ^x\hat{\phi}{x}ϕ^x是式(19)的相位估计），然后将X^\hat{X}X^代入式(7)，同时优化T^MEA\hat{T}{MEA}T^MEA和ϕ^x\hat{\phi}{x}ϕ^x。由于ϕ^x\hat{\phi}{x}ϕ^x的质量较差，该方法性能相对较差。即使在低抖动率下，与T^MEA\hat{T}{MEA}T^MEA相比也几乎没有改进，因此未给出该方法的实验结果。因此，若XXX未知，建议使用yj=tj−tj+1y_{j}=t_{j}-t_{j+1}yj=tj−tj+1，避免估计ϕ\phiϕ。可在TTT得到准确估计后再获取ϕ\phiϕ的估计。
如前所述，稳健改进欧几里得算法（MEA）需要NlogNN log NNlogN次排序操作和若干次加法操作。优化算法还需要额外进行N′N'N′次乘法（式(39)）和O((N′)2)O((N')^{2})O((N′)2)次乘法（式(40)的最小二乘解）。（注：由于优化改进欧几里得算法（MEA）中数据量的减少，N′<NN'<NN′<N。）相比之下，式(21)中基于Ps(f)P_{s}(f)Ps(f)的周期图方法的复杂度为O(NplogNp)O(N_{p} log N_{p})O(NplogNp)，其中Np≫N>N′N_{p} \gg N>N'Np≫N>N′。
可通过采用幅度调制模型，推导含缺失观测时间序列谱估计的加权相关图和周期图。例如，Parzen [21]研究了周期性缺失观测的情况，Scheinok [26]和Bloomfield [3]研究了随机伯努利缺失观测的情况（另见[11]、[22]、[23]关于含缺失观测的自回归滑动平均（ARMA）建模）。当缺失观测比例超过50%时，谱估计的性能通常会下降。特别是对于缺失比例超过50%的周期性缺失观测，非参数方法可能难以处理[21]。

本文能够在缺失观测比例任意大的情况下估计周期，且通常无需明确知道缺失观测的统计信息。这是因为本文仅考虑特定的时间序列，而非具有多个周期性的一般时间序列。

VI. 数值结果

本节通过蒙特卡洛仿真与理论克拉美-罗界（CRB）的对比，量化改进的欧几里得算法（MEA）和周期图估计的性能。每个示例均展示以下估计器的结果：

i) 表II中描述的稳健单迭代算法，记为T^MEA\hat{T}_{MEA}T^MEA；

ii) 表IV中的优化改进欧几里得算法（MEA），记为T^\hat{T}T^，其初始估计为T^MEA\hat{T}_{MEA}T^MEA；

iii) 基于式(21)的周期图，定义为：
T^p=1argmaxfPs(f)(44)\hat{T}_{p}=\frac{1}{arg max {f} P{s}(f)} \tag{44}T^p=argmaxfPs(f)1(44)

示例中，式(21)中的NpN_{p}Np取值为1024和4096；ΔT\Delta TΔT的值通过将每个SSS实现的观测数据范围在NpN_{p}Np个时间步上均匀量化得到。

所有示例中，数据集的样本量N=100N=100N=100，每个实现的相位ϕ\phiϕ从[0,T)[0, T)[0,T)中随机选择。不失一般性，设T=1T=1T=1。噪声ηj\eta_{j}ηj为白高斯噪声，方差为ση2\sigma_{\eta}^{2}ση2。为了将噪声的影响表示为tjt_{j}tj的百分比抖动，定义：
%抖动=(3ση)×100(45)\% \text{抖动} =\left(3 \sigma_{\eta}\right) × 100 \tag{45}%抖动=(3ση)×100(45)

并考虑ση\sigma_{\eta}ση的取值范围为0<%0<\%0<%抖动≤50%\leq50 \%≤50%。这与SSS的元素来自测量过程的实际情况一致，即连续测量值在时间顺序上几乎不可能或不可能颠倒。均方误差（MSE）结果为每个信噪比（SNR）值下蒙特卡洛试验的平均值，其中均方误差（MSE）通过将TTT的估计值与真实值T=1T=1T=1进行实验对比得到。每个信噪比（SNR）值至少进行1000次蒙特卡洛试验；在某些情况下，为了稳定均方误差（MSE）估计，试验次数会增加。

示例1：伯努利试验，25%缺失观测

本示例中，数据集SSS按照式(2)生成，其中kjk_{j}kj根据式(33)的伯努利模型生成，参数p=0.75p=0.75p=0.75，对应25%的观测缺失。改进的欧几里得算法（MEA）的参数x0=5x_{0}=5x0=5。图1对比了三种估计器的性能。克拉美-罗界（CRB）由式(12)得到，该式假设已知kjk_{j}kj和噪声方差。由于缺乏kjk_{j}kj的先验知识，T^MEA\hat{T}_{MEA}T^MEA和周期图估计的性能始终低于克拉美-罗界（CRB）。改进的欧几里得算法（MEA）估计的最小二乘优化版本性能良好，在中等噪声水平下达到克拉美-罗界（CRB）。如预期所示，式(31)的非线性导致T^\hat{T}T^的性能出现阈值效应，当抖动率超过25%时，性能会突然偏离最优。

示例2：伯努利试验，50%缺失观测

重复示例1，但伯努利参数p=0.5p=0.5p=0.5，其他参数与示例1一致。图2展示了对比结果。与示例1相比，由于数据的稀疏性，T^\hat{T}T^达到克拉美-罗界（CRB）的阈值有所降低。注意，与示例1相比，克拉美-罗界（CRB）发生了变化。对于固定的NNN，ppp越小，时间范围越大，因此TTT的估计可能更准确。

示例3：突发采样，80%缺失观测

本示例模拟了第五节中描述的突发采样方案。设nl=5n_{l}=5nl=5且ml=45m_{l}=45ml=45，对应每组5个连续观测，观测之间存在45个缺失观测的间隔。图3展示了该情况的结果。由于Np=1024N_{p}=1024Np=1024时采样不足，未产生有意义的估计，因此仅展示Np=4096N_{p}=4096Np=4096时的周期图结果。大量缺失观测导致周期图呈现梳状结构，其包络由缺失观测窗口决定。为了公平对比周期图技术，本文通过将频率搜索限制在真实频率附近的邻域内，对式(44)的估计进行了修正。如前一节所述，稳健改进欧几里得算法（MEA）非常适合该缺失观测模型，优化改进的欧几里得算法（MEA）在中等噪声水平下达到克拉美-罗界（CRB）。与周期图相比，均方误差（MSE）降低了7-8个数量级。

示例4：异常值剔除

重复示例3，但引入5%的异常值。此时，有效数据包含95个按照示例3生成的数据点，以及5个位于有效数据范围内的任意异常值。改进的欧几里得算法（MEA）的步长阈值x0=10x_{0}=10x0=10。图4展示了该情况的结果。所示克拉美-罗界（CRB）基于无异常值数据。估计器的性能与示例3基本一致，优化改进的欧几里得算法（MEA）在较低抖动率下显著降低了方差。然而，由于无法完全剔除所有异常值（见前一节的讨论），优化改进的欧几里得算法（MEA）的估计无法达到克拉美-罗界（CRB）。

示例5：多数据记录

本示例展示式(42)中T^M\hat{T}{M}T^M的结果。采用与示例2相同的参数，但使用Nr=5N{r}=5Nr=5个独立数据记录，每个试验进行250次蒙特卡洛实现。此时，克拉美-罗界（CRB）为BTd/5B_{T_{d}} / 5BTd/5。图5展示了四种抖动率下T^\hat{T}T^（优化改进欧几里得算法（MEA）估计）的100个实现。注意，在低信噪比（SNR）下，估计呈现明显的重尾分布，这使得T^M\hat{T}_{M}T^M中的稳健平均有效。

T^M\hat{T}{M}T^M的均方误差（MSE）结果如图6所示。在中高信噪比（SNR）（中低抖动率）下，T^M\hat{T}{M}T^M非常接近克拉美-罗界（CRB）。与图2中的单数据记录结果相比，图6中的多数据记录情况显著减小了阈值区域。（注：对所有NrN_{r}Nr个实现进行样本平均的数值结果，性能明显低于图6所示结果。）

VII. 公共振荡器问题

许多雷达和通信系统依赖于非常稳定的振荡器提供准确的时间基准。脉冲频率通常是公共振荡器频率的倍数，通过分频电路获得，例如Wiley [31, 第8.6.2节]的研究。示例包括雷达脉冲重复间隔（PRI）切换和跳频通信中伪随机抖动的跳变时间。在这些情况下，可能需要估计公共振荡器的基波周期。只要观测数据符合式(1)的形式，就可通过改进的欧几里得算法（MEA）实现该估计。

一种典型情况是连续脉冲间隔为公共振荡器周期的倍数。此时，式(1)仍然适用，其中kj−kj+1=ξk_{j}-k_{j+1}=\xikj−kj+1=ξ（ξ\xiξ为正整数）。例如，ξ\xiξ可通过伪随机方式生成。因此，改进的欧几里得算法（MEA）可给出TTT的估计，且优化算法可用于提升改进的欧几里得算法（MEA）的估计性能。

VIII. 结论

改进的欧几里得算法（MEA）为从式(1)对应的数据集SSS（即数据符合线性回归模型）中寻找周期TTT提供了一种高效工具，尤其适用于存在大量缺失观测和数据污染的情况。当存在缺失观测时，应用最小二乘最小方差解并非易事，而异常值的存在会使问题进一步复杂化。在缺乏异常值分布先验知识的情况下，异常值剔除策略并不明确。由于改进的欧几里得算法（MEA）能够在该情况下稳健工作，因此可利用它提供子集S′⊂SS' \subset SS′⊂S，用于提升改进的欧几里得算法（MEA）的周期估计性能。尽管S′S'S′通常并非完全无异常值，但异常值已大幅减少。

将kjk_{j}kj的非线性估计与子集S′S'S′结合，代入最小二乘解，得到的TTT估计在中等噪声水平下接近或达到克拉美-罗界（CRB），且总体上优于改进的欧几里得算法（MEA）的初始估计。由于kjk_{j}kj估计的非线性，TTT的优化估计呈现阈值效应，低于阈值时估计达到克拉美-罗界（CRB）。对于污染数据，若有多个独立数据记录可用，可将阈值扩展至更高的噪声水平。这无法通过简单的记录平均实现，而是需要剔除那些受污染严重的TTT估计。通过稳健估计多个记录上估计的标准差，并剔除统计变异显著较大的估计，可实现这一目标。该方法假设估计的分布为非高斯分布，但当分布并非重尾时，本文的数据自适应方法会退化为样本平均。

与周期图的对比表明了周期图性能的局限性。当然，周期图是一种更通用的工具，具有显著的稳健性和实用性。在本文的研究背景下，改进的欧几里得算法（MEA）提供了一种低复杂度算法，可与周期图结合使用，在需要线性回归的情况下改进估计性能。突发采样（突发序列之间存在大间隔）等特殊情况在这方面尤其值得关注。本文的示例远超使用周期图处理缺失观测时遇到的典型情况，尽管所采用的时间序列模型更为严格。

若能将到达时间以外的排序参数（如到达方向、脉冲持续时间、脉冲幅度等）纳入考虑，脉冲重复间隔（PRI）估计的性能可能会进一步提升，这是未来的研究方向。此外，改进的欧几里得算法（MEA）与解交织问题的结合也具有潜在研究价值。例如，可通过时间差分行列假设一个周期，然后分析窗口内的选定数据点。从这个意义上说，改进的欧几里得算法（MEA）为现有方法提供了一种新的补充工具。

附录

假设噪声的概率密度函数形式为：
f(η)=eαcos⁡(2πη/T)2πI0(α),∣η∣≤T2f(\eta)=\frac{e^{\alpha \cos (2 \pi \eta / T)}}{2 \pi I_{0}(\alpha)}, \quad|\eta| \leq \frac{T}{2}f(η)=2πI0(α)eαcos(2πη/T),∣η∣≤2T

此处，f(η)=f(−η)f(\eta)=f(-\eta)f(η)=f(−η)意味着噪声为零均值。假设kjk_{j}kj已知，则给定β\betaβ时tjt_{j}tj的概率密度函数为：
f(tj∣β)=f(tj−kjT−ϕ)f\left(t_{j} | \beta\right)=f\left(t_{j}-k_{j} T-\phi\right)f(tj∣β)=f(tj−kjT−ϕ)

对于独立同分布（iid）噪声，有：
f(t∣β)=∏j=1Nf(tj∣β)f(t | \beta)=\prod_{j=1}^{N} f\left(t_{j} | \beta\right)f(t∣β)=j=1∏Nf(tj∣β)

对数似然函数为：
L(β)=lnf(t∣β)=∑j=1N[αcos⁡2πT(tj−ϕ)−ln2πI0(α)]L(\beta)=ln f(t | \beta)=\sum_{j=1}^{N}\left[\alpha \cos \frac{2 \pi}{T}\left(t_{j}-\phi\right)-ln 2 \pi I_{0}(\alpha)\right]L(β)=lnf(t∣β)=j=1∑N[αcosT2π(tj−ϕ)−ln2πI0(α)]

因此，通过对TTT最大化L(β)L(\beta)L(β)，可得到最大似然估计：
T^ML=argmaxT∑j=1Ncos⁡(2π(tj−ϕ)T)(50)\hat{T}{ML}=argmax{T} \sum_{j=1}^{N} \cos \left(2 \pi \frac{\left(t_{j}-\phi\right)}{T}\right) \tag{50}T^ML=argmaxTj=1∑Ncos(2πT(tj−ϕ))(50)

利用以下关系：
cos⁡2πT(tj−ϕ)=Re{e2πi(tj−ϕ)T}\cos \frac{2 \pi}{T}\left(t_{j}-\phi\right)=Re\left\{e^{2 \pi i \frac{\left(t_{j}-\phi\right)}{T}}\right\}cosT2π(tj−ϕ)=Re{e2πiT(tj−ϕ)}

则对于固定的ϕ\phiϕ，最大化L(β)L(\beta)L(β)等价于：
T^x=argmaxT∣∑j=1Ne2πitjT∣2\hat{T}{x}=arg max {T}\left|\sum{j=1}^{N} e^{2 \pi i \frac{t{j}}{T}}\right|^{2}T^x=argmaxT j=1∑Ne2πiTtj 2

其形式为对发生时间为tjt_{j}tj的点过程进行谱分析。

专业术语表

英文术语	中文译法	缩写
Periodic pulse trains	周期性脉冲序列	-
Time of arrival	到达时间	-
Greatest common divisor	最大公约数	gcd
Cramér--Rao bound	克拉美-罗界	CRB
Modified Euclidean algorithm	改进的欧几里得算法	MEA
Maximum likelihood	最大似然	ML
Linear regression	线性回归	-
Least-squares solution	最小二乘解	-
Outliers	异常值	-
Missing observations	缺失观测	-
Pulse repetition interval	脉冲重复间隔	PRI
Signal-to-noise ratio	信噪比	SNR
Additive white Gaussian noise	加性高斯白噪声	AWGN
Periodogram	周期图	-
Point process	点过程	-
Zero-one time series	0-1时间序列	-
Circular convolution	循环卷积	-
Matched filter	匹配滤波器	-
Spectral analysis	谱分析	-
Bessel function	贝塞尔函数	-
Phase	相位	-
Variance	方差	-
Covariance matrix	协方差矩阵	-
Mean-square error	均方误差	MSE
Monte Carlo simulation	蒙特卡洛仿真	-
Bernoulli trials	伯努利试验	-
Burst sampling	突发采样	-
Common oscillator	公共振荡器	-
Riemann Zeta function	黎曼泽塔函数	-
Robust estimation	稳健估计	-
Median absolute deviation	中位数绝对偏差	-
Fast Fourier transform	快速傅里叶变换	FFT