On Periodic Pulse Interval Analysis with Outliers and Missing Observations

On Periodic Pulse Interval Analysis with Outliers and Missing Observations

Brian M. Sadler and Stephen D. Casey

Abstract---本文研究了基于到达时间的周期性脉冲序列分析问题,该问题可能存在大量缺失观测和数据污染情况。提出了一种基于改进欧几里得算法的周期估计器,该算法是一种计算简单、稳健的方法,用于估计含噪污染数据集的最大公约数(gcd)。尽管所得估计并非最大似然估计,但通过蒙特卡洛结果与克拉美-罗界(CRB)的对比表明,该估计可作为三步算法的初始化值,在中等噪声水平下能够达到克拉美-罗界(CRB)。该方法解决了含缺失观测和异常值的线性回归问题,并与基于点过程模型的周期图方法进行了对比。此外,还提出了一种利用多个独立数据记录的扩展方法,以克服高污染水平的影响。

I. 引言

脉冲序列分析是一个长期存在的研究问题,其应用领域包括雷达[8]、[9]、[12]、[19]、[20]、通信[9]、[10]、神经学[1]、[5]、[28]和天文学[27]等。例如,在雷达系统中,需要准确估计脉冲重复间隔(PRI)[24]、[31]。类似的问题还包括在中高信噪比(SNR)下,利用相位数据[14]、[29]或过零时间[25]估计加性高斯白噪声中的频率。从最基本的层面来说,脉冲序列分析仅基于到达时间信息,该信息可通过匹配滤波器或其他检测器获得。本文假设时间分辨率足够高,忽略任何时间量化误差。

本文主要关注单个周期性脉冲序列,该序列可能存在大量缺失观测,且数据可能受到异常值污染。对于该情况,基于到达时间tjt_{j}tj的数据模型为:
tj=ϕ+kjT+ηj,j=1,...,Nt_{j}=\phi+k_{j} T+\eta_{j}, j=1, ..., Ntj=ϕ+kjT+ηj,j=1,...,N

其中,TTT为未知周期,ϕ∼U[0,T)\phi \sim U[0, T)ϕ∼U[0,T)是均匀分布的随机相位,kjk_{j}kj为非重复正整数,ηj\eta_{j}ηj是零均值加性高斯白噪声,其方差为ση2\sigma_{\eta}^{2}ση2,且满足3ση≤T23 \sigma_{\eta} \leq\frac{T}{2}3ση≤2T。最后一个假设确保了两个连续测量值在时间顺序上几乎不可能颠倒。

设SSS为NNN个到达时间的样本集,即:
S={tj}j=1N(2)S=\left\{t_{j}\right\}_{j=1}^{N} \tag{2}S={tj}j=1N(2)

不失一般性,假设SSS中的元素按降序索引,即对于j=1,...,N−1j=1, ..., N-1j=1,...,N−1,有tj>tj+1t_{j}>t_{j+1}tj>tj+1。该假设在后续分析中会发挥作用,且不存在实际应用上的困难。该模型通过kjk_{j}kj的分布考虑了缺失观测的情况,异常值未在式(1)中明确体现,但会在后续内容中讨论。高斯噪声的假设可放宽至独立同分布(iid)的非高斯噪声,但此时结果不再是最优的。此外,ϕ\phiϕ的假设可放宽至任意正常数,给定SSS的一个实现后,ϕ\phiϕ被视为未知常数。神经学中常用的其他数据模型假设脉冲产生遵循"整合-发放"机制,例如Brillinger[5]及其相关文献。在某些情况下,还可能包含累积误差项[12]。

给定样本集SSS,核心问题是恢复周期TTT,并可能需要恢复相位ϕ\phiϕ。该线性回归问题的最小方差无偏估计采用最小二乘形式[见式(3)、(4)和(7)],但这需要已知kjk_{j}kj的值。因此,本文提出一种三步流程:

i) 直接估计TTT;

ii) 估计kjk_{j}kj;

iii) 利用估计得到的kjk_{j}kj,通过最小二乘解法优化TTT的估计。

研究表明,尽管存在大量缺失观测和数据污染,该估计方法性能良好,在许多情况下能够达到克拉美-罗界(CRB)。

上述步骤i)中TTT的直接估计通过改进的欧几里得算法获得,该算法在[6]中已有所发展。其核心思想是:在无噪声情况下,当N≥10N \geq10N≥10时,TTT极有可能是样本集{tj−ϕ}j=1N\{t_{j}-\phi\}_{j=1}^{N}{tj−ϕ}j=1N的最大公约数(gcd)[6]。改进的欧几里得算法是一种计算简单、稳健的方法,用于从含噪污染数据集中估计最大公约数(gcd)。

本文的结构如下:第二节给出估计TTT和ϕ\phiϕ的最大似然解及克拉美-罗界(CRB)。为避免估计不可靠的ϕ\phiϕ,本文通过数据集{tj−tj+1}j=1N−1\{t_{j}-t_{j+1}\}_{j=1}^{N-1}{tj−tj+1}j=1N−1进行分析。第三节简要回顾基于点过程(0-1时间序列)视角的相关研究,包括基于周期图的方法。第四节详细描述用于估计TTT的改进欧几里得算法,包括适用于污染数据的稳健版本。第五节提出上述三步优化估计流程。第六节通过蒙特卡洛仿真将算法性能与克拉美-罗界(CRB)进行对比,验证该算法在大量缺失观测和数据污染情况下的优异性能,并与周期图方法进行直接对比。此外,还提出了利用多个独立数据记录克服高污染水平的方法。第七节介绍"公共振荡器"问题及其基于本文方法的解决方案。最后是结论部分。

II. 最大似然估计

给定式(2)中的样本数据集SSS,可将其表示为:

t1t2⋮tN\]=\[1k11k2⋮⋮1kN\]\[ϕT\]+\[η1η2⋮ηN\](3)\\begin{bmatrix}t_{1} \\\\ t_{2} \\\\ \\vdots \\\\ t_{N}\\end{bmatrix}=\\begin{bmatrix}1 \& k_{1} \\\\ 1 \& k_{2} \\\\ \\vdots \& \\vdots \\\\ 1 \& k_{N}\\end{bmatrix}\\begin{bmatrix}\\phi \\\\ T\\end{bmatrix}+\\begin{bmatrix}\\eta_{1} \\\\ \\eta_{2} \\\\ \\vdots \\\\ \\eta_{N}\\end{bmatrix} \\tag{3} t1t2⋮tN = 11⋮1k1k2⋮kN \[ϕT\]+ η1η2⋮ηN (3) 其中,kj∈Nk_{j} \\in \\mathbb{N}kj∈N(自然数),且kj\>kj+1k_{j}\>k_{j+1}kj\>kj+1。其紧凑形式为: t=Xβ+η(4)t=X \\beta+\\eta \\tag{4}t=Xβ+η(4) 其中,β=\[ϕ T\]T\\beta=\[\\phi\\ T\]\^{T}β=\[ϕ T\]T,ttt、η\\etaη和XXX的定义由式(3)推导得出。通过构造差值yj=tj−tj+1=(kj−kj+1)T+(ηj−ηj+1)y_{j}=t_{j}-t_{j+1}=(k_{j}-k_{j+1}) T+(\\eta_{j}-\\eta_{j+1})yj=tj−tj+1=(kj−kj+1)T+(ηj−ηj+1)消去ϕ\\phiϕ,得到: \[y1y2⋮yN−1\]=\[k1−k2k2−k3⋮kN−1−kN\]T+\[δ1δ2⋮δN−1\]\\begin{bmatrix}y_{1} \\\\ y_{2} \\\\ \\vdots \\\\ y_{N-1}\\end{bmatrix}=\\begin{bmatrix}k_{1}-k_{2} \\\\ k_{2}-k_{3} \\\\ \\vdots \\\\ k_{N-1}-k_{N}\\end{bmatrix} T+\\begin{bmatrix}\\delta_{1} \\\\ \\delta_{2} \\\\ \\vdots \\\\ \\delta_{N-1}\\end{bmatrix} y1y2⋮yN−1 = k1−k2k2−k3⋮kN−1−kN T+ δ1δ2⋮δN−1 其中,δj=ηj−ηj+1\\delta_{j}=\\eta_{j}-\\eta_{j+1}δj=ηj−ηj+1。与式(4)类似,式(5)的紧凑形式可表示为: y=XdT+δ(6)y=X_{d} T+\\delta \\quad(6)y=XdT+δ(6) 式(6)放宽了对ϕ\\phiϕ的假设,允许ϕ\\phiϕ为任意正常数。 式(4)和式(6)均为线性回归问题。当噪声为零均值高斯噪声时,其最小二乘解可得到最小方差无偏估计,例如Kay\[15\]的研究。设噪声协方差矩阵为Rη=E\[ηηT\]R_{\\eta}=E\[\\eta \\eta\^{T}\]Rη=E\[ηηT\],则式(4)的解对应最大似然(ML)估计,其形式为最小二乘估计: β\^=(XTRη−1X)−1XTRη−1t(7)\\hat{\\beta}=\\left(X\^{T} R_{\\eta}\^{-1} X\\right)\^{-1} X\^{T} R_{\\eta}\^{-1} t \\tag{7}β\^=(XTRη−1X)−1XTRη−1t(7) 对于白噪声,Rη=ση2IR_{\\eta}=\\sigma_{\\eta}\^{2} IRη=ση2I,式(7)可进一步简化。类似地,式(6)的解为: T\^=(XdTRδ−1Xd)−1XdTRδ−1y\\hat{T}=\\left(X_{d}\^{T} R_{\\delta}\^{-1} X_{d}\\right)\^{-1} X_{d}\^{T} R_{\\delta}\^{-1} yT\^=(XdTRδ−1Xd)−1XdTRδ−1y 其中,Rδ=E\[δδT\]R_{\\delta}=E\[\\delta \\delta\^{T}\]Rδ=E\[δδT\]。假设噪声为白噪声,则: E\[δnδn+k\]={2ση2,k=0−ση2,k=±10,otherwiseE\\left\[\\delta_{n} \\delta_{n+k}\\right\]=\\begin{cases} 2 \\sigma_{\\eta}\^{2}, \& k=0 \\\\ -\\sigma_{\\eta}\^{2}, \& k= \\pm 1 \\\\ 0, \& otherwise \\end{cases}E\[δnδn+k\]=⎩ ⎨ ⎧2ση2,−ση2,0,k=0k=±1otherwise 一般情况下,RδR_{\\delta}Rδ为满秩矩阵,其逆矩阵的元素可表示为\[Rδ−1\]ij=ση−2(min(i,j)−(ij/N))\[R_{\\delta}\^{-1}\]_{i j}=\\sigma_{\\eta}\^{-2}(min (i, j)-(i j / N))\[Rδ−1\]ij=ση−2(min(i,j)−(ij/N)),该式易于计算\[14\]。值得注意的是,由于抵消效应,计算式(7)和式(8)时无需知道ση2\\sigma_{\\eta}\^{2}ση2的值。 尽管上述估计器是最优的,但使用它们需要已知系数矩阵XXX或XdX_{d}Xd。显然,当不存在缺失观测时,kj=N+1−jk_{j}=N+1-jkj=N+1−j(j=1,2,...,Nj=1,2, ..., Nj=1,2,...,N),此时不存在问题。然而,当观测存在任意缺失且kjk_{j}kj未知时,式(4)和式(6)中的未知数数量将多于方程数量。解决该困境的一种可行方法是通过三步流程优化TTT的估计:首先,采用无需已知kjk_{j}kj的替代方法估计TTT;然后,利用TTT的估计值估计kjk_{j}kj;最后,将估计得到的kjk_{j}kj代入式(4)或式(6),以优化TTT的初始估计。后续将采用该方法,通过改进的欧几里得算法在未知kjk_{j}kj的情况下获得TTT的初始估计。 本节最后将描述式(7)和式(8)所得到的最大似然估计的克拉美-罗界(CRB)。对于式(7),通过直接推导可得: var{T−T\^}≥Nση2N∑j=1Nkj2−(∑j=1Nkj)2=BT(10)var\\{T-\\hat{T}\\} \\geq \\frac{N \\sigma_{\\eta}\^{2}}{N \\sum_{j=1}\^{N} k_{j}\^{2}-\\left(\\sum_{j=1}\^{N} k_{j}\\right)\^{2}}=B_{T} \\quad(10)var{T−T\^}≥N∑j=1Nkj2−(∑j=1Nkj)2Nση2=BT(10) 以及 var{ϕ−ϕ\^}≥ση2∑j=1Nkj2N∑j=1Nkj2−(∑j=1Nkj)2(11)var\\{\\phi-\\hat{\\phi}\\} \\geq \\frac{\\sigma_{\\eta}\^{2} \\sum_{j=1}\^{N} k_{j}\^{2}}{N \\sum_{j=1}\^{N} k_{j}\^{2}-\\left(\\sum_{j=1}\^{N} k_{j}\\right)\^{2}} \\tag{11}var{ϕ−ϕ\^}≥N∑j=1Nkj2−(∑j=1Nkj)2ση2∑j=1Nkj2(11) 式(8)的克拉美-罗界(CRB)为: var{T−T\^}≥(XdTRδ−1Xd)−1=BTd(12)var\\{T-\\hat{T}\\} \\geq\\left(X_{d}\^{T} R_{\\delta}\^{-1} X_{d}\\right)\^{-1}=B_{T_{d}} \\tag{12}var{T−T\^}≥(XdTRδ−1Xd)−1=BTd(12) 由此可得,TTT的克拉美-罗界(CRB)满足: BTd=2BT(13)B_{T_{d}}=2 B_{T} \\tag{13}BTd=2BT(13) 需要注意的是,除了噪声方差越小克拉美-罗界(CRB)越低外,对于固定的NNN,kjk_{j}kj的分布范围越广,克拉美-罗界(CRB)也会越低。 ### III. 点过程分析 在后续章节描述改进的欧几里得算法之前,先简要讨论最小二乘最大似然估计的替代方法。一般方法是将到达时间tjt_{j}tj视为生成0-1时间序列或delta序列,即: x(t)=∑j=1Nδ(t−tj)x(t)=\\sum_{j=1}\^{N} \\delta\\left(t-t_{j}\\right)x(t)=j=1∑Nδ(t−tj) 利用式(1),可生成包含抖动数据和缺失观测的周期性脉冲序列。更复杂的模型可能包含异常值和其他交错的脉冲序列。 在x(t)x(t)x(t)中检测周期性delta序列s(t)s(t)s(t)(定义为s(t)=∑j=1Nδ(t−jT)s(t)=\\sum_{j=1}\^{N} \\delta(t-j T)s(t)=∑j=1Nδ(t−jT))时,对x(t)x(t)x(t)和s(t)s(t)s(t)进行循环卷积是一种自然且直观的方法,这相当于对s(t)s(t)s(t)(循环地)应用匹配滤波器。需要注意的是,由于x(t)x(t)x(t)中的噪声体现在脉冲位置而非幅度上,匹配滤波器并非s(t)s(t)s(t)的最优检测器。对于0-1时间序列,卷积等价于针对特定假设的相位ϕ\\phiϕ和周期TTT进行脉冲计数。实际上,检测s(t)s(t)s(t)在概念上最简单的方法是使用直方图\[31\]。尽管计数方法简单直接,但实施起来可能较为繁琐,且所得直方图可能难以解释\[31\]。在存在多个交错脉冲序列的情况下,更复杂的计数方法依赖于通过巧妙的方式缩小TTT的搜索空间\[19\]、\[20\]。 另一种方法是对於点过程x(t)x(t)x(t)进行谱分析,可通过周期图实现: Px(f)=1N∣∑j=1Nx(tj)e2πiftj∣2=1N∣∑j=1Ne2πiftj∣2(16)P_{x}(f)=\\frac{1}{N}\\left\|\\sum_{j=1}\^{N} x\\left(t_{j}\\right) e\^{2 \\pi i f t_{j}}\\right\|\^{2}=\\frac{1}{N}\\left\|\\sum_{j=1}\^{N} e\^{2 \\pi i f t_{j}}\\right\|\^{2} \\tag{16}Px(f)=N1 j=1∑Nx(tj)e2πiftj 2=N1 j=1∑Ne2πiftj 2(16) 通常,需要通过平滑处理获得一致估计,例如Bartlett\[2\]和Brillinger\[4\]的研究。通过搜索Px(f)P_{x}(f)Px(f)的峰值,可得到TTT的候选估计。研究表明,Px(f)P_{x}(f)Px(f)的峰值可提供基于点过程x(t)x(t)x(t)的TTT的近似最大似然估计\[9\],但这并不意味着Px(f)P_{x}(f)Px(f)的使用是针对数据集SSS的最大似然估计。 考虑以下情况:设噪声ηj\\eta_{j}ηj的概率密度函数(pdf)为: f(η)=eαcos⁡(2πη/T)2πI0(α),∣η∣≤T2f(\\eta)=\\frac{e\^{\\alpha \\cos (2 \\pi \\eta / T)}}{2 \\pi I_{0}(\\alpha)}, \\quad\|\\eta\| \\leq \\frac{T}{2}f(η)=2πI0(α)eαcos(2πη/T),∣η∣≤2T 其中,α\\alphaα为参数,I0(α)I_{0}(\\alpha)I0(α)是在α\\alphaα处计算的零阶贝塞尔函数。Van Trees将该概率密度函数用于分析锁相同步方案\[30, 第3章\]。当α→0\\alpha \\to 0α→0时,f(η)f(\\eta)f(η)趋近于均匀概率密度函数;当α→∞\\alpha \\to \\inftyα→∞时,f(η)f(\\eta)f(η)趋近于高斯概率密度函数。该噪声概率密度函数的优势在于,其对应的TTT的最大似然估计为(见附录): T\^x=argmaxT∣∑j=1Ne2πitjT∣2\\hat{T}_{x}=argmax_{T}\\left\|\\sum_{j=1}\^{N} e\^{2 \\pi i \\frac{t_{j}}{T}}\\right\|\^{2}T\^x=argmaxT j=1∑Ne2πiTtj 2 本文使用符号T\^x\\hat{T}_{x}T\^x表示式(14)的最大似然估计,以避免与其他周期估计(例如式(3)中对应式(1)数据的式(7)的最大似然估计)混淆。类似地,可证明该概率密度函数对应的ϕ\\phiϕ的最大似然估计为: ϕ\^x=(T2π)arg{∑j=1Ne2πitjT}\\hat{\\phi}_{x}=\\left(\\frac{T}{2 \\pi}\\right) arg \\left\\{\\sum_{j=1}\^{N} e\^{2 \\pi i \\frac{t_{j}}{T}}\\right\\}ϕ\^x=(2πT)arg{j=1∑Ne2πiTtj} 这些估计器直接依赖于指数和(与周期图类似),且无需知道概率密度函数参数α\\alphaα。使用式(16)或式(18)需要对连续频率变量f=1/Tf=1 / Tf=1/T进行精细搜索。若fff的搜索网格不够精细,可能会完全错过所需的峰值,从而增加计算量。 一般情况下,由于时间的不规则性和fff步长的精细要求,无法使用快速傅里叶变换(FFT)算法计算Px(f)P_{x}(f)Px(f)。一种替代方法是构造: s(n⋅ΔT)={1,tj∈\[n⋅ΔT,(n+1)ΔT\]0,otherwises(n\\cdot \\Delta T)= \\begin{cases}1, \& t_{j} \\in\[n \\cdot \\Delta T,(n+1) \\Delta T\] \\\\ 0, \& otherwise \\end{cases}s(n⋅ΔT)={1,0,tj∈\[n⋅ΔT,(n+1)ΔT\]otherwise n=0,1,...,Np≫N,j=1,...,N(20)n=0,1, ..., N_{p} \\gg N, j=1, ..., N \\tag{20}n=0,1,...,Np≫N,j=1,...,N(20) 然后计算周期图: Ps(f)=1Np∣∑n=0Nps(n⋅ΔT)e2πifnΔT∣2P_{s}(f)=\\frac{1}{N_{p}}\\left\|\\sum_{n=0}\^{N_{p}} s(n \\cdot \\Delta T) e\^{2 \\pi i f n \\Delta T}\\right\|\^{2}Ps(f)=Np1 n=0∑Nps(n⋅ΔT)e2πifnΔT 2 其中,ΔT\\Delta TΔT为小时间间隔。此处,s(n⋅ΔT)s(n \\cdot \\Delta T)s(n⋅ΔT)是长度为NpN_{p}Np的稀疏二进制序列,且NpN_{p}Np远大于数据量NNN。为了在构造Ps(f)P_{s}(f)Ps(f)时能够使用快速傅里叶变换(FFT),通常选择NpN_{p}Np为2的幂或高度合成数。减小ΔT\\Delta TΔT可以降低式(20)中舍入导致的时间量化误差,并提高式(21)中的频率分辨率,但会增加计算量。尽管基于快速傅里叶变换(FFT)的处理在一定程度上降低了复杂度,但仍需满足Np≫NN_{p} \\gg NNp≫N。后续将把Ps(f)P_{s}(f)Ps(f)与接下来两节中提出的改进欧几里得算法进行对比。 **注记:** 1. 与周期图相关的一种方法是循环统计量法,这是一种同步平均方法。该方法已应用于神经元脉冲序列分析\[1\]和脉冲重复间隔(PRI)检测\[8\],另见\[7\]。对于ρ\>0\\rho\>0ρ\>0,循环统计量定义为: \=tjρ−⌊tjρ⌋\\left\<\\frac{t_{j}}{\\rho}\\right\>=\\frac{t_{j}}{\\rho}-\\left\\lfloor\\frac{t_{j}}{\\rho}\\right\\rfloor⟨ρtj⟩=ρtj−⌊ρtj⌋ 其中,⌊⋅⌋\\lfloor\\cdot\\rfloor⌊⋅⌋为下取整函数。因此,\\\left\<\\frac{t_{j}}{\\rho}\\right\>⟨ρtj⟩是分数部分,满足\∈\[0,1)\\left\<\\frac{t_{j}}{\\rho}\\right\> \\in\[0,1)⟨ρtj⟩∈\[0,1)。若ρ=T/k\\rho=T / kρ=T/k(kkk为正整数),则\\\left\<\\frac{t_{i}}{\\rho}\\right\>⟨ρti⟩的直方图将出现峰值。函数\\\left\<\\frac{t_{i}}{\\rho}\\right\>⟨ρti⟩将tjt_{j}tj映射到一个圆(或折叠到一个区间)。值得注意的是: ∑j=1Ne2πitjρ=∑j=1Ne2πi\\\sum_{j=1}\^{N} e\^{2 \\pi i \\frac{t_{j}}{\\rho}}=\\sum_{j=1}\^{N} e\^{2 \\pi i\\left\<\\frac{t_{j}}{\\rho}\\right\>}j=1∑Ne2πiρtj=j=1∑Ne2πi⟨ρtj⟩ 因此,x(t)/ρx(t) / \\rhox(t)/ρ的傅里叶变换提供的信息类似于tj/ρt_{j} / \\rhotj/ρ映射到复平面单位圆上的直方图信息。 ### IV. 用于估计TTT的改进欧几里得算法 本节将描述用于估计TTT的欧几里得算法改进版本,这些版本无需已知kjk_{j}kj的值\[6\]。其核心思想是:在无噪声且ϕ=0\\phi=0ϕ=0的情况下,TTT极有可能是式(2)中样本集SSS的最大公约数(gcd)。尽管在未知kjk_{j}kj的情况下,所得估计并非最大似然估计,但如后续章节所述,该估计可通过优化达到与中等噪声水平下最大似然估计相当的结果。 本文的方法基于欧几里得算法(EA)的某些性质和集合的最大公约数(gcd)。欧几里得算法是一种求一组正整数最大公约数(gcd)的方法,例如Hardy和Wright\[13\]、Leveque\[17\]或Knuth\[16\]的研究。该算法是针对整数集Z\\mathbb{Z}Z的迭代除法过程,给定两个正整数aaa和bbb,可得到gcd(a,b)gcd(a, b)gcd(a,b),即能同时整除aaa和bbb的素因子的乘积。 该算法可扩展至求多个整数的最大公约数(gcd),也可计算元素为某个固定实数倍数的集合的最大公约数(gcd)。由此可得: gcd(k1T,...,kNT)=T⋅gcd(k1,...,kN)(24)gcd(k_{1} T, ..., k_{N} T)=T \\cdot gcd(k_{1}, ..., k_{N}) \\quad(24)gcd(k1T,...,kNT)=T⋅gcd(k1,...,kN)(24) 这种更一般的最大公约数(gcd)概念与欧几里得原始算法一致\[16, 第317-320页\]。 标准欧几里得算法涉及重复除法,对式(1)中的噪声非常敏感。因此,本文提出了一种改进的欧几里得算法(MEA)以提高对噪声的稳健性。改进的欧几里得算法(MEA)利用了以下事实\[6\]: gcd(k1,...,kN)=1gcd(k_{1}, ..., k_{N})=1gcd(k1,...,kN)=1 (在一定条件下)。该算法采用重复减法而非除法,并引入噪声阈值ϵ0\\epsilon_{0}ϵ0。基本迭代式改进欧几里得算法(MEA)如表I所示。需注意,SSS假设为降序排列。 表I 迭代式改进欧几里得算法 | 步骤 | 操作 | |----|----------------------------------------------------------------------| | 1 | 第一次迭代后,追加零 | | 2 | 构造新集合,元素为tj−tj+1t_{j}-t_{j+1}tj−tj+1 | | 3 | 将新集合按降序排序 | | 4 | 从集合中剔除\[0,ϵ0\]\[0, \\epsilon_{0}\]\[0,ϵ0\]范围内的元素 | | 5 | 若集合为空:T\^=\\hat{T}=T\^=集合的均值;若集合仅剩单个元素:T\^=\\hat{T}=T\^=该元素;否则,返回步骤1 | 改进的欧几里得算法(MEA)通过重复利用式(24)和式(25)实现。第一次迭代中,相邻元素的减法消去了相位,得到更简单的数据形式: S′={tj′}j=1N−1,其中 tj′=KjT+δj(26)S'=\\left\\{t_{j}'\\right\\}_{j=1}\^{N-1}, \\text{其中} \\ t_{j}'=K_{j} T+\\delta_{j} \\quad (26)S′={tj′}j=1N−1,其中 tj′=KjT+δj(26) 其中,Kj=kj−kj+1K_{j}=k_{j}-k_{j+1}Kj=kj−kj+1。第一次迭代后,在减法前通过步骤1追加零,以保持减法后数据中的最小值(与式(25)一致)。步骤2后,间隔约为TTT的差值将产生较小(理想情况下为零)的值。通过合理选择阈值ϵ0\\epsilon_{0}ϵ0,步骤5可将这些小值从数据中剔除。ϵ0\\epsilon_{0}ϵ0的选择由噪声分布决定。 改进的欧几里得算法(MEA)在数据样本量NNN较小时仍能取得良好效果。研究表明,给定NNN(N≥2N \\geq2N≥2)个随机选择的正整数{k1,...,kN}\\{k_{1}, ..., k_{N}\\}{k1,...,kN},有: P{gcd(k1,...,kN)=1}=\[ζ(N)\]−1P\\left\\{gcd\\left(k_{1}, ..., k_{N}\\right)=1\\right\\}=\[\\zeta(N)\]\^{-1}P{gcd(k1,...,kN)=1}=\[ζ(N)\]−1 其中,P{⋅}P\\{\\cdot\\}P{⋅}表示概率,ζ(n)\\zeta(n)ζ(n)为黎曼泽塔函数\[6, 定理3.1\]。由此可得推论: P{gcd(K1,...,KN−1)=1}=\[ζ(N−1)\]−1P\\left\\{gcd\\left(K_{1}, ..., K_{N-1}\\right)=1\\right\\}=\[\\zeta(N-1)\]\^{-1}P{gcd(K1,...,KN−1)=1}=\[ζ(N−1)\]−1 且已证明: \[1−21−N\]−1≤\[ζ(N)\]−1≤1(29)\\left\[1-2\^{1-N}\\right\]\^{-1} \\leq\[\\zeta(N)\]\^{-1} \\leq 1 \\tag{29}\[1−21−N\]−1≤\[ζ(N)\]−1≤1(29) 因此,随着NNN的增大,\[ζ(N)\]−1\[\\zeta(N)\]\^{-1}\[ζ(N)\]−1从下方迅速收敛至1。例如,\[ζ(10)\]−1=0.9990\[\\zeta(10)\]\^{-1}=0.9990\[ζ(10)\]−1=0.9990,\[ζ(16)\]−1≈0.9999\[\\zeta(16)\]\^{-1}\\approx0.9999\[ζ(16)\]−1≈0.9999。结合这些结果与式(24)可得: gcd(K1T,...,KN−1T)→T(30)gcd\\left(K_{1} T, ..., K_{N-1} T\\right) \\to T \\quad(30)gcd(K1T,...,KN−1T)→T(30) 随着N→∞N \\to \\inftyN→∞,该式依概率快速收敛。在无噪声情况下,理论表明仅需N=10N=10N=10个数据样本,算法就能以高概率得到TTT。实际应用中,对于小样本量(N=10N=10N=10)至中等样本量(N=100N=100N=100),该算法均能给出TTT的良好估计。需要注意的是,迭代式改进欧几里得算法(MEA)的收敛速度取决于kjk_{j}kj的分布范围,分布范围越大,差值趋近于TTT所需的迭代次数越多。 \[6\]中还开发并测试了改进的欧几里得算法(MEA)的其他变体,其中一种是对异常值稳健的单迭代算法。当数据集SSS满足kj−kj+1=1k_{j}-k_{j+1}=1kj−kj+1=1在较多jjj值下成立时,单迭代版本的改进欧几里得算法(MEA)是可行的。假设该条件成立,则在第一次迭代的步骤3后,将出现一组围绕TTT对称分布的数据(因为当kj−kj+1=1k_{j}-k_{j+1}=1kj−kj+1=1时,tj−tj+1≈Tt_{j}-t_{j+1} \\approx Ttj−tj+1≈T)。因此,单迭代算法通过识别围绕TTT的数据簇(步骤3后),并对该簇进行平均以估计TTT。可通过梯度算子和数据自适应阈值分离数据簇。该方法的额外优势是对SSS中任意异常值具有稳健性。稳健单迭代算法如表II所示。 表II 稳健改进欧几里得算法 | 步骤 | 操作 | |----|-------------------------------------------------------| | 1 | 构造新集合,元素为tj−tj+1t_{j}-t_{j+1}tj−tj+1 | | 2 | 将新集合按降序排序 | | 3 | 应用梯度算子,估计步长,分离长度大于x0x_{0}x0的最小步长 | | 4 | 对分离出的步长内的数据进行平均得到T\^\\hat{T}T\^,T\^\\hat{T}T\^为该集合的均值 | 单迭代算法需要两个参数:梯度阈值γ0\\gamma_{0}γ0和步长阈值x0x_{0}x0。步骤3中估计梯度,大梯度值表示数据中的步长或"边缘"。本文采用简单的梯度估计器,通过与脉冲响应卷积实现。数据自适应梯度阈值γ0\\gamma_{0}γ0选择为最大梯度值的25%,高于该阈值的数据点被视为步长边缘。25%的选择基于大量数值结果的经验,通常可减半或加倍,且不会对结果产生显著影响。边缘之间数据中最右侧(即平均幅度最小)的簇对应于围绕TTT的数据簇。所需数据簇是两个边缘之间最小(最右侧)的簇,且该簇中的数据点数量大于x0x_{0}x0。 x0x_{0}x0的选择需要在对噪声和异常值的稳健性与算法是否能得到解之间进行权衡。x0x_{0}x0值越高,单迭代算法可能并非总能得到解,但得到的估计通常更可靠;x0x_{0}x0值越低,在存在大量异常值的情况下,算法可能总能提供解,但得到的估计可能与真实TTT偏差较大。经验表明,这些错误估计通常小于真实TTT,这是由于异常值组成的虚假数据簇被误识别所致。因此,所选簇中的数据样本数量可作为所得估计T\^\\hat{T}T\^可靠性的良好度量。 **注记:** 1. \[6, 定理3.1和推论3.2\]指出,对于样本量为10或更大的数据集,最大公约数(gcd)不是真实周期的概率极低。该结果依赖于kjk_{j}kj分布的随机性假设。当然,系数也可能被确定性选择,导致该结果不成立。 2. 由于仅采用单次迭代,稳健改进欧几里得算法(MEA)的计算量非常小,大致为2N2 N2N次加法加上快速排序所需的NlogNN log NNlogN次操作,其中假设梯度算子的卷积可通过NNN次加法实现。 3. 自然可以考虑将改进的欧几里得算法(MEA)扩展至数据中存在多个周期的情况,例如包含周期集{Ti}i=1n\\{T_{i}\\}_{i=1}\^{n}{Ti}i=1n。一般来说,若TiT_{i}Ti均为彼此的有理倍数,则改进的欧几里得算法(MEA)将给出gcd(T1,...,Tn)gcd(T_{1}, ..., T_{n})gcd(T1,...,Tn);若TiT_{i}Ti无公共倍数(即至少有两个TiT_{i}Ti不是彼此的有理倍数),则改进的欧几里得算法(MEA)理想情况下返回零值。更多讨论见\[6, 第2268页\]。 ### V. 缺失观测下的最大似然性能实现 #### A. 优化改进欧几里得算法(MEA) 前一节描述的改进欧几里得算法(MEA)提供了计算简单、稳健且性能良好的TTT估计方法,但未达到克拉美-罗界(CRB)。为了优化改进欧几里得算法(MEA)的TTT估计,需要估计式(4)或式(6)中的系数矩阵XXX或XdX_{d}Xd。由于估计相位ϕ\\phiϕ存在困难(见下文注记1),差分数据方程(6)比式(4)更受青睐。若TTT已知,则可通过(1/T)y(1 / T) y(1/T)y估计XdX_{d}Xd。理想情况下,该估计由正整数组成,但TTT的不完全已知和噪声的存在通常会导致XdX_{d}Xd的估计包含非整数分量。因此,本文提出通过以下方式估计XdX_{d}Xd: X\^d=round\[1T\^MEAy\]\\hat{X}_{d}=round\\left\[\\frac{1}{\\hat{T}_{MEA}} y\\right\]X\^d=round\[T\^MEA1y

其中,T^MEA\hat{T}_{MEA}T^MEA是通过改进欧几里得算法(MEA)获得的TTT估计,round[x]=⌊x+12⌋round [x]=\left\lfloor x+\frac{1}{2}\right\rfloorround[x]=⌊x+21⌋表示四舍五入到最近的整数。

然后,将X^d\hat{X}{d}X^d代入式(8),得到TTT的优化估计:
T^=(X^dTRδ−1X^d)−1X^dTRδ−1y(32)\hat{T}=\left(\hat{X}
{d}^{T} R_{\delta}^{-1} \hat{X}{d}\right)^{-1} \hat{X}{d}^{T} R_{\delta}^{-1} y \tag{32}T^=(X^dTRδ−1X^d)−1X^dTRδ−1y(32)

当X^d\hat{X}{d}X^d接近XdX{d}Xd时,该结果接近最优最小方差性能。优化算法如表III所示。

表III 优化改进欧几里得算法(MEA/LS算法)

步骤 操作
1 通过改进欧几里得算法(MEA)估计TTT,记为T^MEA\hat{T}_{MEA}T^MEA
2 通过式(31)估计XdX_{d}Xd
3 将XdX_{d}Xd代入式(32),优化TTT的估计,记为T^\hat{T}T^

B. 缺失观测模型

TTT估计的性能分析不仅依赖于噪声ηj\eta_{j}ηj的分布,还依赖于kjk_{j}kj的分布。本文假设理想情况下kj=N+1−jk_{j}=N+1-jkj=N+1−j(j=1,2,...,Nj=1,2, ..., Nj=1,2,...,N),其他情况均视为存在缺失观测。迭代式改进欧几里得算法(MEA)的性能分析较为复杂,因为它涉及顺序统计量,且第一次迭代后噪声不再是独立同分布(iid)的。本文重点关注单迭代改进欧几里得算法(MEA),并考虑两种缺失观测模型。

首先,考虑缺失观测的伯努利试验模型。假设tj=ϕ+kjT+ηjt_{j}=\phi+k_{j} T+\eta_{j}tj=ϕ+kjT+ηj是SSS的一个元素(对应某个kjk_{j}kj),则kj+1=kj−1k_{j+1}=k_{j}-1kj+1=kj−1是否为SSS的元素可通过以下方式建模:
Prob(kj+1=kj−1)=p(33)Prob\left(k_{j+1}=k_{j}-1\right)=p \quad (33)Prob(kj+1=kj−1)=p(33)

其中,0≤p≤10 \leq p \leq10≤p≤1是伯努利参数。若kj−1k_{j}-1kj−1未被纳入集合,则kj−2k_{j}-2kj−2以概率ppp被纳入或以概率1−p1-p1−p被拒绝,依此类推。伯努利模型常用于时间序列分析中的缺失观测建模,例如[3]的研究。例如,当p=0.75p=0.75p=0.75时,预计25%的可能观测会缺失。因此,经过改进的欧几里得算法(MEA)单次迭代后,预计有p(N−1)p(N-1)p(N−1)个数据样本围绕TTT的真实值对称分布。需注意,这些样本是在tj−tj+1=(kj−kj+1)T+(ηj−ηj+1)t_{j}-t_{j+1}=(k_{j}-k_{j+1}) T+(\eta_{j}-\eta_{j+1})tj−tj+1=(kj−kj+1)T+(ηj−ηj+1)且kj−kj+1=1k_{j}-k_{j+1}=1kj−kj+1=1时产生的。单迭代改进欧几里得算法(MEA)通过识别并平均围绕TTT的数据簇来估计TTT。在该集合元素独立的简化假设下,有:
E[T^MEA]=T(34)E\left[\hat{T}_{MEA}\right]=T \quad(34)E[T^MEA]=T(34)

其方差为:
var{T^MEA}=σδ2p(N−1)var\left\{\hat{T}{MEA}\right\}=\frac{\sigma{\delta}^{2}}{p(N-1)}var{T^MEA}=p(N−1)σδ2

显然,在伯努利模型中,当ppp较小时,单迭代改进欧几里得算法(MEA)的性能会下降,因为平均仅利用p(N−1)p(N-1)p(N−1)个数据样本。该算法更倾向于kj−kj+1=1k_{j}-k_{j+1}=1kj−kj+1=1的情况。例如,在扫描天线场景中,可能会观测到脉冲突发序列,且突发序列之间存在相对较长的间隔,此时就会出现这种情况。本文对该情况建模如下:


Kl={kl,kl+1,kl+2,...,kl+nl},l=1,...,L(36)K_{l}=\left\{k_{l}, k_{l}+1, k_{l}+2, ..., k_{l}+n_{l}\right\}, l=1, ..., L (36)Kl={kl,kl+1,kl+2,...,kl+nl},l=1,...,L(36)

其中,klk_{l}kl和nln_{l}nl为正整数,且
K=K1∪K2∪⋯∪KL(37)K=K_{1} \cup K_{2} \cup \cdots \cup K_{L} \tag{37}K=K1∪K2∪⋯∪KL(37)

令kl+1=(kl+nl)+mlk_{l+1}=(k_{l}+n_{l})+m_{l}kl+1=(kl+nl)+ml(mlm_{l}ml为正整数),则式(1)中的kjk_{j}kj集合由KKK组成。这导致数据中出现长度为nln_{l}nl的样本突发序列,且突发序列之间存在mlm_{l}ml个缺失观测或间隔。nln_{l}nl和mlm_{l}ml可随机或确定性选择。作为确定性示例,假设对于所有lll,nl=3n_{l}=3nl=3且ml=7m_{l}=7ml=7,L=3L=3L=3且k1=1k_{1}=1k1=1,则式(37)得到的集合为:
K=K1∪K2∪K3={1,2,3,4,11,12,13,14,21,22,23,24}\begin{aligned} K & =K_{1} \cup K_{2} \cup K_{3} \\ & =\{1,2,3,4,11,12,13,14,21,22,23,24\} \end{aligned}K=K1∪K2∪K3={1,2,3,4,11,12,13,14,21,22,23,24}

这些值构成式(1)中用于生成数据集SSS的kjk_{j}kj。

C. 异常值剔除

式(2)中的数据集SSS可能包含任意异常值。在这种情况下,SSS首先按照式(1)生成,然后通过在无异常值SSS的范围内(即[min(S),max(S)][min (S), max (S)][min(S),max(S)])均匀分布选择数据来添加任意异常值。例如,当N=100N=100N=100且异常值比例为5%时,SSS包含95个符合式(1)的数据样本和5个在95个样本范围内的任意样本。需注意,这些异常值并非式(1)中TTT的含噪整数倍,而是时间上完全随机的数据。

自然,我们希望以某种方式从原始数据中剔除异常值,但在存在缺失观测、噪声和任意位置异常值的情况下,异常值剔除策略并不明确。本文提出利用改进的欧几里得算法(MEA)剔除异常值,因为该算法在估计TTT时自然会排除大部分异常值。假设通过表II中的稳健改进欧几里得算法(MEA)获得初始估计T^MEA\hat{T}{MEA}T^MEA,并将其用于表III中优化改进欧几里得算法(MEA)的初始化。异常值剔除策略如下:优化估计算法的步骤2和步骤3(见表II)不再重用所有数据,而是仅保留用于生成T^MEA\hat{T}{MEA}T^MEA的数据。设子集S′⊂SS' \subset SS′⊂S表示该数据,其元素为tj′t_{j}'tj′(j=1,...,N′<Nj=1, ..., N'<Nj=1,...,N′<N)。

表IV 含异常值剔除的优化改进欧几里得算法

步骤 操作
1 通过改进欧几里得算法(MEA)估计TTT,记为T^MEA\hat{T}_{MEA}T^MEA,并保存集合S′⊂SS^{\prime} \subset SS′⊂S
2 通过式(39)估计XdX_{d}Xd
3 将XdX_{d}Xd代入式(40),优化TTT的估计,记为T^′\hat{T}^{\prime}T^′

构造元素为yj′=tj′−tj+1′y_{j}'=t_{j}'-t_{j+1}'yj′=tj′−tj+1′的y′y'y′,并求解:
X^d′=round[1T^MEAy′](39)\hat{X}{d}'=round\left[\frac{1}{\hat{T}{MEA}} y'\right] \tag{39}X^d′=round[T^MEA1y′](39)

优化估计为:
T^′=(X^d′T(Rδ′)−1X^d′)−1X^d′T(Rδ′)−1y′(40)\hat{T}'=\left(\hat{X}{d}^{\prime T}\left(R{\delta}'\right)^{-1} \hat{X}{d}'\right)^{-1} \hat{X}{d}^{\prime T}\left(R_{\delta}'\right)^{-1} y' \tag{40}T^′=(X^d′T(Rδ′)−1X^d′)−1X^d′T(Rδ′)−1y′(40)

其中,(Rδ′)−1(R_{\delta}')^{-1}(Rδ′)−1的形式与之前相同,仅尺寸发生变化。该算法如表IV所示,与表III中的优化改进欧几里得算法(MEA)相比,仅步骤1中的数据量有所减少。

一般情况下,当存在异常值时,T^′\hat{T}'T^′无法达到克拉美-罗界(CRB),但可能接近该界。这是由于S′S'S′中可能包含无法完全避免的任意异常值。设sm∈S′s_{m} \in S'sm∈S′表示SSS中的第mmm个异常值,考虑两种情况:第一,若两个异常值满足sm−sn≈Ts_{m}-s_{n} \approx Tsm−sn≈T,则改进的欧几里得算法(MEA)会将它们视为有效数据;第二,若sm≈kT+ϕs_{m} \approx k T+\phism≈kT+ϕ(kkk为整数),则改进的欧几里得算法(MEA)会将sms_{m}sm视为有效数据。显然,异常值数量越多,出现这些情况的可能性越大。第一种情况通常会对T^′\hat{T}'T^′产生更大的负面影响,因为它会污染X^d′\hat{X}_{d}'X^d′。在没有额外信息的情况下,这两种情况中的异常值都难以识别和剔除。但如果有其他可用信息(例如异常值的分布信息),则利用这些信息剔除异常值是可行且有价值的。

D. 多数据记录

若有多个独立的SSS实现可用,则可在阈值以下的过渡区域显著改进TTT的估计。这是因为对于相对较小的NNN,T^\hat{T}T^呈现出非高斯分布(后续将给出N=100N=100N=100的示例)。特别是在阈值区域,T^\hat{T}T^表现出重尾分布。因此,当对多个实现的T^(n)\hat{T}{(n)}T^(n)(n=1,2,...,Nrn=1,2, ..., N{r}n=1,2,...,Nr表示NrN_{r}Nr个总实现中的第nnn个)进行平均时,本文采用样本均值的稳健替代方法。具体而言,剔除与T^(n)\hat{T}{(n)}T^(n)的稳健标准差估计显著偏离的值(其中{T^(n)}n=1Nr\{\hat{T}{(n)}\}{n=1}^{N{r}}{T^(n)}n=1Nr包含所有实现的TTT估计)。

采用稳健标准差估计(见Ljung [18, 第400页]):
σ^r=σ~0.7(41)\hat{\sigma}_{r}=\frac{\tilde{\sigma}}{0.7} \quad(41)σ^r=0.7σ~(41)

其中,σ~\tilde{\sigma}σ~(中位数绝对偏差)是{∣T^(n)−T~∣}\{|\hat{T}{(n)}-\tilde{T}|\}{∣T^(n)−T~∣}的中位数,T~\tilde{T}T~是{T^(n)}n=1Nr\{\hat{T}{(n)}\}{n=1}^{N{r}}{T^(n)}n=1Nr的中位数。例如,剔除T^(n)>3σ^r\hat{T}{(n)}>3 \hat{\sigma}{r}T^(n)>3σ^r的值(视为受异常值污染),剩余Nr′<NrN_{r}'<N_{r}Nr′<Nr个TTT估计。然后,对剩余Nr′N_{r}'Nr′个T^(n)\hat{T}{(n)}T^(n)值进行平均,得到最终估计:
T^M=1Nr′∑n=1Nr′T^(n)\hat{T}
{M}=\frac{1}{N_{r}'} \sum_{n=1}^{N_{r}'} \hat{T}_{(n)}T^M=Nr′1n=1∑Nr′T^(n)

该方法具有数据自适应性:若数据并非重尾分布,则σ^r\hat{\sigma}{r}σ^r将非常接近传统标准差,导致任意nnn对应的T^(n)\hat{T}{(n)}T^(n)被剔除的概率极低,因此式(42)将退化为对所有实现的样本均值。

在独立性假设下,T^M\hat{T}{M}T^M的克拉美-罗界(CRB)为BTd/NrB{T_{d}} / N_{r}BTd/Nr[见式(12)]。一般情况下,由于式(42)中可能剔除部分数据,T^M\hat{T}{M}T^M无法达到该界,但如后续章节所示,在中高信噪比(SNR)下,T^M\hat{T}{M}T^M可能非常接近克拉美-罗界(CRB)。

注记:

  1. ϕ\phiϕ和TTT的估计是线性回归问题,类似于直线拟合,其中ϕ\phiϕ为截距,TTT为斜率。观测到的含噪数据对斜率变化的敏感性远高于对截距变化的敏感性,这使得截距的估计难度大得多。ϕ\phiϕ的最大似然估计的克拉美-罗界(CRB)为O(N−1)O(N^{-1})O(N−1),而TTT的最大似然估计的克拉美-罗界(CRB)为O(N−3)O(N^{-3})O(N−3),例如Kay [15, 第43页]的研究。前文已指出,差分数据情况下TTT估计的克拉美-罗界(CRB)是原始数据情况下的两倍[见式(13)];但该结果假设已知XXX或XdX_{d}Xd,而改进的欧几里得算法(MEA)方法无需此假设。
  2. 可通过式(19)获得ϕ\phiϕ的估计,该估计无需已知XXX或XdX_{d}Xd。ϕ^x\hat{\phi}{x}ϕ^x并非最大似然估计,即使在中等噪声水平下也具有较高的方差。为进行对比,本文实现了一种基于式(7)的优化算法:利用X^=round[1T^MEA(t−ϕ^x)]\hat{X}=round\left[\frac{1}{\hat{T}{MEA}}\left(t-\hat{\phi}{x}\right)\right]X^=round[T^MEA1(t−ϕ^x)]估计XXX(其中ϕ^x\hat{\phi}{x}ϕ^x是式(19)的相位估计),然后将X^\hat{X}X^代入式(7),同时优化T^MEA\hat{T}{MEA}T^MEA和ϕ^x\hat{\phi}{x}ϕ^x。由于ϕ^x\hat{\phi}{x}ϕ^x的质量较差,该方法性能相对较差。即使在低抖动率下,与T^MEA\hat{T}{MEA}T^MEA相比也几乎没有改进,因此未给出该方法的实验结果。因此,若XXX未知,建议使用yj=tj−tj+1y_{j}=t_{j}-t_{j+1}yj=tj−tj+1,避免估计ϕ\phiϕ。可在TTT得到准确估计后再获取ϕ\phiϕ的估计。
  3. 如前所述,稳健改进欧几里得算法(MEA)需要NlogNN log NNlogN次排序操作和若干次加法操作。优化算法还需要额外进行N′N'N′次乘法(式(39))和O((N′)2)O((N')^{2})O((N′)2)次乘法(式(40)的最小二乘解)。(注:由于优化改进欧几里得算法(MEA)中数据量的减少,N′<NN'<NN′<N。)相比之下,式(21)中基于Ps(f)P_{s}(f)Ps(f)的周期图方法的复杂度为O(NplogNp)O(N_{p} log N_{p})O(NplogNp),其中Np≫N>N′N_{p} \gg N>N'Np≫N>N′。
  4. 可通过采用幅度调制模型,推导含缺失观测时间序列谱估计的加权相关图和周期图。例如,Parzen [21]研究了周期性缺失观测的情况,Scheinok [26]和Bloomfield [3]研究了随机伯努利缺失观测的情况(另见[11]、[22]、[23]关于含缺失观测的自回归滑动平均(ARMA)建模)。当缺失观测比例超过50%时,谱估计的性能通常会下降。特别是对于缺失比例超过50%的周期性缺失观测,非参数方法可能难以处理[21]。

本文能够在缺失观测比例任意大的情况下估计周期,且通常无需明确知道缺失观测的统计信息。这是因为本文仅考虑特定的时间序列,而非具有多个周期性的一般时间序列。

VI. 数值结果

本节通过蒙特卡洛仿真与理论克拉美-罗界(CRB)的对比,量化改进的欧几里得算法(MEA)和周期图估计的性能。每个示例均展示以下估计器的结果:

i) 表II中描述的稳健单迭代算法,记为T^MEA\hat{T}_{MEA}T^MEA;

ii) 表IV中的优化改进欧几里得算法(MEA),记为T^\hat{T}T^,其初始估计为T^MEA\hat{T}_{MEA}T^MEA;

iii) 基于式(21)的周期图,定义为:
T^p=1argmaxfPs(f)(44)\hat{T}_{p}=\frac{1}{arg max {f} P{s}(f)} \tag{44}T^p=argmaxfPs(f)1(44)

示例中,式(21)中的NpN_{p}Np取值为1024和4096;ΔT\Delta TΔT的值通过将每个SSS实现的观测数据范围在NpN_{p}Np个时间步上均匀量化得到。

所有示例中,数据集的样本量N=100N=100N=100,每个实现的相位ϕ\phiϕ从[0,T)[0, T)[0,T)中随机选择。不失一般性,设T=1T=1T=1。噪声ηj\eta_{j}ηj为白高斯噪声,方差为ση2\sigma_{\eta}^{2}ση2。为了将噪声的影响表示为tjt_{j}tj的百分比抖动,定义:
%抖动=(3ση)×100(45)\% \text{抖动} =\left(3 \sigma_{\eta}\right) × 100 \tag{45}%抖动=(3ση)×100(45)

并考虑ση\sigma_{\eta}ση的取值范围为0<%0<\%0<%抖动≤50%\leq50 \%≤50%。这与SSS的元素来自测量过程的实际情况一致,即连续测量值在时间顺序上几乎不可能或不可能颠倒。均方误差(MSE)结果为每个信噪比(SNR)值下蒙特卡洛试验的平均值,其中均方误差(MSE)通过将TTT的估计值与真实值T=1T=1T=1进行实验对比得到。每个信噪比(SNR)值至少进行1000次蒙特卡洛试验;在某些情况下,为了稳定均方误差(MSE)估计,试验次数会增加。

示例1:伯努利试验,25%缺失观测

本示例中,数据集SSS按照式(2)生成,其中kjk_{j}kj根据式(33)的伯努利模型生成,参数p=0.75p=0.75p=0.75,对应25%的观测缺失。改进的欧几里得算法(MEA)的参数x0=5x_{0}=5x0=5。图1对比了三种估计器的性能。克拉美-罗界(CRB)由式(12)得到,该式假设已知kjk_{j}kj和噪声方差。由于缺乏kjk_{j}kj的先验知识,T^MEA\hat{T}_{MEA}T^MEA和周期图估计的性能始终低于克拉美-罗界(CRB)。改进的欧几里得算法(MEA)估计的最小二乘优化版本性能良好,在中等噪声水平下达到克拉美-罗界(CRB)。如预期所示,式(31)的非线性导致T^\hat{T}T^的性能出现阈值效应,当抖动率超过25%时,性能会突然偏离最优。

示例2:伯努利试验,50%缺失观测

重复示例1,但伯努利参数p=0.5p=0.5p=0.5,其他参数与示例1一致。图2展示了对比结果。与示例1相比,由于数据的稀疏性,T^\hat{T}T^达到克拉美-罗界(CRB)的阈值有所降低。注意,与示例1相比,克拉美-罗界(CRB)发生了变化。对于固定的NNN,ppp越小,时间范围越大,因此TTT的估计可能更准确。

示例3:突发采样,80%缺失观测

本示例模拟了第五节中描述的突发采样方案。设nl=5n_{l}=5nl=5且ml=45m_{l}=45ml=45,对应每组5个连续观测,观测之间存在45个缺失观测的间隔。图3展示了该情况的结果。由于Np=1024N_{p}=1024Np=1024时采样不足,未产生有意义的估计,因此仅展示Np=4096N_{p}=4096Np=4096时的周期图结果。大量缺失观测导致周期图呈现梳状结构,其包络由缺失观测窗口决定。为了公平对比周期图技术,本文通过将频率搜索限制在真实频率附近的邻域内,对式(44)的估计进行了修正。如前一节所述,稳健改进欧几里得算法(MEA)非常适合该缺失观测模型,优化改进的欧几里得算法(MEA)在中等噪声水平下达到克拉美-罗界(CRB)。与周期图相比,均方误差(MSE)降低了7-8个数量级。

示例4:异常值剔除

重复示例3,但引入5%的异常值。此时,有效数据包含95个按照示例3生成的数据点,以及5个位于有效数据范围内的任意异常值。改进的欧几里得算法(MEA)的步长阈值x0=10x_{0}=10x0=10。图4展示了该情况的结果。所示克拉美-罗界(CRB)基于无异常值数据。估计器的性能与示例3基本一致,优化改进的欧几里得算法(MEA)在较低抖动率下显著降低了方差。然而,由于无法完全剔除所有异常值(见前一节的讨论),优化改进的欧几里得算法(MEA)的估计无法达到克拉美-罗界(CRB)。

示例5:多数据记录

本示例展示式(42)中T^M\hat{T}{M}T^M的结果。采用与示例2相同的参数,但使用Nr=5N{r}=5Nr=5个独立数据记录,每个试验进行250次蒙特卡洛实现。此时,克拉美-罗界(CRB)为BTd/5B_{T_{d}} / 5BTd/5。图5展示了四种抖动率下T^\hat{T}T^(优化改进欧几里得算法(MEA)估计)的100个实现。注意,在低信噪比(SNR)下,估计呈现明显的重尾分布,这使得T^M\hat{T}_{M}T^M中的稳健平均有效。

T^M\hat{T}{M}T^M的均方误差(MSE)结果如图6所示。在中高信噪比(SNR)(中低抖动率)下,T^M\hat{T}{M}T^M非常接近克拉美-罗界(CRB)。与图2中的单数据记录结果相比,图6中的多数据记录情况显著减小了阈值区域。(注:对所有NrN_{r}Nr个实现进行样本平均的数值结果,性能明显低于图6所示结果。)

VII. 公共振荡器问题

许多雷达和通信系统依赖于非常稳定的振荡器提供准确的时间基准。脉冲频率通常是公共振荡器频率的倍数,通过分频电路获得,例如Wiley [31, 第8.6.2节]的研究。示例包括雷达脉冲重复间隔(PRI)切换和跳频通信中伪随机抖动的跳变时间。在这些情况下,可能需要估计公共振荡器的基波周期。只要观测数据符合式(1)的形式,就可通过改进的欧几里得算法(MEA)实现该估计。

一种典型情况是连续脉冲间隔为公共振荡器周期的倍数。此时,式(1)仍然适用,其中kj−kj+1=ξk_{j}-k_{j+1}=\xikj−kj+1=ξ(ξ\xiξ为正整数)。例如,ξ\xiξ可通过伪随机方式生成。因此,改进的欧几里得算法(MEA)可给出TTT的估计,且优化算法可用于提升改进的欧几里得算法(MEA)的估计性能。

VIII. 结论

改进的欧几里得算法(MEA)为从式(1)对应的数据集SSS(即数据符合线性回归模型)中寻找周期TTT提供了一种高效工具,尤其适用于存在大量缺失观测和数据污染的情况。当存在缺失观测时,应用最小二乘最小方差解并非易事,而异常值的存在会使问题进一步复杂化。在缺乏异常值分布先验知识的情况下,异常值剔除策略并不明确。由于改进的欧几里得算法(MEA)能够在该情况下稳健工作,因此可利用它提供子集S′⊂SS' \subset SS′⊂S,用于提升改进的欧几里得算法(MEA)的周期估计性能。尽管S′S'S′通常并非完全无异常值,但异常值已大幅减少。

将kjk_{j}kj的非线性估计与子集S′S'S′结合,代入最小二乘解,得到的TTT估计在中等噪声水平下接近或达到克拉美-罗界(CRB),且总体上优于改进的欧几里得算法(MEA)的初始估计。由于kjk_{j}kj估计的非线性,TTT的优化估计呈现阈值效应,低于阈值时估计达到克拉美-罗界(CRB)。对于污染数据,若有多个独立数据记录可用,可将阈值扩展至更高的噪声水平。这无法通过简单的记录平均实现,而是需要剔除那些受污染严重的TTT估计。通过稳健估计多个记录上估计的标准差,并剔除统计变异显著较大的估计,可实现这一目标。该方法假设估计的分布为非高斯分布,但当分布并非重尾时,本文的数据自适应方法会退化为样本平均。

与周期图的对比表明了周期图性能的局限性。当然,周期图是一种更通用的工具,具有显著的稳健性和实用性。在本文的研究背景下,改进的欧几里得算法(MEA)提供了一种低复杂度算法,可与周期图结合使用,在需要线性回归的情况下改进估计性能。突发采样(突发序列之间存在大间隔)等特殊情况在这方面尤其值得关注。本文的示例远超使用周期图处理缺失观测时遇到的典型情况,尽管所采用的时间序列模型更为严格。

若能将到达时间以外的排序参数(如到达方向、脉冲持续时间、脉冲幅度等)纳入考虑,脉冲重复间隔(PRI)估计的性能可能会进一步提升,这是未来的研究方向。此外,改进的欧几里得算法(MEA)与解交织问题的结合也具有潜在研究价值。例如,可通过时间差分行列假设一个周期,然后分析窗口内的选定数据点。从这个意义上说,改进的欧几里得算法(MEA)为现有方法提供了一种新的补充工具。

附录

假设噪声的概率密度函数形式为:
f(η)=eαcos⁡(2πη/T)2πI0(α),∣η∣≤T2f(\eta)=\frac{e^{\alpha \cos (2 \pi \eta / T)}}{2 \pi I_{0}(\alpha)}, \quad|\eta| \leq \frac{T}{2}f(η)=2πI0(α)eαcos(2πη/T),∣η∣≤2T

此处,f(η)=f(−η)f(\eta)=f(-\eta)f(η)=f(−η)意味着噪声为零均值。假设kjk_{j}kj已知,则给定β\betaβ时tjt_{j}tj的概率密度函数为:
f(tj∣β)=f(tj−kjT−ϕ)f\left(t_{j} | \beta\right)=f\left(t_{j}-k_{j} T-\phi\right)f(tj∣β)=f(tj−kjT−ϕ)

对于独立同分布(iid)噪声,有:
f(t∣β)=∏j=1Nf(tj∣β)f(t | \beta)=\prod_{j=1}^{N} f\left(t_{j} | \beta\right)f(t∣β)=j=1∏Nf(tj∣β)

对数似然函数为:
L(β)=lnf(t∣β)=∑j=1N[αcos⁡2πT(tj−ϕ)−ln2πI0(α)]L(\beta)=ln f(t | \beta)=\sum_{j=1}^{N}\left[\alpha \cos \frac{2 \pi}{T}\left(t_{j}-\phi\right)-ln 2 \pi I_{0}(\alpha)\right]L(β)=lnf(t∣β)=j=1∑N[αcosT2π(tj−ϕ)−ln2πI0(α)]

因此,通过对TTT最大化L(β)L(\beta)L(β),可得到最大似然估计:
T^ML=argmaxT∑j=1Ncos⁡(2π(tj−ϕ)T)(50)\hat{T}{ML}=argmax{T} \sum_{j=1}^{N} \cos \left(2 \pi \frac{\left(t_{j}-\phi\right)}{T}\right) \tag{50}T^ML=argmaxTj=1∑Ncos(2πT(tj−ϕ))(50)

利用以下关系:
cos⁡2πT(tj−ϕ)=Re{e2πi(tj−ϕ)T}\cos \frac{2 \pi}{T}\left(t_{j}-\phi\right)=Re\left\{e^{2 \pi i \frac{\left(t_{j}-\phi\right)}{T}}\right\}cosT2π(tj−ϕ)=Re{e2πiT(tj−ϕ)}

则对于固定的ϕ\phiϕ,最大化L(β)L(\beta)L(β)等价于:
T^x=argmaxT∣∑j=1Ne2πitjT∣2\hat{T}{x}=arg max {T}\left|\sum{j=1}^{N} e^{2 \pi i \frac{t{j}}{T}}\right|^{2}T^x=argmaxT j=1∑Ne2πiTtj 2

其形式为对发生时间为tjt_{j}tj的点过程进行谱分析。

专业术语表

英文术语 中文译法 缩写
Periodic pulse trains 周期性脉冲序列 -
Time of arrival 到达时间 -
Greatest common divisor 最大公约数 gcd
Cramér--Rao bound 克拉美-罗界 CRB
Modified Euclidean algorithm 改进的欧几里得算法 MEA
Maximum likelihood 最大似然 ML
Linear regression 线性回归 -
Least-squares solution 最小二乘解 -
Outliers 异常值 -
Missing observations 缺失观测 -
Pulse repetition interval 脉冲重复间隔 PRI
Signal-to-noise ratio 信噪比 SNR
Additive white Gaussian noise 加性高斯白噪声 AWGN
Periodogram 周期图 -
Point process 点过程 -
Zero-one time series 0-1时间序列 -
Circular convolution 循环卷积 -
Matched filter 匹配滤波器 -
Spectral analysis 谱分析 -
Bessel function 贝塞尔函数 -
Phase 相位 -
Variance 方差 -
Covariance matrix 协方差矩阵 -
Mean-square error 均方误差 MSE
Monte Carlo simulation 蒙特卡洛仿真 -
Bernoulli trials 伯努利试验 -
Burst sampling 突发采样 -
Common oscillator 公共振荡器 -
Riemann Zeta function 黎曼泽塔函数 -
Robust estimation 稳健估计 -
Median absolute deviation 中位数绝对偏差 -
Fast Fourier transform 快速傅里叶变换 FFT
相关推荐
川西胖墩墩3 小时前
复杂任务的分布式智能解决方案
人工智能·分布式
DashVector3 小时前
通义深度搜索-上传文件
人工智能·深度学习·阿里云·ai·深度优先
龙山云仓3 小时前
No131:AI中国故事-对话荀子——性恶论与AI约束:礼法并用、化性起伪与算法治理
大数据·人工智能·深度学习·算法·机器学习
柠萌f3 小时前
從靈感到跑量一站完成?
人工智能
CJenny3 小时前
Claude Code常用操作和使用方法
人工智能·python
2501_941333103 小时前
铁路轨道部件识别与分类_YOLO13与BAMConv改进模型实现_1
人工智能·分类·数据挖掘
九河云3 小时前
纺织印染“数字色差仪”:光谱+AI模型一次调色成功省染料12%
大数据·人工智能·安全·机器学习·数字化转型
星火开发设计3 小时前
二维数组:矩阵存储与多维数组的内存布局
开发语言·c++·人工智能·算法·矩阵·函数·知识
2501_911067663 小时前
光能赋能,步步生 “电”!叁仟智慧路灯杆 + 太阳能地砖,解锁智慧城市新范式
人工智能·智慧城市