FRBNet:通过频域径向基网络重新审视低光视觉

FRBNet:通过频域径向基网络重新审视低光视觉

作者 :孙方彤*, 李聪宇*, 杨科, 潘宇辰, 余汉文, 张熙川, 李一英†
单位 :智能博弈与决策实验室 (IGDL), 中国北京
邮箱 :{sunfangtong19, liyiying10}@nudt.edu.cn, licongyu@hnu.edu.cn, zhxc@alu.hit.edu.cn

https://arxiv.org/pdf/2510.23444

摘要

由于严重的光照退化,低光视觉仍然是计算机视觉领域的一个基本挑战,这显著影响了检测和分割等下游任务的性能。虽然最近的最新方法通过不变特征学习模块提高了性能,但由于对低光条件建模不完整,它们仍然不足。因此,我们重新审视低光图像形成过程,并扩展经典的朗伯模型(Lambertian model)以更好地表征低光条件。通过将分析转移到频域,我们从理论上证明了可以利用频域通道比率,通过结构化滤波过程提取光照不变特征。随后,我们提出了一种新颖的端到端可训练模块,名为频域径向基网络(Frequency-domain Radial Basis Network, FRBNet),该模块将频域通道比率操作与可学习的频域滤波器相结合,用于整体光照不变特征增强。作为一个即插即用模块,FRBNet 可以集成到现有的低光下游任务网络中,而无需修改损失函数。在各种下游任务上的大量实验表明,FRBNet 取得了卓越的性能,包括黑暗物体检测提升 +2.2 mAP,夜间分割提升 +2.9 mIoU。代码地址:https://github.com/Sing-Forevet/FRBNet。

1. 引言

近年来,在深度学习技术和大规模标注数据集的推动下,物体检测和语义分割等计算机视觉任务取得了显著进展。这些任务背后的模型通常在光照良好、高质量的图像上训练,当应用于低光条件时,往往会出现严重的性能下降。此外,可用的真实世界低光数据集规模相对较小,阻碍了有效的低光网络训练。

为了应对低光视觉任务,主要有几种主流方法:(1) 图像增强方法,(2) 合成数据训练,(3) 多任务学习策略,以及 (4) 即插即用模块。图像增强旨在将图像输入下游模型之前恢复视觉质量,它可能增强人类的可见性,但不能保证机器感知的性能。合成数据方法通过图像信号处理等技术解决低光数据稀缺问题,但面临成本高、多样性有限和真实性差距等问题。多任务学习通过复杂的损失函数联合优化多个目标,但在大解空间上面临优化挑战。与这些不同,即插即用范式(如 DENet 和 PE-YOLO)因其在适应各种基础网络架构方面的高适用性和灵活性而受到关注,旨在增强光照不变特征。

对于即插即用范式,FeatEnHancer 通过分层特征增强模块改善低光视觉任务。随后,YOLA 采用零均值卷积提取光照不变特征并取得了有竞争力的性能。然而,这些方法缺乏对现实世界低光图像的完整建模,其中一些基于不完整的假设,如基本的朗伯模型。此外,这些基于空域卷积的方法由于感受野固定,在全局感知方面存在不足。

因此,我们重新审视成像形成模型,并提出了一种名为频域径向基网络(FRBNet)的即插即用模块,用于多种低光下游任务。具体而言,受 Phong 光照模型的启发,我们从理论上扩展了经典的朗伯公式,并构建了一个扩展的广义低光模型。由于空域通道比率的局限性,我们提出了频域通道比率(FCR)和基于优化径向基函数的可学习频域滤波器,用于光照不变特征提取。该滤波器由零直流(zero-DC)高斯频率窗口和方向角调制,形成一个整体的轻量级即插即用模块,用于频率抑制和结构滤波。在四个代表性的低光视觉任务(物体检测、人脸检测、语义分割和实例分割)上的大量实验表明,FRBNet 显著超越了基线并取得了卓越的性能。

本文的主要贡献总结如下:

  • 我们从理论上扩展了适用于现实世界低光条件的朗伯模型,然后制定了新颖的频域通道比率(FCR)用于光照不变特征增强。据我们所知,这是首次在频域中操作通道比率以提取光照不变特征的工作。
  • 我们设计了一个具有零直流频率窗口和改进径向基滤波器的可学习频域滤波器(LFF),用于鲁棒的特征提取。该滤波器可以通过频率抑制和角度调制自适应地处理不需要的频率分量。
  • 基于理论分析,我们提出了一种轻量级的即插即用模块,称为频域径向基网络(FRBNet),它可以无缝集成到各种低光视觉任务中。它通过 FCR 构建的通道间关系和 LFF 的有效滤波,提供了一种频域光照不变特征增强范式。综合评估表明,FRBNet 在各种低光视觉下游任务上优于现有的最先进方法。

2. 相关工作

2.1 下游任务的低光视觉

除了直接的图像增强方法外,最近的研究还探索了替代策略以改善低光条件下的下游视觉任务。 several works leverage synthetic data generation to address the scarcity of real low-light datasets. DAINet 通过图像信号处理模拟低光条件,以实现检测器的零样本适应。WARLearn 使用未标记的合成数据来增强表示学习,以提高恶劣天气下的鲁棒性。同样,BrightVO 通过 CARLA 仿真生成合成低光数据,用于训练亮度引导的 Transformer 以进行视觉里程计任务。另一种范式涉及通过多任务学习进行联合增强和检测。最近的基准测试如 RealUnify 探讨了跨任务统一视觉模型是否一致地有益于性能。端到端优化方法直接针对下游任务性能,而不是中间图像质量。DENet 和 FeatEnHancer 专注于通过集成到检测网络中的可学习模块进行特征级增强。随后,YOLA 通过通道级操作提取光照不变特征,直接提高了低光条件下的检测性能。我们认同端到端优化的理念;然而,我们注意到现有方法往往忽略了现实世界低光场景的复杂性,例如局部光源和不均匀反射,而这些在我们的设计中得到了明确考虑。

2.2 低光图像处理中的频域分析

频域分析已被证明在低光图像增强中是有效的,它通过频谱分解将光照与结构细节分离。通常,低频分量代表全局光照和平滑变化,而高频分量捕捉边缘和纹理。FourLLIE 利用幅度信息在两阶段框架中增强亮度并恢复细节。同样,频率感知网络(Frequency-Aware Network)选择性地调整低频分量,同时保留高频细节。Li 等人利用频率分解来指导混合表示,用于联合图像去噪和增强。在生成模型领域,FourierDiff 将傅里叶先验嵌入到扩散模型中,用于零样本增强和去模糊,而 FCDiffusion 通过频带滤波实现可控生成。除了增强之外,FreqMamba 将频率分析与 Mamba 架构集成,用于有效的图像去雨。然而,大多数现有的频域方法主要通过修改低频光照分量同时在像素级别操作,同时保留高频细节。相比之下,我们的方法是首个利用通道比率表示直接在频域中提取光照不变特征的方法,将重点从像素级增强转移到特征级学习。

3. 方法设计的理论分析

3.1 扩展的广义低光模型

经典的朗伯图像形成模型通过漫反射假设表征低光场景,将像素位置 (x,y)(x,y)(x,y) 处的图像 III 表示为:
IC(x,y)=m[n⃗(x,y),l⃗(x,y)]⋅φC(x,y)⋅ρC(x,y).I_{C}(x,y)=m[\vec{n}(x,y),\vec{l}(x,y)]\cdot\varphi_{C}(x,y)\cdot\rho_{C}(x,y).IC(x,y)=m[n (x,y),l (x,y)]⋅φC(x,y)⋅ρC(x,y).

其中,C∈{R,G,B}C\in\{R,G,B\}C∈{R,G,B} 表示 RGB 颜色通道。n⃗\vec{n}n 和 l⃗\vec{l}l 分别表示表面法线和光线方向。m[⋅,⋅]m[\cdot,\cdot]m[⋅,⋅] 是交互函数,φC\varphi_{C}φC 表示光照分量,ρC\rho_{C}ρC 表示固有反射率分量。

朗伯模型假设纯漫反射,即光线在表面均匀散射。然而,现实世界的低光图像经常包含复杂且空间局部化的光源,包括路灯、车头灯和霓虹灯。这些光源与朗伯模型 underlying 的理想化漫反射假设相矛盾。

受 Phong 光照模型中加法分解的启发,我们通过将局部光源重新解释为非均匀高光,引入了适用于现实世界低光场景的朗伯模型扩展版本,可以表示为:
IC(x,y)=m[n⃗(x,y),l⃗(x,y)]⋅φC(x,y)⋅ρC(x,y)+SC(x,y),I_{C}(x,y)=m[\vec{n}(x,y),\vec{l}(x,y)]\cdot\varphi_{C}(x,y)\cdot\rho_{C}(x,y)+S_{C}(x,y),IC(x,y)=m[n (x,y),l (x,y)]⋅φC(x,y)⋅ρC(x,y)+SC(x,y),

其中 SCS_{C}SC 表示空间不规则的高光分量,可以进一步定义为:
SC(x,y)=HC(x,y)⋅m[n⃗(x,y),l⃗(x,y)]⋅φC(x,y)⋅ρC(x,y),S_{C}(x,y)=H_{C}(x,y)\cdot m[\vec{n}(x,y),\vec{l}(x,y)]\cdot\varphi_{C}(x,y)\cdot\rho_{C}(x,y),SC(x,y)=HC(x,y)⋅m[n (x,y),l (x,y)]⋅φC(x,y)⋅ρC(x,y),

其中 HCH_{C}HC 表示高光干扰的相对强度。为简化符号,我们定义 DC(x,y)=m[n⃗(x,y),l⃗(x,y)]⋅φC(x,y)⋅ρC(x,y)D_{C}(x,y)=m[\vec{n}(x,y),\vec{l}(x,y)]\cdot\varphi_{C}(x,y)\cdot\rho_{C}(x,y)DC(x,y)=m[n (x,y),l (x,y)]⋅φC(x,y)⋅ρC(x,y) 为标准漫反射分量。将其代入方程 (2) 并重新排列项,我们获得更简洁的表达式:
IC(x,y)=DC(x,y)+SC(x,y)=DC(x,y)⋅(1+HC(x,y)).I_{C}(x,y)=D_{C}(x,y)+S_{C}(x,y)=D_{C}(x,y)\cdot(1+H_{C}(x,y)).IC(x,y)=DC(x,y)+SC(x,y)=DC(x,y)⋅(1+HC(x,y)).

3.2 频域通道比率

利用通道比率(CR)隔离光照不变特征已被证明对低光视觉任务有效。以红色通道 R 和绿色通道 G 之间的通道比率为例,根据我们要扩展的广义低光模型,可以获得对数变换公式:
CRRG=log⁡(IRIG)=log⁡(φR⋅ρR⋅(1+HR)φG⋅ρG⋅(1+HG))=log⁡φR−log⁡φG+log⁡ρR−log⁡ρG+log⁡(1+HR)−log⁡(1+HG).\begin{aligned}\mathrm{CR}_{RG}&=\log\left(\frac{I_R}{I_G}\right)=\log\left(\frac{\varphi_R\cdot\rho_R\cdot(1+H_R)}{\varphi_G\cdot\rho_G\cdot(1+H_G)}\right)\\&=\log\varphi_R-\log\varphi_G+\log\rho_R-\log\rho_G+\log(1+H_R)-\log(1+H_G).\end{aligned}CRRG=log(IGIR)=log(φG⋅ρG⋅(1+HG)φR⋅ρR⋅(1+HR))=logφR−logφG+logρR−logρG+log(1+HR)−log(1+HG).

如方程 (5) 所示,来自高光项的非线性残差破坏了光照和反射率的干净分离,限制了空域通道比率方法的有效性。为了克服这些限制,我们将分析转移到频域,其中光照和反射率分量自然占据不同的频带,从而能够更有效地分离光照不变特征。受先前关于空域通道比率工作的启发,我们创新性地提出了频域通道比率(FCR):
FCR⁡RG=F[log⁡(IRIG)]=F[log⁡φR−log⁡φG]+F[log⁡ρR−log⁡ρG]+F[log⁡(1+HR)−log⁡(1+HG)],\begin{aligned}{\operatorname{F C R}{R G}}&{{}=\mathcal{F}[\operatorname{l o g}(\frac{I{R}}{I_{G}})]}\\ {}&{{}=\mathcal{F}[\operatorname{l o g}\varphi_{R}-\operatorname{l o g}\varphi_{G}]+\mathcal{F}[\operatorname{l o g}\rho_{R}-\operatorname{l o g}\rho_{G}]+\mathcal{F}[\operatorname{l o g}(1+H_{R})-\operatorname{l o g}(1+H_{G})],}\\ \end{aligned}FCRRG=F[log(IGIR)]=F[logφR−logφG]+F[logρR−logρG]+F[log(1+HR)−log(1+HG)],

其中 F[⋅]\mathcal{F}[\cdot]F[⋅] 表示傅里叶变换算子。为了处理非线性残差项 Δ=F[log⁡(1+HR^)−log⁡(1+HG)]\Delta =\mathcal{F}[\log(1+\hat{H_{R}})-\log(1+H_{G})]Δ=F[log(1+HR^)−log(1+HG)],我们应用一阶泰勒展开。鉴于数据中的重要贡献通常是稀疏和局部的,我们假设 HC∈[0,1)H_{C}\in[0,1)HC∈[0,1) 具有相对较小的幅度,允许我们将 log⁡(1+HC)\log(1+H_{C})log(1+HC) 近似为 HC+O(HC2)H_{C}+\mathcal{O}(H_{C}^{2})HC+O(HC2)。

在上述假设下,通过忽略高阶项,我们可以获得 Δ\DeltaΔ 的线性化近似如下:
Δ=F[HR−HG]=HR−HG,\Delta=\mathcal{F}[H_{R}-H_{G}]=\mathcal{H}{R}-\mathcal{H}{G},Δ=F[HR−HG]=HR−HG,

其中 HR\mathcal{H}{R}HR 和 HG\mathcal{H}{G}HG 分别表示 HRH_{R}HR 和 HGH_{G}HG 的频域表示。为了研究残差项 Δ\DeltaΔ 的频谱特性,我们将其分解为幅度和相位分量:
Δ=HR−HG=aR⋅eiθR−aG⋅eiθG,\Delta=\mathcal{H}{R}-\mathcal{H}{G}=a_{R}\cdot e^{i\theta_{R}}-a_{G}\cdot e^{i\theta_{G}},Δ=HR−HG=aR⋅eiθR−aG⋅eiθG,

其中 aR,aGa_{R},a_{G}aR,aG 表示幅度项,θR,θG\theta_{R},\theta_{G}θR,θG 表示相位分量。为了表征通道间的相位关系,我们引入频率相关系数 CorRG=ei(θG−θR)ˉC o r_{R G}=\bar{e^{i(\theta_{G}-\theta_{R})}}CorRG=ei(θG−θR)ˉ(推导见附录 A.2,参见 [56]),它量化了频域中通道响应之间的角位移。这允许我们将 Δ\DeltaΔ 重构为:
Δ=eiθR⋅(aR−aG⋅ei(θG−θR))=eiθR⋅(aR−aG⋅CorRG),\Delta=e^{i\theta_{R}}\cdot\left(a_{R}-a_{G}\cdot e^{i(\theta_{G}-\theta_{R})}\right)=e^{i\theta_{R}}\cdot\left(a_{R}-a_{G}\cdot C o r_{R G}\right),Δ=eiθR⋅(aR−aG⋅ei(θG−θR))=eiθR⋅(aR−aG⋅CorRG),

这种因式分解揭示了残差项的结构为相位调制分量,其中 eiθRe^{i\theta_{R}}eiθR 作为载波相位,而 (aR−aG⋅CorRG)\left(a_{R}-a_{G}\cdot C o r_{R G}\right)(aR−aG⋅CorRG) 编码了由通道间相位相关性调制的幅度差异。

最后,频域通道比率的最终公式可以总结为:
FCRRG=F[log⁡φR−log⁡φG]⏟illumination+F[log⁡ρR−log⁡ρG]⏟reflectance+eiθR(aR−aG⋅CorRG)⏟high⋅lit  residual.\mathrm{FCR}{RG}=\underbrace{\mathcal{F}[\log\varphi{R}-\log\varphi_{G}]}{\mathrm{illumination}}+\underbrace{\mathcal{F}[\log\rho{R}-\log\rho_{G}]}{\mathrm{reflectance}}+\underbrace{e^{i\theta{R}}(a_{R}-a_{G}\cdot Cor_{RG})}_{\mathrm{high\cdot lit\;residual}}.FCRRG=illumination F[logφR−logφG]+reflectance F[logρR−logρG]+high⋅litresidual eiθR(aR−aG⋅CorRG).

利用频谱分离的固有特性和残差项的相位调制结构,我们设计了专门的滤波策略,旨在鲁棒地提取不变光照特征,从而增强在不同光照条件下特征提取的可靠性和有效性。

4. 频域径向基网络 (FRBNet)

我们的理论分析表明,光照干扰主要累积在信号的低频分量中。相比之下,残差干扰表现为依赖于方向的模式,其特征明显为相位调制。因此,可以通过抑制波动的光照干扰和高亮残差项来增强现实世界低光图像中的光照不变特征。为此,我们提出了频域径向基网络,这是一个轻量级的即插即用模块。在本节中,我们将首先介绍基于频域通道比率的整个光照不变特征增强过程,然后详细描述核心的可学习频域滤波器。

4.1 频域中的光照不变特征增强过程

为了增强光照不变特征,提出的 FRBNet 首先将通道比率操作转换到频域。根据 3.2 节中提出的 FCR 函数,在频域中利用通道间关系。定义空域中的输入图像为 I(x,y)\mathbf{I}(x,y)I(x,y),对于每个通道对,FCR 通过对数频域差分和可学习的频率参数 (u,v)(u,v)(u,v) 实现:
{difRG(u,v)=F[log⁡IR(x,y)]−F[log⁡IG(x,y)]difGB(u,v)=F[log⁡IG(x,y)]−F[log⁡IB(x,y)]difBR(u,v)=F[log⁡IB(x,y)]−F[log⁡IR(x,y)].\left\{\begin{aligned}\mathrm{d}\mathrm{if}^{RG}(u,v)&=\mathcal{F}[\log I_R(x,y)]-\mathcal{F}[\log I_G(x,y)]\\ \mathrm{d}\mathrm{if}^{GB}(u,v)&=\mathcal{F}[\log I_G(x,y)]-\mathcal{F}[\log I_B(x,y)]\\ \mathrm{d}\mathrm{if}^{BR}(u,v)&=\mathcal{F}[\log I_B(x,y)]-\mathcal{F}[\log I_R(x,y)].\end{aligned}\right.⎩ ⎨ ⎧difRG(u,v)difGB(u,v)difBR(u,v)=F[logIR(x,y)]−F[logIG(x,y)]=F[logIG(x,y)]−F[logIB(x,y)]=F[logIB(x,y)]−F[logIR(x,y)].

接下来,设计了一个可学习频域滤波器(定义为 LFF),以减少低光图像中光照和高亮残差项对每个通道对鲁棒特征提取的影响。该滤波器由一个零直流频率窗口和一个改进的径向基滤波器组成。频率响应特征 Finv(u,v)\mathbf{F}{\mathrm{i n v}}(u,v)Finv(u,v) 可以表示为:
{FinvRG(u,v)=LFFRG(u,v)⋅diffRG(u,v)FinvGB(u,v)=LFFGB(u,v)⋅diffGB(u,v)FinvBR(u,v)=LFFBR(u,v)⋅diffBR(u,v).\left\{\begin{aligned}&F
{inv}^{RG}(u,v)=LFF^{RG}(u,v)\cdot\mathrm{diff}^{RG}(u,v)\\ &F_{inv}^{GB}(u,v)=LFF^{GB}(u,v)\cdot\mathrm{diff}^{GB}(u,v)\\ &F_{inv}^{BR}(u,v)=LFF^{BR}(u,v)\cdot\mathrm{diff}^{BR}(u,v).\end{aligned}\right.⎩ ⎨ ⎧FinvRG(u,v)=LFFRG(u,v)⋅diffRG(u,v)FinvGB(u,v)=LFFGB(u,v)⋅diffGB(u,v)FinvBR(u,v)=LFFBR(u,v)⋅diffBR(u,v).

然后,将滤波后的频谱特征转换回空域。所有通道对 (R  &  G,G  &  B,B  &  R)(R\; \&\; G,G\; \&\; B,B\; \&\; R)(R&G,G&B,B&R) 的结果特征连接如下:
Finv(x,y)=Cat(F−1[FinvRG(u,v)];F−1[FinvGB(u,v)];F−1[FinvBR(u,v)]),\mathbf{F}{\mathrm{i n v}}(x,y)=\mathrm{C a t}\left(\mathcal{F}^{-1}\left[F{\mathrm{i n v}}^{R G}(u,v)\right];\mathcal{F}^{-1}\left[F_{\mathrm{i n v}}^{G B}(u,v)\right];\mathcal{F}^{-1}\left[F_{\mathrm{i n v}}^{B R}(u,v)\right]\right),Finv(x,y)=Cat(F−1[FinvRG(u,v)];F−1[FinvGB(u,v)];F−1[FinvBR(u,v)]),

其中 F−1\mathcal{F}^{-1}F−1 表示逆傅里叶变换,Cat 表示连接操作。为了进一步结合来自频域的增强光照不变特征和来自原始图像的空域特征,采用了一个常见的融合模块(参考 [5])进行集成:
Fout=Conv{CB[Cat(CB[Finv(x,y)];CB[I(x,y)])]},\mathbf{F}{\mathrm{o u t}}=\mathrm{C o n v}\left\{\mathrm{C B}\left[\mathrm{C a t}\left(\mathrm{C B}[\mathbf{F}{\mathrm{i n v}}(x,y)];\mathrm{C B}[\mathbf{I}(x,y)]\right)\right]\right\},Fout=Conv{CB[Cat(CB[Finv(x,y)];CB[I(x,y)])]},

其中 Conv 是卷积,CB 是卷积后接批量归一化(BN)。最后,输出特征 Fout\mathbf{F}_{\mathrm{o u t}}Fout 被送入下游任务网络。

4.2 可学习频域滤波器

我们方法的核心是可学习频域滤波器(LFF),它自适应地处理频谱分量。该滤波器由两个互补元素组成:一个衰减低频光照的零直流频率窗口 Wg\mathbf{W_{g}}Wg 和一个编码频谱距离和方向信息的改进径向基滤波器 H~(u,v⃗)\widetilde{\mathbf{H}}(u,\vec{v})H (u,v ),可以公式化为:
LFF(u,v)=Wg⋅H(u,v).\mathbf{L F F}(u,v)=\mathbf{W_{g}}\cdot\mathbf{H}(u,v).LFF(u,v)=Wg⋅H(u,v).

零直流频率窗口 。为了抑制不需要的光照同时保留结构信息,采用了一个以频率平面原点为中心的高斯窗口:
Wg(u,v)=exp⁡(−r(u,v)2σw2),r(u,v)=u2+v2,\mathbf{W_{g}}(u,v)=\exp\left(-\frac{\mathbf{r}(u,v)^{2}}{\sigma_{w}^{2}}\right),\quad\mathbf{r}(u,v)=\sqrt{u^{2}+v^{2}},Wg(u,v)=exp(−σw2r(u,v)2),r(u,v)=u2+v2 ,

其中 σw\sigma_{w}σw 是可学习的带宽参数,r(u, v) 表示归一化径向频率坐标。为了消除直流分量,Wg(0,0˙)\mathbf{W_{g}}(0,\dot{0})Wg(0,0˙) 被显式设置为 0,这确保滤波器去除全局亮度偏移,同时保留用于局部结构线索的中高频信息。

改进的径向基滤波器 。为了构建频谱自适应和方向选择性的滤波器,我们采用了一组可学习的径向基函数(RBFs)并结合角度调制。RBFs 可以捕捉频率幅度选择性,而角度项可以引入方向敏感性,以便在傅里叶域中进行各向异性滤波。定义一组 K 个径向基函数 ϕ(u,v)\phi(u,v)ϕ(u,v),其中心位于预定义的频率半径 μk∈[0,1]\mu_{k}\in[0,1]μk∈[0,1]:
ϕk(u,v)=exp⁡(−(r(u,v)−μk)22σh2),k=[1,2,⋯ ,K]\phi_{k}(u,v)=\exp\left(-\frac{(r(u,v)-\mu_{k})^{2}}{2\sigma_{h}^{2}}\right),k=[1,2,\cdots,K]ϕk(u,v)=exp(−2σh2(r(u,v)−μk)2),k=[1,2,⋯,K]

其中 r(u,v)r(u,v)r(u,v) 是前面定义的归一化径向频率,σh\sigma_{h}σh 是所有基共享的可学习带宽参数。通过加权线性组合的可学习系数 aka_{k}ak,最终的径向响应为:
Φ(u,v)=∑k=1Kak⋅ϕk(u,v),k=[1,2,⋯ ,K]\Phi(u,v)=\sum_{k=1}^{K}a_{k}\cdot\phi_{k}(u,v),k=[1,2,\cdots,K]Φ(u,v)=k=1∑Kak⋅ϕk(u,v),k=[1,2,⋯,K]

此外,参考 3.2 节中的相位导向残差结构,干扰项表现出主导的方向分量。径向响应进一步由方向角的正弦谐波构建的角度项调制,以捕捉方向选择性:
M(u,v)=1+λ⋅∑n=1N[cos⁡(nθ(u,v))+sin⁡(nθ(u,v))],θ(u,v)=arctan⁡(vu+ϵ),M(u,v)=1+\lambda\cdot\sum_{n=1}^{N}\left[\operatorname{c o s}(n\theta(u,v))+\operatorname{s i n}(n\theta(u,v))\right],\quad\theta(u,v)=\operatorname{a r c t a n}\left(\frac{v}{u+\epsilon}\right),M(u,v)=1+λ⋅n=1∑N[cos(nθ(u,v))+sin(nθ(u,v))],θ(u,v)=arctan(u+ϵv),

其中 NNN 是角度频率的数量,λ 控制调制强度。最终的频域径向基滤波器响应由下式给出:
H(u,v)=Φ(u,v)⋅M(u,v).\mathbf{H}(u,v)=\boldsymbol{\Phi}(u,v)\cdot\boldsymbol{M}(u,v).H(u,v)=Φ(u,v)⋅M(u,v).

通过整合角度谐波,改进的径向基滤波器既具有频谱局部性又具有方向响应性,能够以数据驱动的方式对齐或抑制此类定向残差,这对于隔离光照不变特征同时衰减结构化干扰至关重要。

5. 实验

我们进行了广泛的实验,以评估提出的即插即用 FRBNet 在低光视觉检测和分割任务上的有效性。具体而言,我们采用 ExDark、DarkFace、ACDC-night 和 LIS 数据集分别用于黑暗物体检测、人脸检测、夜间语义分割和黑暗实例分割任务。实验基于 PyTorch 的 MMDetection 和 MMSegmentation 工具箱实现,并在 NVIDIA RTX 4090 GPU 上训练。我们为每项任务选择了几个最新的代表性方法进行全面比较。为了公平比较,径向基函数的数量 K 设置为 10,角度调制强度 λ 设置为 0.1。采用 Recall、mAP 和 mIoU 等标准指标进行评估。

5.1 低光检测任务

设置 。我们使用两个代表性检测器 YOLOv3 和 TOOD 在低光检测任务上评估 FRBNet。两个检测器都使用 COCO 预训练权重初始化,并在低光数据集上使用 FRBNet 作为插件前端进行微调。我们从四种范式中选择了代表性方法进行比较:基于增强的方法、合成数据训练、多任务学习和即插即用模块。遵循 YOLA 的实验设置,我们将检测模型的 SGD 优化器的动量和权重衰减分别设置为 0.9 和 0.0005。学习率为 0.001。对于 ExDark,所有输入图像调整为 608×608608\times608608×608,两个检测器训练 24 个 epoch。对于 DarkFace,YOLOv3 保持 608×608608 \times 608608×608 并训练 20 个 epoch,而 TOOD 使用更高的分辨率 1500×10001500\times10001500×1000 并训练 12 个 epoch。

物体检测结果。在 ExDark 数据集上,FRBNet 始终优于基线检测器并取得了最佳 mAP(见表 1)。具体而言,我们的方法在使用 YOLOv3 时达到了 90.6% 的 Recall 和 74.9% 的 mAP,超过了之前的最先进方法 YOLA 0.4 mAP。当集成到 TOOD 中时,FRBNet 进一步提升性能至 93.2% 的 Recall 和 75.3% 的 mAP,优于所有基于增强和多任务的方法。

黑暗人脸检测结果 。与 UG2+ Challenge 的官方实验设置一致,我们在实验中采用 DarkFace 数据集的 3:1:1 随机划分用于训练、验证和测试。表 1 显示 FRBNet 在两个检测器上都取得了强劲的性能。它在使用 YOLOv3\mathrm{Y O L O v}3YOLOv3 时获得了 75.7% 的 Recall 和 57.7% 的 mAP,优于所有以前的即插即用和基于增强的方法。对于 TOOD,我们的模块将检测性能提高到 82.7% 的 Recall 和 65.1% 的 mAP,创下了新的最先进水平,并超过了之前的最佳结果(YOLA)2.0% mAP。这些增益凸显了 FRBNet 在不同检测器上的通用性和鲁棒性。

(此处省略表格详细数据,结论如上所述)

5.2 低光分割任务

设置 。我们评估 FRBNet 在夜间语义分割和黑暗实例分割任务上的能力。对于语义分割任务,ACDC-Night 的输入图像调整为 2048×10242048\times10242048×1024。采用 DeepLabV3+ 作为基线,骨干网络为 ResNet-50,并使用 ImageNet 预训练权重初始化。我们将 FRBNet 与当前最先进的方法进行比较。遵循 FeatEnHancer 的实验协议,所有方法训练 20K 次迭代。比较包括传统的基于增强的方法以及更近期的面向任务的方法。对于实例分割任务,LIS 数据集的输入图像调整为 1330×8001330\times8001330×800。采用通过 MMDetection 框架实现的带有 ResNet-50 骨干网络的 Mask RCNN 作为基线模型。选择 MBLLEN、DarkIR、FeatEnHancer 和 YOLA 作为对比模型。所有模型使用 SGD 优化器训练 24 个 epoch。

语义分割结果。表 2 总结了 ACDC-Night 基准测试上的定量结果。由于 ACDC-Night 的测试集包含一些极其罕见的样本,我们报告了 15 个类别的 IoU 定量结果,不包括卡车、公共汽车、骑手和摩托车。mIoU 的结果直接采用 MMSegmentation 工具箱的输出。从表 2 可以看出,大多数现有的增强方法仅产生边际改进。与 YOLA (58.7%) 相比,FRBNet 进一步提升至 61.6% mIoU,取得了最佳结果。值得注意的是,FRBNet 在夜间语义分割的多个关键类别上提供了一致的增益,例如人行道 (75.5%)、建筑物 (79.7%) 和交通标志 (50.8%)。

实例分割结果 。按照惯例,我们使用 mAP、mAP50\mathrm{m A P_{50}}mAP50 和 m AP75\mathrm{A P_{75}}AP75 指标评估实例分割性能。如表 3 所示,FRBNet 在 LIS 上的所有指标均取得了最佳性能。它获得了 30.2% mAP、50.5% mAP50\mathrm{m A P_{50}}mAP50 和 30.4% mAP75\mathrm{m A P_{75}}mAP75,以明显的优势优于以前的方法。

5.3 消融研究

各组件的有效性。我们在 ExDark 上使用 YOLOv3 和在 DarkFace 上使用 TOOD 评估 FRBNet 的每个组件。具体而言,评估了频域中的通道操作(FCR)和 LFF 的两个元素。如表 4 所示,采用完整 LFF 和 FCR 的 proposed FRBNet 表现出卓越的性能,且 FCR 发挥着相对更重要的作用。

效率 - 性能分析。表 5 比较了 FRBNet 与现有方法在低光视觉应用中计算效率和性能的有效平衡。非架构方法虽然具有高计算效率,但性能有限。对于端到端模块,FRBNet 以相对较低的计算成本实现了最高的检测性能(在 ExDark 上使用 YOLOv3 达到 74.9 mAP)和分割精度(61.6 mIoU)。FRBNet 还展示了强大的推理速度(89.5 FPS),显著快于其他方法如 FeatEnHancer (33.1 FPS),同时实现了 3.7 mAP 和 5.6 mIoU 的提升。

5.4 可视化

图 3 展示了 ExDark 上的实验结果和特征图的可视化。图 3(a) 的顶行验证了 FRBNet 实现了最准确的检测。在图 3(b) 中,FeatEnHancer 带来了颜色偏差伪影,而 YOLA 在低光区域的精细细节上表现挣扎。FRBNet 生成了更平衡的特征表示,更好地保留了物体边界和结构细节,特别是在轮廓方面。从图 3© 的热图来看,与基线相比,我们的方法产生了更多空间聚焦的特征响应,特别是在物体轮廓周围,如自行车架和人头,这使得 FRBNet 能够保留精细的物体细节并揭示更丰富的梯度变化。我们的方法成功地隔离了光照不变特征,从而增强了下游任务的鲁棒性。

6. 结论

本文提出了 FRBNet,这是一种新颖的频域框架,通过利用带有频率通道操作的可学习径向基滤波器,在低光条件下提取光照不变特征。这个即插即用模块可以无缝集成到现有架构中,并实现显著的性能提升。基于广泛的实验演示,FRBNet 可以有效解决空域方法在低光下游任务中的局限性。未来的研究将集中在优化模块的通用性并探索更广泛的应用场景,以进一步推动低光视觉的发展。

致谢

我们要感谢匿名审稿人提出的宝贵意见和建议。本工作得到了中国国家自然科学基金(NSFC)的支持,资助号为 62206307 和 12401590。

(参考文献及附录内容略,如需特定部分翻译请告知)

相关推荐
CelestialYuxin1 小时前
TriGen NPU
人工智能·硬件架构
Elastic 中国社区官方博客2 小时前
Elasticsearch:创建 geocoding workflow,并在 agent 中使用它进行位置搜索
大数据·人工智能·elasticsearch·搜索引擎·ai·语言模型
自由职业社2 小时前
硅基流动:强悍的生成式AI计算平台,普惠AGI!
人工智能·agi
老金带你玩AI2 小时前
16项测试赢了13项!Gemini 3.1 Pro碾压GPT-5.2和Claude
人工智能
是小蟹呀^2 小时前
低质量人脸识别的两条技术路线:FIE与CSM详解
人工智能
DevilSeagull3 小时前
LangChain & LangGraph 介绍
人工智能·程序人生·langchain·大模型·llm·vibe coding
TechubNews3 小时前
燦谷(Cango Inc)入局AI 資本重組彰顯決心
大数据·网络·人工智能·区块链
MaoziShan3 小时前
CMU Subword Modeling | 10 Grammatical Properties
人工智能·语言模型·自然语言处理
一切尽在,你来3 小时前
AI 大模型应用开发前置知识:Python 泛型编程全教程
开发语言·人工智能·python·ai编程