文章汇总
me:看得很迷糊
新型检测器 M D \mathcal M_D MD的训练是为了对一个子基类去划分子基类中的base和new。
在获得每个子基类之后,为每个检测器训练子分类器 M C \mathcal M_C MC
在推理时,如果最高得分的检测器 M D i ( x ) \mathcal M^i_D(\bm x) MDi(x)认为这个数据是否来自新类,如果是我们就用zero-shot classifier,否则我们去找到效果最好(置信度最高)的子分类 M C i ( x ) M^i_C(\bm x) MCi(x)的预测结果作为最终结果。
其中 i ∗ = arg max i ∈ { 1 , ... , K } M D i ( x ) i^*=\text{arg max}{i\in \{1,\ldots,K\}}{\mathcal M^i_D(\bm x)} i∗=arg maxi∈{1,...,K}MDi(x)(me:总感觉这个公式是 i ∗ = arg max i ∈ { 1 , ... , K } M C i ( x ) i^*=\text{arg max}{i\in \{1,\ldots,K\}}{\mathcal M^i_C(\bm x)} i∗=arg maxi∈{1,...,K}MCi(x))
摘要
视觉语言模型(VLM),例如CLIP,已经为各种下游任务展示了令人印象深刻的零射击能力。通过一些提示调优方法可以进一步提高它们的性能。然而,目前的研究分别在基础课和新课上评估学习过的提示的表现。这种评估对于实际应用程序缺乏实用性,因为下游任务无法提前确定数据是属于基类还是新类。在本文中,我们探讨了一个名为开放世界提示优化(OPT)的问题设置,它涉及对基类的优化提示以及对基类和新类的组合进行评估。通过引入分解提示调优框架(DEPT),从理论上证明了在提示调优中加入分布外检测可以解决OPT问题,从而增强了从基到新的可分辨性。在DEPT的基础上,我们提出了一种新的提示调优方法,即分解上下文优化(DECOOP),该方法引入了新类检测器和子分类器,进一步增强了基类和新类的可分辨性。在11个基准数据集上的实验结果验证了DEPT的有效性,并证明DECOOP优于最先进的方法,平均准确率提高了2%。
1. 介绍
视觉语言模型(VLM),如CLIP (Radford等人,2021),已经开发用于对齐图像和语言,展示了令人印象深刻的零样本能力对于多种下游任务(Deng et al ., 2009;Maji et al ., 2013;Krause et al, 2013),仅使用类名。分类预测是通过使用提示技术计算图像编码器生成的图像嵌入与文本编码器生成的文本嵌入之间的余弦相似度来确定的(Liu et al, 2023)。例如,输入"a photo of class",文本编码器生成相应的文本嵌入,其中"class"表示类名。
此外,还可以提高CLIP的性能,特别是在处理具有有限标记数据的下游任务时。少样本提示调谐方法(Lu et al ., 2022;周等,2022b;Shu等人,2022b)在保持其他参数不变的情况下,利用下游数据集中的少量标记数据对可学习提示进行微调。在下游分类任务中,这些方法与零样本VLMs相比可以产生实质性的性能改进。然而,以往的研究(Zhou et al ., 2022a;Wang et al ., 2023b)已经确定了一个限制,即学习到的提示只能有效地操作基类中的标记数据。这一限制导致在训练集中看不见的新类的零样本性能下降。为了解决这个问题,研究人员提出了一种评估范式,分别评估基本类和新类的性能,以及它们的谐波平均值,即H度量。
**尽管这种评估范式可以全面评估基类和新类的性能,但它对于实际应用程序缺乏实用性,这需要事先知道下游任务中的数据是属于基类还是新类。**例如,在生物基础的背景下(Hayes等人,2021;Kudithipudi et al, 2022)和视觉分类(Lange et al, 2022;Mai et al ., 2022),测试期间出现的基类和新类将一起评估。
图1所示。OPT评估范例的说明。在训练过程中,我们使用来自基类的数据对模型进行微调。在测试期间,我们在基类和新类的混合上评估模型。
因此,我们引入了一个现实的问题设置,即开放世界提示调谐(OPT),它在使用基类训练模型时评估模型在基本类和新类混合上的性能。图1显示了OPT问题的示例。图2的结果表明,在评估基本类和新类的组合时,H指标的变化并不是性能提高或下降的必要指标,这凸显了OPT问题的重要性。
图2。与零样本基线CLIP方法相比,CoOp和SHIP方法的Delta性能。子图(a)和(b)表明,H度量的变化不是性能改进或精度下降的必要指标,突出了解决OPT问题的重要性。
为了解决OPT问题,我们首先分析了原始问题,该问题由三部分组成:基类到新类的可判别性、基类可判别性和新类可判别性。我们观察到,现有的方法和设置未能充分考虑基础到新辨别能力。在此分析的激励下,我们提出了DEPT框架,该框架将out-distribution(OOD)检测纳入提示调优中,以增强基到新类的可辨别性,从而防止新类的性能下降。我们从理论上证明了DEPT框架与零样本基线和提示调优方法相比可以提高性能。在DEPT框架的基础上,我们引入了一种新的提示调优方法,称为分解上下文优化(DECOOP)。该方法结合了新类检测器和子分类器,分别进一步增强了基类和新类的可分辨性。实证结果验证了DEPT框架的有效性,并证明DECOOP方法在很大程度上优于当前最先进的(SOTA)方法。
本文的贡献总结如下:
(1)我们探索了一个实际的OPT问题,并将其分解为两个子问题:OOD检测和提示调谐。通过分解,我们发现基础到新的可辨别性对于解决OPT至关重要,但在现有方法和设置中却被忽视了。
(2)提出了一种新的DEPT框架,将OOD检测引入到提示调谐中。理论分析和实验结果都证明了DEPT框架对OPT的有效性。
(3)在DEPT框架的基础上,提出了一种新的提示调优方法DECOOP,该方法通过引入新类检测器和子分类器,增强了基类和新类的可判别性。
(4)我们使用11个基准数据集对DECOOP进行了全面的实验。结果表明,我们提出的方案优于当前的SOTA比较方法,准确率平均提高了2%。
2. 问题与分析
在本节中,我们首先描述OPT设置的概念和问题表述。随后,我们使用真实世界的数据集进行了实证分析(Krause et al, 2013),其中我们确定了需要解决的两个主要挑战:基础到新类别的可辨别性和新类别的可辨别性。最后,我们对原始问题进行了分解,证明了OOD检测技术的引入可以有效地解决这两个问题。
2.1. 问题公式化
我们关注多类分类问题的提示调优设置,这些问题涉及输入空间 X \mathcal{X} X、类空间 Y = Y b ∪ Y n = [ C ] \mathcal{Y}=\mathcal{Y}_b\cup \mathcal{Y}_n=[C] Y=Yb∪Yn=[C]和文本空间 τ \tau τ,其中 C C C表示类的数量。这里, Y b \mathcal{Y}_b Yb表示基类的集合, Y n \mathcal{Y}_n Yn表示新类的集合。第 i i i类的名称记为 t i ∈ τ t_i \in \tau ti∈τ。其中, x ∈ X x\in \mathcal{X} x∈X表示数据。 f ( x ) ∈ Y , g ( x ) ∈ { b , n } f(x)\in \mathcal{Y},g(x)\in \{b,n\} f(x)∈Y,g(x)∈{b,n}表示 x x x的标签及其所属的特定类空间,其中 f f f和 g g g是标签的真值与类空间的映射函数。
在OPT问题中,我们给出一个预训练的视觉语言模型 F = { E V , E T } \mathcal{F}=\{E_V,E_T\} F={EV,ET},该模型由视觉编码器 E V : X → R d E_V:\mathcal{X} \rightarrow \mathbb{R}^d EV:X→Rd和文本编码器 E T : τ → R d E_T:\tau \rightarrow \mathbb{R}^d ET:τ→Rd组成,其中 d d d表示模型 F \mathcal{F} F的维数。在训练阶段,我们在包含来自 Y b \mathcal{Y}b Yb的数据的少样本数据集 D \mathcal{D} D上学习提示向量 p p p。为了简化符号,我们将 t i ( p ) t_i(\bm p) ti(p)定义为类名 t i \bm t_i ti和学习提示 p \bm p p的标记的连接。因此,为每个类生成权重向量 { w i ( p ) } i = 1 C \{\bm w_i(\bm p)\}^C{i=1} {wi(p)}i=1C作为文本嵌入,其中 w i ( p ) = E T ( t i ( p ) ) / ∣ ∣ E T ( t i ( p ) ) ∣ ∣ \bm w_i(\bm p)=\bm E_T(t_i(\bm p))/||\bm E_T(t_i(\bm p))|| wi(p)=ET(ti(p))/∣∣ET(ti(p))∣∣。在测试阶段,给定从 Y \mathcal{Y} Y中提取的测试数据 x \bm x x,我们初步得到其视觉嵌入 z = E V ( x ) / ∣ ∣ E V ( x ) ∣ ∣ \bm z=\bm E_V(x)/||\bm E_V(x)|| z=EV(x)/∣∣EV(x)∣∣。随后,我们计算预测概率如下:
其中 τ \tau τ为VLMs测定的温度。为方便起见,在后续的论文中,我们也将使用 P ( x ) P(\bm x) P(x)来表示 P ( y ∣ x ) P(y|\bm x) P(y∣x)。对 x \bm x x的预测由 arg max y ∈ Y P ( y ∣ x ) \underset{y\in \mathcal{Y}}{\text{arg max}}P(y|\bm x) y∈Yarg maxP(y∣x)给出。OPT的目标是训练一个模型,该模型可以对 Y \mathcal{Y} Y(包括基本类和新类)进行鲁棒预测,而不会因为新类的存在而导致整体性能下降。在接下来的分析和实验中,我们对OPT问题进行了零点基线法(简称ZS)和提示调优法(简称PT)的比较。
2.2. 问题分析
图3。ZS和PT方法区分基类和新类数据的性能(基到新区别性)。
图4。ZS和PT方法在新类中区分数据的性能(新类可判别性)。
为了解决OPT问题,我们研究了一个现实世界的数据集(Krause et al, 2013),对OPT固有的挑战进行了详细的分析。我们的观察表明,虽然提示调优方法可以提高基类的可辨别性,但它们会损害基类到新类的可辨别性和新类的可辨别性。为了说明这一观察结果,我们在图3和图4中展示了ZS方法和PT方法之间的比较,其中我们使用CLIP作为ZS方法,使用CoOp作为PT方法。
图3表明,与零样本基线相比,提示调优方法导致base-to-new区别性降低。具体来说,使用MSP技术(Hendrycks & Gimpel, 2016)检测新类的AUROC降低了,并且为基类引入了更多的假阳性预测。此外,图4说明了我们强调,现有的H度量不能测量基类到新类的区别性,因此不适合全面的实际应用。在OPT问题中,在整个类空间中评估准确率可以有效地解决这一限制。
2.3. 问题分解
以上分析表明,零样本基线在新类可分辨性和基到新可分辨性方面都优于提示调优方法。这一发现促使我们将OOD检测技术与ZS法和PT法相结合。该方法旨在使用ZS保持新类的可分辨性,同时使用PT增强基类的可分辨性。因此,我们将原分类问题分解为单独的OOD检测和两个分类问题:
其中 k k k为简单起见总是等于 g ( x ) g(x) g(x),表示 x x x的基真标签空间。第二项是OOD检测器,用于确定 x x x是属于基类空间还是新类空间。第一项是对应类空间的分类器。
方程2 促使我们提出一个新的分解提示调谐框架(DEPT),它协同利用了零样本基线ZS和提示调谐方法PT的优点,DEPT框架的预测概率 P D E P T ( y ∣ x ) P_{DEPT}(y|\bm x) PDEPT(y∣x)为:
其中, P O O D ( y ∈ Y b ∣ x ) P_{OOD}(y\in \mathcal{Y}b|\bm x) POOD(y∈Yb∣x)是OOD检测器,用于确定 x \bm x x属于基类空间还是新类空间。 P Z S ( y ∣ x ) P{ZS}(y|\bm x) PZS(y∣x)和 P P T ( y ∣ x ) P_{PT}(y|\bm x) PPT(y∣x)是 Z S ZS ZS和 P T PT PT的分类器。在接下来的理论分析和实证实验中,我们采用使用MSP方法作为OOD检测器的ZS方法,即对于 i ∈ { b , n } , P O O D ( y ∈ Y i ∣ x ) = max y ∈ Y i P Z S ( y = j ∣ x ) i\in \{b,n\},P_{OOD}(y\in \mathcal{Y}_i|\bm x)=\underset{y\in \mathcal{Y}i}{\text{max}}P{ZS}(y=j|\bm x) i∈{b,n},POOD(y∈Yi∣x)=y∈YimaxPZS(y=j∣x)。
然后,我们采用两个概率分布 p \bm p p和 q \bm q q的交叉熵度量,即 H ( p , q ) = − ∑ i = 1 C p i log q i H(\bm p,\bm q)=-\sum^C_{i=1}{p_i \text{ log}q_i} H(p,q)=−∑i=1Cpi logqi,来评估 P Z S ( y ∣ x ) P_{ZS}(y|\bm x) PZS(y∣x)和我们的DEPT框架 P D E P T ( y ∣ x ) P_{DEPT}(y|\bm x) PDEPT(y∣x)的性能。我们表示分布 k ~ = { I [ k = b ] , I [ k = n ] } \tilde{\bm k}=\{\mathbb{I}[k=\bm b],\mathbb{I}[k=\bm n]\} k~={I[k=b],I[k=n]}和 y ~ = { [ f ( x ) = i ] } i = 1 C \tilde{\bm y}=\{[f(x)=i]\}^C_{i=1} y~={[f(x)=i]}i=1C对于 x x x。最后,我们表示以下交叉熵值为零基线,提示调优方法和DEPT框架:
定理2.1。如果 E x [ H Z s C L S ( x ) ] ≤ δ \mathbb{E}x[H{Zs}^{CLS}(\bm x)] \le \delta Ex[HZsCLS(x)]≤δ对于 x \bm x x既属于基类又属于新类, E x [ H P T C L S ( x ) ] ≤ δ − Δ \mathbb{E}x[H{PT}^{CLS}(\bm x)] \le \delta -\Delta Ex[HPTCLS(x)]≤δ−Δ对于 x \bm x x属于基类, E x [ H Z S C L S ( x ) ] ≤ ϵ \mathbb{E}x[H{ZS}^{CLS}(\bm x)] \le \epsilon Ex[HZSCLS(x)]≤ϵ,给定测试数据中基类和新类的均匀混合比 ( α : 1 − α ) (\alpha:1-\alpha) (α:1−α),我们可以确定:
说明 2.2。定理2.1表明,将零样本基线分解为OOD检测器和分类器,并结合提示调优方法辅助基类分类,可以有效降低分类误差的上界。此外,增强OOD检测器的可靠性有助于减少误差项,并确保与基线方法相比,新类的性能保持不变。因此,该框架保留了ZS方法的基到新可判别性和新类可判别性。此外,PT方法的细化增加了 Δ \Delta Δ,进一步增强了基类的可分辨性,降低了误差的上界。
定理2.1激励我们设计一种基于方程3的鲁棒提示调谐方法,使用OOD检测技术来求解OPT。
3. DECOOP方法
我们提出了一个新的提示调整框架,称为DEPT,以解决OPT问题。DEPT框架有效地维护了基类和新类之间的可分辨性,从而在应用提示调优时防止了可分辨性的退化。我们的理论分析,如定理2.1所示,证明了DEPT在结合零样本基线和提示调谐方法时的优越性。然而,为了在复杂的实际应用中进一步提高性能,仍然需要解决两个挑战:(1)我们如何训练可靠的OOD检测器来使用来自基类的有限标记数据来识别新类数据?(2)有了可靠的OOD检测器,如何分别提高基类和新类的可分辨性?
为了解决上述挑战,我们基于DEPT框架提出了一种新的提示调优方法,称为分解上下文优化(DECOOP),该方法包含 K K K个新类检测器 { M D i } i = 1 K \{\mathcal M^i_D\}^K_{i=1} {MDi}i=1K和子分类器 { M C i } i = 1 K \{\mathcal M^i_C\}^K_{i=1} {MCi}i=1K新类检测器的引入有助于改进OPT问题中来自新类的数据检测,在OPT问题中,新类的名称是已知的,并且可以被利用。这与传统的OOD检测问题不同,为进一步提高性能提供了机会。子分类器的设计是为了更好地从基类中对数据进行分类,并降低新类的潜在风险,目的是通过可靠的基类到新类的可判别性来增强基类和新类的可判别性。DECOOP方法的总体示例如图5所示,下面的小节将详细描述每个组件。
图5。DECOOP方法的整体说明。
3.1. 新型探测器 M D \mathcal M_D MD
在OPT问题中,模型使用 Y b \mathcal{Y}_b Yb进行训练,但在测试过程中具有整个类空间 Y \mathcal{Y} Y的知识。因此,新类检测器的主要挑战是训练模型有效地利用新类 Y n \mathcal{Y}_n Yn的知识,这些知识仅在测试期间已知。
具体来说,我们提出的解决方案包含了一种留出策略,该策略在训练阶段将基类空间 Y b \mathcal{Y}_b Yb划分为两个不同的子集:模拟基类 Y ^ b \mathcal{\hat Y}_b Y^b和模拟新类 Y ^ n \mathcal{\hat Y}_n Y^n,其中 Y ^ b ∪ Y ^ n = Y b \mathcal{\hat Y}_b \cup \mathcal{\hat Y}_n=\mathcal{Y}_b Y^b∪Y^n=Yb。我们分别将原始训练集 D \mathcal{D} D分割为 D b = { ( x , y ) ∣ ( x , y ) ∼ D ∧ y ∈ Y ^ b } \mathcal{D}_b=\{(\bm x,y)|(\bm x,y)\sim \mathcal{D}\wedge y \in \mathcal{\hat Y}_b\} Db={(x,y)∣(x,y)∼D∧y∈Y^b}和 D n = { ( x , y ) ∣ ( x , y ) ∼ D ∧ y ∈ Y ^ n } \mathcal{D}_n=\{(\bm x,y)|(\bm x,y)\sim \mathcal{D}\wedge y \in \mathcal{\hat Y}_n\} Dn={(x,y)∣(x,y)∼D∧y∈Y^n}。那么,我们对新型检测器的优化目标函数定义为:
其中, l C E ( x , y ) = − log P ( x ) y l_{CE}(\bm x,y)=-\text{log }{P(\bm x)}y lCE(x,y)=−log P(x)y表示交叉熵损失, l E ( x ) = − ∑ i = 1 C P ( x ) i log P ( x ) i l{E}(\bm x)=-\sum^C_{i=1}{P(\bm x)}i \text{log } {P(\bm x)}i lE(x)=−∑i=1CP(x)ilog P(x)i表示熵损失, l E b = 1 ∣ D b ∣ ∑ ( x , y ) ∼ D b l E ( x ) l{E}^b=\frac{1}{|\mathcal{D}b|}\sum{(x,y)\sim \mathcal{D}b}l{E}(\bm x) lEb=∣Db∣1∑(x,y)∼DblE(x)表示模拟基类上的平均熵, l E n = 1 ∣ D n ∣ ∑ ( x , y ) ∼ D n l E ( x ) l{E}^n=\frac{1}{|\mathcal{D}n|}\sum{(x,y)\sim \mathcal{D}n}l{E}(\bm x) lEn=∣Dn∣1∑(x,y)∼DnlE(x)表示模拟新类上的平均熵。此外, γ \gamma γ是一个超参数,它控制着 l e b l^b_e leb和 l e n l^n_e len之间的余量,以确保稳定的优化。方程6中的目标函数鼓励模型对模拟的基类进行低熵预测,对模拟的新类进行高熵预测,从而增强基到新的可判别性。然而,划分基类空间会导致模型的认知仅限于基类的一个子集,从而导致在测试期间无法区分其他基类和新类。 为了解决这个问题,我们建议采用 K K K个新类检测器 { M D i } i = 1 K \{\mathcal M_D^i\}^K_{i=1} {MDi}i=1K的集合,在训练期间覆盖整个基类空间。每个新类检测器都用方程6进行训练,并使用不同的类划分。我们的 K K K个新类检测器的类分区确保每个基类被视为至少一个新类检测器的模拟新类。我们将 M D i ( x ) \mathcal M_D^i(\bm x) MDi(x)表示为 x \bm x x计算的新类分数。分数越低表示 x \bm x x属于新类的可能性越高。
此外,即使提供了训练有素的新类检测器,阈值对于检测新类仍然至关重要。利用我们的分割和集成策略的优势,我们可以使用Otsu算法在训练期间直接估计每个新类检测器的阈值(Otsu, 1979;Liu & Yu, 2009)和训练数据。这是可行的,因为每个新类检测器的训练数据中存在自然模拟的基类和新类。随后,这些估计的阈值可以平均,以确定阈值,记为 τ \tau τ,用于测试。
3.2. Sub-Classifier M C \mathcal M_C MC
在训练了可靠的新类检测器之后,我们继续为每个检测器训练子分类器 ,因为每个检测器关注基类空间的特定子集。 K K K个子分类器中的每一个,记为 { M C i } i = 1 K \{\mathcal M^i_C\}^K_{i=1} {MCi}i=1K,被设计为专门化一个特定的基类空间,从而对相应的子集类空间实现更好的可判别性。对于第 i i i个子分类器 M C i \mathcal M^i_C MCi,我们首先利用训练好的新类检测器 M D i \mathcal M^i_D MDi将训练数据划分为两个子集: D b i \mathcal{D}_b^i Dbi和 D n i \mathcal{D}_n^i Dni。在这里, D b i = { ( x , y ) ∣ ( x , y ) ∼ D ∧ M D i ( x ) ≥ τ } \mathcal{D}^i_b=\{(\bm x,y)|(\bm x,y)\sim \mathcal{D}\wedge \mathcal M^i_D(\bm x) \ge \tau\} Dbi={(x,y)∣(x,y)∼D∧MDi(x)≥τ}和 D n i = { ( x , y ) ∣ ( x , y ) ∼ D ∧ M D i ( x ) < τ } \mathcal{D}^i_n=\{(\bm x,y)|(\bm x,y)\sim \mathcal{D}\wedge \mathcal M^i_D (\bm x) < \tau\} Dni={(x,y)∣(x,y)∼D∧MDi(x)<τ}。随后,我们优化如下目标函数:
其中, l K L l_{KL} lKL表示KL-散度损失, P ( x ) P(\bm x) P(x)和 P Z S ( x ) PZS(\bm x) PZS(x)表示DECOOP方法和零样本CLIP基线的预测概率。我们将 M C i ( x ) \mathcal M^i_C(\bm x) MCi(x)表示为 x \bm x x计算的预测概率。
3.3. 推理
在测试过程中,我们评估了 K K K个新类检测器 { M D i } i = 1 K \{\mathcal M^i_D\}^K_{i=1} {MDi}i=1K的集合,以确定每个测试数据是否应该由一个学习的子分类器 M C i \mathcal M^i_C MCi或零样本CLIP基线预测。具体来说,对于一个测试实例 x \bm x x,我们首先计算新类探测器的得分,
其中 i ∗ = arg max i ∈ { 1 , ... , K } M D i ( x ) i^*=\text{arg max}{i\in \{1,\ldots,K\}}{\mathcal M^i_D(\bm x)} i∗=arg maxi∈{1,...,K}MDi(x)(me:总感觉这个公式是 i ∗ = arg max i ∈ { 1 , ... , K } M C i ( x ) i^*=\text{arg max}{i\in \{1,\ldots,K\}}{\mathcal M^i_C(\bm x)} i∗=arg maxi∈{1,...,K}MCi(x))。DECOOP方法选择单个子分类器来预测每个测试数据,而不是将所有子分类器的结果聚合在一起。因此,与零样本CLIP基线相比,我们的方法需要对新型探测器进行 K K K倍的计算。在我们的实验中,我们将 K K K设置为3,这不会带来沉重的计算负担。我们在附录B.7中进行了评估时间的实验,证明了DECOOP是相对高效的。
4. 实验
表3。使用ViT-B/16架构的11个数据集的性能比较。最好的表现是用粗体。
表4。使用MSP方法(Hendrycks & Gimpel, 2016)和AUROC指标评估每种方法的从基到新可辨别性。最好的表现是用粗体。
6. 结论
在本文中,我们详细探讨了OPT问题,并揭示了基础到新识别性是至关重要的,但往往被现有的方法和设置所忽视。我们首先引入DEPT框架,并通过理论分析证明,将OOD检测纳入提示调谐可以增强基到新类的可分辨性,防止新类的可分辨性退化。在DEPT的基础上,我们提出了一种新的提示调优方法,称为DECOOP,它引入了新的类检测器和子分类器,以进一步增强基类和新类的可辨别性。实验结果验证了我们对DEPT的分析,并证明了我们的DECOOP方法的有效性。
参考资料
论文下载(ICML 2024)
https://arxiv.org/abs/2406.00345