论文阅读 - Pre-trained Online Contrastive Learning for Insurance Fraud Detection

[Problem Formulation](#Problem Formulation)

[Pre-trained Model for Enhanced Robustness](#Pre-trained Model for Enhanced Robustness)

[Detecting Network and Task Learning](#Detecting Network and Task Learning)

[Online Learning and Forgetting Control](#Online Learning and Forgetting Control)

数据集

[Experimental Results](#Experimental Results)

[Ablation Experiment](#Ablation Experiment)

claim（根据医疗保健系统报告的事实，38.1% 被标记为欺诈）

摘要

医疗保险欺诈一直是医疗行业领域面临的严峻挑战。

现有的欺诈检测模型大多集中于离线学习场景。

然而，欺诈模式不断演变，使得基于过去数据训练的模型很难检测新出现的欺诈模式，这对医疗欺诈检测提出了严峻的挑战。

此外，当前的增量学习模型主要是为了解决灾难性遗忘而设计的，但在欺诈检测中往往表现出次优的性能。

为应对这一挑战，本文提出了一种用于医疗保险欺诈检测的创新在线学习方法，命名为 POCL。

这种方法结合了对比学习预训练和在线更新策略。

对比学习预训练

在预训练阶段，利用对比学习预训练来学习历史数据，从而实现深度特征学习并获得丰富的风险表征。

在线更新策略

在在线学习阶段，采用了 "时间记忆感知突触"（Temporal Memory Aware Synapses）在线更新策略，允许模型根据不断涌现的新数据进行增量学习和优化。

这可以确保及时适应欺诈模式，减少对过去知识的遗忘。

模型在现实世界中的余额欺诈数据集上进行了广泛的实验和评估。结果表明，与最先进的基线方法相比，模型在准确性方面具有显著优势，同时还能降低运行时间和空间消耗。

源代码发布于 https://github.com/finint/POCL。

Introduction

背景介绍

医疗保险欺诈严重危害社会，日益引起公众的关注。

2017 年，美国在医疗保健方面的支出达到了惊人的 3.5 万亿美元（Sisko 等，2019 年），其中超过 20% 或 7200 亿美元（Cubanski、Neuman 和 Freed，2019 年）用于医疗保险。

然而，在这些巨额支出中，欺诈组织和个人找到了可乘之机。

研究表明，令人震惊的是，3-10% 的医疗保险基金（Morris，2009 年），相当于 210- 700 亿美元，因欺诈活动而被浪费。这些欺诈行为不仅增加了医疗保健系统的运营成本，而且还造成了医疗保险基金的损失、但也给消费者造成负担。这些行为的后果在全社会引起反响，强调了打击保险欺诈的紧迫性。

此外，医疗保险欺诈手段也在不断演变（Thornton 等人，2013 年）。欺诈者随机应变，设计出越来越多的秘密策略，以减少被发现的风险（Timofeyev 和 Jakovljevic，2022 年）。这种不断演变的策略加剧了欺诈检测的挑战。

当代的静态医疗保险欺诈检测系统并不适合这种情况（Thornton 等人，2013 年），它忽略了许多会造成巨大损失的欺诈活动。

这就强调了设计一个具有快速适应性和在线学习能力的医疗保险验证系统的必要性。

相关工作

欺诈检测由来已久，其起源可追溯到 20 世纪 80 年代的研究（McDowell，1987 年）。传统方法通常围绕基于规则的方法展开，如（Dua 和 Bais，2014 年）所描述的那样，或者拥抱机器学习领域，如（Fiore 等人，2019 年）的工作所证明的那样。这些方法因其在欺诈检测方面的功效而备受关注。与此同时，随着深度学习方法在更广泛的科学界获得认可，它们开始被应用于欺诈检测领域，开创了复杂检测机制的新时代，例如（Roy 等人，2018 年）。

Dou 等人，2020 年；Cheng 等人，2023 年；Ma 等人，2023 年；Gao 等人，2023 年）等研究成果强调了图神经网络（GNN）学习复杂关系和模式的能力，从而标志着这种方法在提升欺诈检测水平方面的巨大潜力。不过，上述模型主要是针对线性学习范式的。

将这些方法直接应用于在线学习往往会导致次优结果 。**重新训练一个完整的模型以规避这些限制（Lebichot 等人，2020 年）往往会带来巨大的挑战，**因为这需要大量的计算和时间资源（Wu、Dobriban 和 Davidson，2020 年）。

相近工作

幸运的是，近年来出现了各种采用渐进式或在线学习的欺诈检测模型。值得注意的是，在特定的动态环境中，这些模式已显示出令人称道的功效。例如，（Sadreddin 和 Sadaoui，2022 年）利用创新的适应性学习方法，将迁移学习与渐进学习结合起来。

Anowar and Sadaoui 2021) 专为打击拍卖欺诈而设计的基于区块的增量学习框架，而（Bayram、Koro˘glu 和 Göonen 2020）则采用梯度提升树，解决信用卡欺诈的动态细微差别。尽管如此，这些方法仍然存在局限性。首先，当前的技术往往忽视了欺诈模式固有的复杂的结构和时间细微差别。其次，考虑到金融背景下严格的数据存储限制，历史数据变得不可行。

提出方法

为了应对这些挑战，在本研究中，提出了预训练在线对比学习模型（POCL），这是一种专为医疗保险欺诈检测而定制的创新在线学习图神经网络。首先，将历史数据集分为正向和负向医疗节点图。通过对比这两种类型的图之间的差异来预训练上游模型。正如（Le-Khac、Healy 和 Smeaton 2020）所述，对比学习是发现复杂模式的强大工具，从而提高欺诈检测的精度。

同时，经验观察表明，该模型能够熟练地将不断演变的欺诈特征投射到一致的空间中，这可以降低更新的难度并降低遗忘的可能性。接下来，引入下游欺诈检测网络，并将其与预训练模型相结合，创建端到端欺诈检测模型。在在线学习场景中，使用一种新颖的时间记忆感知突触（MAS）（Aljundi et al. 2018）方法来更新模型。该方法结合了时间特征并计算每次更新的参数的重要性权重。通过使用动量技术来整合历史重要性权重，该方法在不存储任何历史数据的情况下确定更新期间忘记和保留参数的程度。总而言之，工作有以下贡献：

这是第一个在保险欺诈检测领域引入在线学习模型的工作。该模型巧妙地融合了结构特征，不断适应不断发展的欺诈模式范式。

• 提出了一种基于对比学习预训练的新型在线学习GNN 模型。该模型与 Temporal MAS 方法配合使用时，可以准确识别欺诈性索赔，并显着减少忘记先前学到的知识的发生。

• 通过对现实世界的医疗保险欺诈数据集进行广泛的实验，证明了模型在长时间的在线更新过程中具有令人印象深刻的准确性。此外，模型始终表现出较低的时间和空间复杂度。

Methodology

如图1所示，模型的流程可以分为三个阶段：预训练、任务学习和在线学习。在本节中，首先制定问题。然后，在预训练阶段，将介绍预训练的模型及其优化策略 。在任务学习阶段，将描述如何结合预训练模型和任务学习模型来训练离线模型。最后，在在线学习阶段，将介绍Temporal MAS在线更新方法，用于确定变量的变化程度。

Problem Formulation

在在线医疗欺诈检测中，将医疗图定义为, , 表示一组医疗图，其中每个医疗claim的特征是, 代表claim之间的边缘，其中两个相关claim具有相同的医疗提供者或受益人.这里，是claim的数量，N是图中的边的数量。

. 在在线学习场景中，给定两部分数据：历史数据集,在线学习数据集 , 目标是学习,是基于整个历史数据集使用传统训练方法训练的GNN的参数,而参数,接受在线学习数据的训练,特别是，它是基于的参数，使用在线学习方法进行增量训练的。

希望在不重新训练整个模型的情况下，尽可能保持模型 θ 的准确性，并期望它能检测到某些模式发生变化的情况。

Pre-trained Model for Enhanced Robustness

在预训练阶段，将医疗claim图 G 中的claim划分为两个集合：正集和负集。随后，使用数据集提供的方案在两个图中构建边。通过这样做，创建了两个不同的图：正图和负图.然后使用这两个图来训练预训练模型

使用 GraphSAGE（Hamilton、Ying 和 Leskovec，2017 年）作为预训练模型，其中第 k 层的去细化为:

然后获得模型更新的两个特征嵌入:

这将用于欺诈检测。

参考（Veliˇckovi´c et al. 2019），使用二元交叉熵损失函数来帮助识别欺诈模式：

损失函数旨在有效区分正面和负面实例，使模型能够专注于学习与医疗欺诈相关的特定模式。它可以在特征空间中将具有相同标签的节点相互拉近，将不同标签的节点推开，使模型能够关注相似节点之间的关系，并找到欺诈节点和非欺诈节点的差异。

Detecting Network and Task Learning

预训练模型的输出修改特征矩阵而不是进行预测，在下游任务中，使用GAT（Veliˇckovi´c 等人，2018 年）网络作为检测网络，其中第 k 层的注意力系数计算公式如下：

获得节点之间的注意力系数后，将 GAT 的第 k 层定义为：

然后，将预先训练好的模型与检测网络相结合，创建一个端到端的模型。

使用历史数据集训练整个模型，包括训练检测模型和微调预训练模型。然而，在这一步骤中出现了一个关键挑战--确保预训练网络能够从标签中学习，同时θpre 不会遗忘已经获得的宝贵信息。为了解决这个问题，提出了一种新的损失函数，它能有效减轻灾难性遗忘。在标准交叉熵损失函数的基础上，引入了一个惩罚项

所以总损失为：

其中，是预训练模型输出的正向部分，是负向部分。修正二元交叉熵损失建立在公式 2 中之前提到的 BCE 损失 Lpre 的基础上。通过在损失函数中加入惩罚项 P，激励预训练网络 θpre 保留其先前学习到的特征，同时帮助整个模型从新数据中学习。这种方法确保了学习过程的平衡，防止模型过度重视新数据而遗忘了在预训练阶段获得的重要信息。

Online Learning and Forgetting Control

在线学习法。为了在不重新训练整个模型的情况下应对不断变化的欺诈模式， 采用了在线学习方法来逐步更新模型。由于金融场景的独特性，每次只能访问在线数据集的一部分。在 t 时刻，模型可以表示如下：

这里，表示预测的欺诈可能性，表示预先训练的模型函数，是 t - 1 时间的模型函数。这些函数从时间 1 到 t - 1 收集的数据中学习。

时间 MAS 方法。在医疗保险欺诈检测场景中，观察到新的欺诈模式与现有模式同时出现。这意味着，不及时学习新模式或遗忘旧模式都会导致准确率下降。为了控制在线学习期间学习和记忆的内容，设计了一种基于 MAS 的新方法（Aljundi 等人，2018 年），称为时态 MAS。

首先，与其他增量学习或在线学习方法相比，这种方法不需要存储历史数据 ，而这对模型至关重要。它的时间效率非常高，因为它只需要计算每个参数的梯度并将其合并，从而产生固定的空间和时间开销。

此外，它还利用了医疗保险欺诈检测中欺诈模式不断演变的特性。通过使用 "动量 "方法将历史重要性权重和单个任务重要性权重结合起来，该模型在学习新欺诈模式的同时实现了遗忘和保留知识之间的平衡。这使得该模型能够适应欺诈模式随时间的变化，使其在检测医疗欺诈时更加稳健有效。

首先，需要计算单一图形中模型参数的重要性权重 。在这里，使用每个参数的梯度作为当前任务的重要性权重 。这是因为梯度越大，表明修改特定参数对模型输出的影响越大，从而更容易发生灾难性遗忘：

其中，是图特征，δ 是参数 θ 的微小变化。使用梯度来计算这些重要性权重：

在医疗保险欺诈检测在线学习方面，新的欺诈模式会逐渐出现，并可能取代旧的模式。仅仅将多个图的重要性权重相加是不够的。

为了解决这个问题，采用了 "动量 "的概念，即考虑重要性权重的变化趋势，并逐渐重视之前权重的重要性。通过融入动量思想，可以随着时间的推移自适应地调整重要性权重 ，让模型逐渐遗忘那些长期未出现的相关性较低的模式。这种自适应机制确保模型能够不断学习和适应新的欺诈模式，同时仍能保持遗忘过时信息的能力。通过以下方法计算调整后的重要性权重:

其中，λ 是动量参数，是图的重要性权重。

计算全局重要性权重后，将其作为惩罚项纳入损失函数 L、

数据集

为了评估模型在现实世界医疗保险欺诈检测中的有效性，利用了医疗欺诈数据集（Ma 等人，2023 年）。这个广泛的医疗保险数据集包含真实世界中约 20 万受益人、5000 多家医疗服务提供商和约 55 万份医疗保险索赔的信息 。其中约 38.1% 的claim被识别并标记为欺诈性索赔。该数据集最珍贵的部分是由专家注释的细致欺诈标签和时间戳。因此，它具有典型性和权威性。

(在与美国国家医疗安全管理局（NHSA）的合作领域专家对数据集进行深入分析后，发现许多欺诈活动涉及多个组织方，即所谓的共谋欺诈。然后，NHSA 的反欺诈专家对这些组织化欺诈标签进行了详细注释。他们通过多年打击欺诈者的领域专业知识来判断claim是否涉及有组织欺诈。根据医疗保险程序中的有组织欺诈标准和数据集中现有的欺诈标签，每条记录都会被标注上两个欺诈标签，表明是个人欺诈还是有组织欺诈。下表报告了数据集的详细统计数据，包括住院和门诊报销单。)

在评估过程中**，选择了一年的数据，随后构建了许多不同的医疗claim图，每个图代表一天** 。其中，最初的 15 天保留为历史数据集，其余为在线学习数据集。

为确保一致性，每个模型都在这个全面的历史数据集上进行训练，以创建离线模型。

在在线学习阶段，模型会随着在线学习数据集的逐步引入而动态调整。理想情况下，在这一阶段，每个模型在任何时间点都只能访问在线学习数据集的特定部分。

不过，为了反映真实世界的场景和实际限制，允许某些模型保留或重新访问先前图中的全部信息。

此外，为了更深入地分析实验模型在不同欺诈场景中的有效性，选择了两个常见的欺诈检测数据集--亚马逊（McAuley 和 Leskovec，2013 年）和 YelpChi（Rayana 和 Akoglu，2015 年）--进行了一系列实验。这些实验通过模拟时间戳来生成相应的在线数据，从而模拟真实的用户行为和交易过程。

OnlineGNN：该模型特别关注在线学习场景，它不断地从传入数据中学习，而无需重新访问历史数据。

RetrainGNN：只要引入新数据，该模型就会重新训练。它会丢弃以前的知识，以随机权重开始训练整个数据。

OfflineGNN：该模型仅在整个历史数据集上进行训练，在线学习阶段不会接触任何新数据。

ERGNN（Zhou and Cao 2021）：该模型使用经验回放来连续学习一系列任务，解决灾难性遗忘问题。

FGN（Wang et al. 2022a）：该模型通过将持续图学习转换为常规图学习，在图学习和终身学习之间架起桥梁。

ContinuesGNN （Wang 等，2020 年）：该模型基于持续学习，通过数据重放和模型正则化来学习和保持模式。

CAREGNN（Dou 等人，2020 年）：该模型使用多关系图来检测欺诈行为，重点打击使用伪装的作弊者（cheaters）。

PCGNN （Liu 等，2021 年）：该模型使用挑选法解决金融关系拓扑图中类别不平衡的问题.