【论文阅读】CTAB-GAN: Effective Table Data Synthesizing

论文地址:[2102.08369] CTAB-GAN: Effective Table Data Synthesizing (arxiv.org)

介绍

虽然数据共享对于知识发展至关重要,但遗憾的是,隐私问题和严格的监管(例如欧洲通用数据保护条例 GDPR)限制了其充分发挥作用。合成表格数据作为一种替代方案出现,可在满足监管和隐私约束的同时实现数据共享。最先进的表格数据合成器从生成对抗网络 (GAN) 中汲取方法论,并处理行业中的两种主要数据类型,即连续数据类型和分类数据类型。在本文中,我们阐明了 CTAB-GAN,这是一种新颖的条件表 GAN 架构,可以有效地对各种数据类型进行建模,包括连续变量和分类变量的混合。此外,该模型还解决了实际表格数据集中的数据不平衡和长尾问题,即某些变量在大值之间具有显着的频率差异。这是通过利用条件 GAN 的信息损失和分类损失实现的。此外,该模型具有新颖的条件向量,可有效地对混合数据类型和数据变量的偏态分布进行编码。CTAB-GAN 在数据相似性和分析效用方面用当前的技术水平进行了评估。五个数据集的结果表明,CTAB-GAN 的合成数据与所有三类变量的真实数据非常相似,并导致五种机器学习算法的准确率更高,高达 17%.

论文动机

工业数据集(在银行、保险公司和医疗保健等利益相关者中)提出了多重挑战。首先,这些数据集被组织成表格,并填充有连续变量和分类变量,或两者的混合,例如,贷款持有人的抵押贷款价值。该值可以是 0(无抵押)或某个连续的正数。在这里,我们将这种类型的变量称为混合变量。其次,连续数据变量通常具有广泛的值,并且可以表现出重长尾分布,例如信用卡交易金额的统计。大多数交易应该在 0 到 500 美元之间(即每天购买食物和衣服),但肯定存在高交易额的例外。第三,连续数据变量也可能包含具有多种偏斜频率模式的分布。在下面的图 2 中,我们展示了这些问题在利用当前最先进的技术时如何表现出来。

使用现有的基于 GAN 的表生成器对工业数据集建模的挑战:(a) 混合类型,(b) 长尾分布,以及偏斜数据

因此,总而言之,应对以下挑战构成了研究的主要动机:

  • 表格数据包含由连续和离散分量组成的混合变量。类似地,嵌入在连续变量中的缺失值也可以被视为混合变量的一个分类组件。
  • 连续变量表现出严重的长尾分布,难以真实地建模和重现。
  • 连续变量包含多种模式的偏斜频率,这进一步加剧了建模。

贡献

我们设计了一种新的条件表格数据合成器 CTAB-GAN,它解决了现有技术的局限性:(i)编码连续和分类变量的混合数据类型,(ii)长尾连续变量的有效建模(iii) 增加了对不平衡分类变量和偏斜连续变量的稳健性。此外,CTAB-GAN 的两个关键特征是在条件 GAN 中引入分类损失,以及对条件向量的新颖编码,该编码有效地编码混合变量并有

助于处理连续变量的高度偏态分布。

因此,主要贡献可以总结如下:

  • 新颖的条件对抗网络,它引入了一个分类器,提供额外的监督,以提高其在 ML 应用程序中的效用。
  • 通过新颖的数据编码和条件向量对连续、分类和混合变量进行有效建模。
  • 轻量级数据预处理,使用简单的对数变换减轻连续变量长尾分布的影响。
  • 为相关利益相关者提供有效的数据合成器。

结果

使用 CTAB-GAN 对工业数据集建模的结果:(a) 混合类型,(b) 长尾分布,以及偏斜数据

现在让我们根据第2节前面介绍的三个动机案例来回顾CTAB-GAN的表现。

混合变量------上面显示的图 3.(a) 比较了贷款数据集中变量"抵押"的真实数据和 CTAB-GAN 生成的数据。CTAB-GAN 将此变量编码为混合类型。我们可以看到 CTAB-GAN 与现有的最先进技术不同,生成了清晰的 0 值。

长尾连续变量 - 图 3.(b) 比较了 Credit 数据集中"Amount"变量的累积频率图。该变量是典型的长尾分布。可以看到 CTAB-GAN 完美地恢复了真实分布。由于对数转换数据预处理,CTAB-GAN 比最先进的方法明显更好地学习这种结构。

倾斜的多模式连续变量 - 图 3.(c) 比较了来自 Adult 数据集的连续变量"Hours-per-week"的频率分布。除了 40 处的主峰外,还有很多副峰,这使得该色谱柱的合成极为困难。然而,我们看到 CTAB-GAN 比现有方法更有能力恢复偏斜的多模态分布,因为它是条件向量的新颖构造,旨在使生成过程对此类分布更加鲁棒。

总结

受数据共享和履行政府法规的重要性的启发,我们提出了 CTAB-GAN------一种基于条件 GAN 的表格数据生成器。CTAB-GAN 通过对混合变量进行建模而超越了先前最先进的方法,并为不平衡的分类变量和具有复杂分布的连续变量提供了强大的生成能力。为此,CTAB-GAN 的核心特征包括 (i) 将分类器引入条件 GAN,(ii) 混合变量的有效数据编码,以及 (iii) 条件向量的新构造。我们针对四个表格数据生成器在广泛的指标上详尽地评估了 CTAB-GAN,即最终的 ML 实用程序、统计相似性和隐私保护。结果表明,与现有的最先进技术相比,CTAB-GAN 的合成数据具有高实用性、高相似性和合理的隐私保证。与所有最先进的算法相比,复杂数据集的准确性提高了 17%。CTAB-GAN 的显着成果证明了其在广泛受益于数据共享的广泛应用中的潜力,例如银行、保险、制造和电信。

相关推荐
说私域37 分钟前
情绪点设置在开源AI大模型驱动的S2B2C商城小程序AI智能名片中的应用研究
人工智能·小程序·开源
海底的星星fly1 小时前
【Prompt学习技能树地图】思维链(CoT)提示技术工作原理、主要技术方法及实践应用
人工智能·语言模型·prompt
Avicli1 小时前
从Prompt到Answer:详解AI Agent架构中的ReAct模式与工具调用
人工智能·prompt
腾飞开源1 小时前
AI智能体实战开发教程(从0到企业级项目落地):62节全完结,助力金九银十升职加薪!
人工智能·ai智能体·金九银十·agent落地实战·升职加薪·学习先机·企业级项目实战
黄啊码2 小时前
【黄啊码】别再花钱了,五分钟教你做一个国庆头像智能体小程序
人工智能
AI绘画哇哒哒2 小时前
实战:SQL统一访问200+数据源,构建企业级智能检索与RAG系统(下)
人工智能·sql·深度学习·学习·ai·程序员·大模型
2401_841495642 小时前
【计算机视觉】图像去雾技术
人工智能·python·opencv·算法·计算机视觉·技术·图像去雾
河北北重机械9662 小时前
汽车安全性能测试与铸铁底座的重要性
人工智能·算法·机器学习·铸铁底座·铁底座装配·试验台基底座加工
HyperAI超神经2 小时前
香港科技大学提出融合神经网络框架,高效预测蛋白质序列的多金属结合位点
人工智能·深度学习·ai
支付宝小程序云2 小时前
Ant Design X ✖️ 百宝箱智能体 SDK 极速构建 AI 聊天应用
人工智能