DeFiTrust：基于 Transformer 利用事件日志和情感分析检测诈骗 DeFi 代币的框架

Abstract

当前检测诈骗代币的机器学习模型完全依赖DeFi代币交易行为，忽略了新闻和社交媒体帖子中可以衍生出的舆情，可以为识别诈骗代币提供有用的信息。本文提出了一种新的基于Transformer的框架，称为"DeFiTrust"，用于识别使用交易事件和社交媒体帖子的恶意DeFi代币。DeFiTrust有两个组成部分：事件日志处理和情感分析。前者在代币的事件日志中创建一个表示时间变化的特征向量。后者通过分析社交媒体帖子来判断公众对代币的看法。然后，一个全连接的神经网络处理这两个信息，以确定代币是否合法。

总结：

痛点：检测诈骗代币的模型完全依赖DeFi代币交易行为，忽略了该代币的新闻和社交媒体帖子等相关信息对代币的影响。

解决方案：提出了一种基于Transformer的框架，称为"DeFiTrust"，由事件日志处理和情感分析两个部分组成，用于识别使用交易事件和社交媒体帖子的恶意DeFi代币。

Introduction

主要介绍DeFi领域代币诈骗问题及应对方法，指出部分代币应用程序蓄意用于诈骗，另一些在被攻击者或所有者利用前看似无害，典型如rugpull攻击（代币所有者以高收益吸引投资者后卷款导致其重大损失），文中将造成投资者财务损失的DeFi代币定义为诈骗代币。现有机器学习模型利用区块链事件日志识别诈骗代币精度较高，但结合社交媒体数据（用户负面经历形成的代币感知）的研究较少。为解决如何基于交易和社交媒体数据尽早识别诈骗代币的问题，提出DeFiTrust框架，其通过事件日志处理流（用Transformer编码器分析交易事件日志生成时间变化特征向量）和情感分析流（用模型提取社交媒体内容情感并经Transformer处理生成舆情特征向量），将两者输入全连接神经网络判断代币是否为诈骗，实验显示该框架优于现有方法，准确率达96.0%，减少了将诈骗代币误判为健康代币的可能性。此外，为验证框架可靠性、增强用户和投资者信任，使用集成梯度这一事后解释生成方法为DeFiTrust决策生成解释，结果表明框架识别诈骗代币的理由有效。

1. DeFi智能合约分析

目前所有的模型目的都是分析源代码或事务数据，以解释DeFi应用的行为。
各类研究结果表明，将与交易相关的特征和与代码相关的特征相结合，比仅使用与交易相关的特征能取得更好的效果。
目前的这些模型并没有充分利用事务数据中编码的时间信息。它们使用的从事务日志中提取的静态特征。
目前没有研究关于整合相关社交媒体帖子或评论以提高诈骗代币检测准确性的方向。并且没有给出为何将代币定义为诈骗代币的原因。

2. 序列数据分析

智能合约交易和社交媒体发帖和评论都是序列数据。 对于该类数据的处理，传统是使用RNN神经网络。在RNN的训练过程中，通过时间反向传播算法（BPTT）来更新权重。随着时间步的不断增加，梯度在反向传播时会不断相乘。当梯度值小于1时，经过多次相乘，梯度会变得越来越小，趋近于0。这就导致在训练早期时间步的权重时，几乎没有梯度信息来更新这些权重，使得模型难以学习到长期依赖关系，无法有效捕捉序列中较早时间步的信息对较晚时间步的影响。例如在分析一段长时间的社交媒体评论序列时，开头部分的评论信息对于整体情感倾向的影响，RNN很难准确捕捉。后面的序列数据处理都是采用Transformer自注意力机制来权衡输入序列不同部分的重要性，从而实现并行化，更有效地捕获长程依赖关系。

本文模型使用了两个Transformer来提取交易数据和社交媒体情感数据中的时间嵌入。

3. 情感分析

社交媒体情感分析涉及使用自然语言处理和机器学习分析用户生成的内容，如帖子、评论和评论中表达的情感。现有的工作已经探索了将情感分析结合到不同的应用中，以改善结果，但均未将情感分析用于DeFi诈骗代币检测。

本文我们使用预训练的BERT模型来分析公众对DeFi代币的情绪，并将这种情绪纳入到诈骗代币的识别中。

4. 深度学习的可解释性

可解释人工智能（XAI）旨在揭示深度学习模型决策背后的原因，其方法可从多个维度分类：

事后解释（Post-hoc）（如 LIME、SHAP）：在模型训练后外部分析决策，不改变模型本身；

事前解释（Ante-hoc）：在模型设计时嵌入可解释性。

局部解释（如 LIME）：解释单个预测；

全局解释（如特征重要性）：概括模型整体趋势。

特征归因解释（如集成梯度 IG、GradCAM）：定位关键输入特征；

基于概念的解释：关联高层语义推理。

本文中使用的 集成梯度（IG） 是事后特征归因方法，通过从基线到实际输入的路径积分梯度，为输入特征分配重要性分数，提供单个预测的局部解释（如为何某代币被判定为恶意），且不影响模型精度，符合用户对具体决策原因的需求。

Methodology

1. 数据收集

1.1 以太坊事件日志

DeFi代币具备ERC-20等通用功能（如每笔交易生成含收发地址及数量的转账事件），基于以太坊数据可追溯性，本文使用24238个代币，仅提取ERC-20交易细节，针对Transformer模型需求，按统一序列长度提取每个代币最新1080条转账事件，通过Python脚本从Infura节点下载日志构建数据集。

1.2 社交媒体帖子的情感

社交媒体对DeFi应用影响重大，用户分享的可疑活动、资金损失等负面经历可作为潜在诈骗预警信号。本文从Reddit的8个加密货币相关子版块，通过API提取每个代币最新100条包含其名称/符号的帖子/评论作为数据（模型也适配Twitter等其他来源），示例显示健康与诈骗代币的用户情感差异，该情感数据能有效补充交易数据以识别诈骗代币。

2. 特征工程

从每个代币的最新1080条转账事件中，按每10个事件划分为一个时间段，生成108个时间步的序列（不足则用零向量填充）。

块差异 $F B D F_{BD}$ FBD ：时间段内首末交易的块号差，反映交易频率（块差小→交易频繁）。
交易量 $F V O F_{VO}$ FVO ：时间段内转移的代币总量。
铸造量 $F M N F_{MN}$ FMN ：发送者地址为零的交易总量（代表新代币创建）。
燃烧量 $F B N F_{BN}$ FBN ：接收者地址为零的交易总量（代表代币销毁）。
唯一地址数 $F U A F_{UA}$ FUA ：时间段内参与交易的唯一地址数量（地址少→交易集中，可能异常）。
基尼系数 $F G C F_{GC}$ FGC ：衡量交易代币数量的不均等性（值越接近 1→分布越不均衡）。
平均Gas价格 $F A G F_{AG}$ FAG ：时间段内交易Gas价格的平均值，反映网络拥堵和用户急迫性。

使用 Huggingface 的BERT变体模型（nlptown/bert-base-multilingual-uncased-sentiment）分析 Reddit 评论，生成5维情感向量： $H V N H_{VN}$ ，分别表示 "非常负面、负面、中性、正面、非常正面" 的情感值。每个代币提取最新 100 条相关评论，每条评论生成一个 5 维向量，形成情感序列输入模型。

3. 提出DeFiTrust模型

首先，事件日志处理流对每个代币的最新1080条转账事件进行特征工程，按每10个事件划分为1个时间步（共108个时间步），提取块差异、交易量、基尼系数等7维特征，经7头8层的Transformer编码器捕捉交易时序依赖，生成108×7的特征向量；
其次，情感分析流从Reddit提取每个代币的最新100条相关评论，通过预训练BERT模型生成包含"非常负面、负面、中性、正面、非常正面"的5维情感向量序列，经5头8层的Transformer编码器处理后得到100×5的情感时序特征向量。
两者展平拼接为1256维联合特征，输入全连接神经网络进行二元分类（健康/诈骗），采用带Logits的二元交叉熵损失函数优化。

Experimental study

1. 实验装置

模型基于 PyTorch 1.13.1 实现，利用 Google Colab 平台和 Nvidia T4 GPU 训练，将 24238 个代币按 19632/2182/2424 划分为训练 / 验证 / 测试集，经超参数调优确定 Transformer 隐藏维度 16、Adam 优化器（学习率 0.001）。

2. 消融研究

该部分通过移除模型关键组件（交易数据或情感数据处理流），验证多模态融合对诈骗代币检测的重要性，核心内容如下：

实验设计：对比三种模型配置：

TX-only（仅交易数据）：仅使用事件日志处理流（含1080条交易事件的7维特征），移除情感分析流；
SA-only（仅情感数据）：仅使用社交媒体情感分析流（100条评论的5维情感向量），移除交易数据处理流；
DeFiTrust（完整模型）：融合两者的双数据流架构。

关键指标对比：
准确率：TX-only为92.3%，SA-only为88.7%，DeFiTrust达96.0%，显著高于单一数据流模型；
F1分数：DeFiTrust（0.958）远超TX-only（0.912）和SA-only（0.879），表明其在正负样本分类上的均衡性更强；
误报率：DeFiTrust将诈骗误判为健康的概率（2.1%）低于TX-only（5.2%）和SA-only（7.3%），验证了多模态融合减少误判的优势。
结论：交易数据与情感数据具有互补性，前者捕捉异常交易模式（如集中转账），后者反映用户负面反馈（如资金损失投诉），二者结合显著提升检测性能，证明了DeFiTrust双数据流设计的必要性。

3. 比较研究

该部分将DeFiTrust与现有诈骗代币检测方法进行对比，验证其有效性与优越性，核心内容如下：

对比方法：

传统机器学习模型：随机森林（RF）、梯度提升机（GBM），仅使用交易数据特征；
单模态深度学习模型：LSTM、GRU（处理交易序列）、BERT（处理社交媒体情感）；
现有区块链分析方法：Mazorra等人（2022）的TX-only模型（仅交易数据的Transformer模型）。

核心指标对比：
- 准确率：DeFiTrust（96.0%）显著高于传统模型（RF：89.2%，GBM：90.5%）、单模态模型（LSTM/GRU：91.3%~92.8%，BERT：90.1%）及TX-only（92.3%）；
- F1分数：DeFiTrust（0.958）在正负样本平衡分类上表现最优，远超其他方法（最高为TX-only的0.912）；
- 处理长序列能力：DeFiTrust的Transformer架构通过自注意力机制捕捉长距离依赖，在交易事件数>1000的代币检测中，误报率（2.1%）较LSTM/GRU（5.7%~6.3%）降低超60%，解决了RNN类模型的梯度消失问题。
- 结论：DeFiTrust的多模态融合（交易+情感数据）与Transformer架构，在检测精度、鲁棒性及长序列处理上均优于单一数据驱动或传统时序模型，成为当前DeFi代币诈骗检测的最优方案。

4. 模型决策的解释

该部分通过集成梯度（Integrated Gradients, IG）方法解释 DeFiTrust 的决策逻辑，验证其可靠性并增强用户信任，采用 集成梯度IG 这一事后特征归因技术，量化交易数据特征（7 维）与社交媒体情感特征（5 维）对 "诈骗" 分类的贡献度，无需修改模型架构即可生成局部解释（针对单个代币的预测）。

4.1 交易特征

基尼系数 $F G C F_{GC}$ FGC和块差异 $F B D F_{BD}$ FBD在诈骗代币中权重最高，表明模型关注交易金额的不均衡性（高基尼系数反映少数地址集中转账）和交易频率变化（块差异小→短时间内高频交易，可能为异常操作）。
铸造量 $F M N F_{MN}$ FMN和燃烧量 $F B N F_{BN}$ FBN权重较低，说明诈骗代币的核心风险不依赖于代币发行/销毁，而是交易模式异常。

4.2 情感特征

负面情感值 $H V N H_{VN}$ HVN, $H N H_{N}$ HN在诈骗代币解释中贡献显著，验证了用户负面反馈（如资金损失投诉）是重要预警信号；健康代币则依赖正面情感值 $H P H_{P}$ HP, $H V P H_{VP}$ HVP。

总结

DeFiTrust模型在数据、方法及应用场景中的潜在不足，具体如下：

数据来源单一性：社交媒体数据仅依赖Reddit平台，虽支持扩展至Twitter等其他来源，但当前未覆盖更广泛的用户反馈（如Telegram群组、项目官网评论），可能遗漏部分诈骗代币的舆情信号。
区块链兼容性有限：模型仅针对以太坊ERC-20代币设计，未验证其他区块链（如Binance Smart Chain、Solana）的代币交易数据格式，跨链泛化能力待检验。
特征工程局限性：交易特征聚焦转账事件的统计指标（如基尼系数、块差异），未纳入智能合约代码审计信息（如重入漏洞、权限配置异常），可能漏判依赖代码层攻击的诈骗代币（如通过合约漏洞盗取资金）。
长序列处理效率：Transformer架构虽能捕捉长距离依赖，但处理1080条交易事件的高维序列时，计算成本较高，实时检测场景下的推理速度需进一步优化。
极端案例覆盖不足：对交易记录极少（如<100条）或舆情数据缺失的代币，模型可能因信息不足导致误判，需探索小样本学习或零样本学习技术增强鲁棒性。

这些局限性为未来研究指明方向，如拓展多链数据、融合代码层特征、优化模型效率等，以推动DeFi诈骗检测技术的实际落地与泛化应用。