HgtJIT:基于异构图 Transformer 的即时漏洞检测框架

" 随着软件系统持续演进,漏洞检测任务从"离线分析"逐步转向"实时监测"。传统图神经网络模型虽然能够捕获程序语法与控制流结构,但在处理多类型节点、跨语义关系以及快速推理需求时仍显不足。

为此,研究团队提出了 HgtJIT ------ 一种基于异构图 Transformer 的即时漏洞检测框架,通过构建函数级多视图异构图,结合多头注意力机制的语义建模,实现对真实工业代码的高效、精准漏洞识别。"

  • 📄 论文标题:HgtJIT: Just-in-Time Vulnerability Detection Based on Heterogeneous Graph Transformer

  • 📅 发表时间:IEEE TRANSACTIONS ON DEPENDABLE AND SECURE COMPUTING, 2025

  • 🏫 作者单位:扬州大学、南昆士兰大学等

💡开源代码:https://github.com/mxzhou666/HgtJIT

01

---

方法介绍

HgtJIT 的核心思想是利用异构图 Transformer(HGT)捕获代码中的多类型语义结构,以实现即时漏洞预测。整体流程分为三步:

① 异构图构建:

从源代码中提取 AST、CFG、DFG 多视图结构,将其融合为统一的异构图表示。

② 异构注意力编码:

利用 HGT 进行节点类型感知的注意力学习,建模跨类型依赖。

③ 漏洞预测:

对函数级特征进行融合,通过分类器实现即时漏洞检测。

图 1. HgtJIT框架

小结:HgtJIT 将多源程序结构融合于异构图中,并使用基于节点类型的 Transformer 注意力机制提取语义依赖,使模型兼具结构细粒度与语义表现力。

02

---

关键机制

  1. 多视图统一语义的异构图表示:

    同时保留语法树、控制流与数据流的结构差异。

  2. 节点类型感知的交互注意力:

    为不同语义实体(变量、常量、语句等)分配独立学习路径。

  3. 面向即时检测的轻量解码器:

    相比传统 GNN 模型推理速度提高显著。

模块 实现方式 主要作用
多视图异构图构建 融合 AST、CFG、DFG,构建节点类型与边类型可区分的异构图 完整表达代码的语法、控制与数据流信息
异构注意力机制 为不同节点类型分配独立注意力头,动态学习跨类型依赖 提升模型对关键语义节点的敏感度
语义级特征聚合 结合 Transformer 聚合策略构建函数级表示 获得更适合漏洞分类的高维结构语义嵌入
即时检测分类器 轻量级 MLP 分类层 加速预测过程,实现 near real-time 检测

小结: HGT 的引入解决了传统 GNN 在异构场景中的表达瓶颈,使模型更加契合真实代码结构的复杂性。

03

---

实验结果

研究团队在 CodeJIT(Code-centric learning-based just-in-time vulnerability detection)数据集上评估了 HgtJIT与 DeepJIT 、 CC2Vec、CCT5等模型,结果表明HgtJIT 在 F1 与 AUC 上均有显著提升。

  • 按时间戳升序对所有提交进行排序,随后将排名前80%的提交作为训练数据,其余20%的提交作为测试数据。

    表1 时间分割:与基线相比的性能评估结果

模型 P R F1 AUC
VCCFinder 0.34 0.58 0.43 0.54
DeepJIT 0.30 0.60 0.40 0.70
CC2Vec 0.30 0.62 0.41 0.71
CCT5 0.33 0.62 0.43 0.74
CodeJIT* 0.55 0.42 0.48 0.65
HgtJIT(本文) 0.61 0.51 0.55 0.83

在随机划分的项目中,80%的项目中的所有提交用于训练模型,其余20%项目中的提交用于测试。

表2 跨项目:性能评估结果与漏洞检测基准的对比

模型 P R F1 AUC
VCCFinder 0.32 0.67 0.43 0.49
DeepJIT 0.44 0.56 0.50 0.67
CC2Vec 0.47 0.56 0.51 0.70
CCT5 0.50 0.59 0.54 0.72
CodeJIT* 0.74 0.50 0.60 0.73
HgtJIT(本文) 0.62 0.64 0.63 0.80

小结**:与最先进的基线相比,HgtJIT在即时编译漏洞检测方面表现卓越,F1值和AUC值分别提升高达37.5%和53.7%。这表明利用代码变更图的异构信息学习漏洞特征具有显著效果。在跨项目场景中,HgtJIT仍保持整体最优性能,F1值与AUC值分别提升高达46.5%和93.3%,表明其具备更强的泛化能力。**

📌 总结

HgtJIT 通过异构图 Transformer 深度建模程序代码的多视图结构,在即时漏洞检测场景中展现出强大优势:更强的跨语义依赖建模能力、更高效的推理性能、更适配真实工程代码的复杂性。这一方向为未来的代码安全检测带来新的可能:模型能够在代码提交时即时识别潜在风险。

📣 欢迎留言讨论

  • 你认为异构图是否会成为下一代代码分析模型的主流结构?

  • 在企业 CI/CD 场景中,JIT 漏洞检测是否真正可落地?

📌 点赞 + 收藏 + 分享,你的支持,是我们持续解析高水平软件安全论文的最大动力!

相关推荐
IT研究所1 小时前
AI 时代下的知识管理:从 Claude 的“复盘”能力看生成式 AI价值
大数据·运维·数据库·人工智能·科技·低代码·自然语言处理
AI前沿资讯1 小时前
2026 AI 3D工具推荐:V2Fun如何重新定义“一站式角色创作”
人工智能·3d
水上冰石1 小时前
Vibe Coding即氛围编程,直觉编程概念介绍
人工智能
Xxtaoaooo1 小时前
用 JiuwenSwarm 搭建论文写作 Agent 团队:文献检索、大纲生成、语法润色与引用格式避坑
人工智能·论文写作·智能体·jiuwenswarm·agent 团队
云边云科技_云网融合2 小时前
企业出海的 “数字丝绸之路“:SD-WAN 如何重构全球网络竞争力
大数据·运维·网络·人工智能
超级架构师2 小时前
Huiwen Han — Preprints Public Inventory v10.15
人工智能
技术小黑2 小时前
CNN算法实战系列03 | DenseNet121算法实战与解析
pytorch·深度学习·算法·cnn
189228048613 小时前
NV243美光MT29F32T08GWLBHD6-24QJES:B
大数据·服务器·人工智能·科技·缓存
z小猫不吃鱼3 小时前
02 Transformer 基础:Self-Attention 原理详解
人工智能·深度学习·transformer