MDVul:用语义路径重塑漏洞检测的图模型能力

" 在大规模软件开发与开源复用背景下,代码漏洞已成为威胁软件安全的关键隐患。尽管深度学习推动了自动化漏洞检测的发展,但如何同时捕获代码的语义依赖与复杂结构关系,仍然是亟待突破的问题。传统序列模型关注局部上下文,而图模型虽可建模结构,却难以融合语义路径信息。本文提出的 MDVul ,便旨在解决这一痛点。"

论文标题: MDVul: A Semantic-Based Complex Dependency Code Vulnerability Detection Using Fusion Path
作者单位:东北大学、西电等
发表期刊: Information Fusion , 2026, Elsevier 出版

01

---

方法介绍

MDVul将漏洞检测建模为语义-结构融合问题,核心思想是构建多路径代码表示 :在传统AST与CFG的基础上,额外引入语义依赖路径(Semantic Fusion Path),以捕获变量、函数调用、数据流之间的显式与隐式关系。

随后,模型首先基于 UniXcoder 对代码片段进行语义编码,再将这些嵌入作为路径/节点输入,采用 Attention-BGRU 聚合多条融合路径,最终用 KAN 分类器进行判别,从而支持跨语句、跨函数的特征交互。

图 1:MDVul 模型架构示意

**小结:**MDVul 不再局限于语法结构,而是将代码理解提升到"跨路径语义关联"层面。

02

---

关键机制

机制 核心内容 作用
多路径图构建 AST / CFG + 语义路径 (fusion path) 建模复杂依赖与上下文关系
路径语义嵌入 UniXcoder / Code 表征 + Attention-BGRU 增强路径与节点的语义表示能力
多通道聚合与 KAN 判别 多条路径聚合 + KAN 分类器 区分高维语义差异,提升不平衡场景下的 F1

**小结:**关键机制实现了从"结构识别"到"语义理解"的跨越,是模型性能提升的根本原因。

03

---

实验结果

本文用到的数据集与规模:

数据集 非漏洞样本 漏洞样本 总样本数
Ffmpeg + Qemu(处理后 14117 11952 26069
TrVD 166641 98181 264822
Sub_DiverseVul (用于类型敏感性分析) 131439 8576 140015

小结:实验使用了两个主测试集(Ffmpeg+Qemu_p 与 TrVD)与一个用于漏洞类型敏感性分析的子集 Sub_DiverseVul,覆盖了真实项目与合成/参考集的混合场景。

下表为论文对比结果(Ffmpeg+Qemu_p):MDVul 在 F1 与 Recall 上有较明显提升,以下表为论文中的主要对比条目。

模型 Accuracy Precision Recall F1
MDVul (本文) 66.22 61.16 77.15 68.23
EPVD 61.52 55.79 72.88 63.20
UniXcoder 64.85 63.25 60.96 62.09
LineVul 62.46 60.15 60.71 60.43
DLAP 63.97 68.69 58.10 62.95
Devign 58.42 58.62 65.38 61.82
TrVD 59.58 56.67 69.34 62.37
VulDeePecker 40.12 37.45 28.74 32.52
SySeVR 46.46 42.57 50.36 46.14

小结:在 Ffmpeg+Qemu_p(真实项目数据)上,MDVul 在 F1/Recall 上优于多数基线,尤其对依赖复杂、需跨路径判断的漏洞类型更为敏感。

论文中还给出了 TrVD 数据集上的对比,结果如下(供跨数据集对比参考)。

模型 Accuracy Precision Recall F1
MDVul (本文) 87.64 91.83 86.73 89.21
TrVD 88.49 90.68 81.97 86.11
UniXcoder 88.26 85.01 82.88 83.93
LineVul 87.97 84.86 81.35 83.07
EPVD 87.34 84.51 85.69 85.10
DLAP 88.41 87.69 82.93 85.24
VulDeePecker 86.14 80.47 78.61 79.53
SySeVR 87.25 82.13 80.14 81.12

小结:MDVul在两类不同性质的数据集上均表现良好:在真实项目(Ffmpeg + Qemu_p)上对复杂依赖漏洞敏感度高,在合成/参考集(TrVD)上总体指标更高,表明方法既能处理现实复杂逻辑,也能在结构化测试集上获得强性能。

📌 总结

MDVul 通过语义路径建模与多通道图融合,为漏洞检测提供了一种超越传统结构分析的新范式。其核心贡献在于把隐式语义依赖显式化为融合路径,并利用预训练编码器 + Attention-BGRU 与 KAN 分类器提升对复杂依赖漏洞的识别能力。

📣 欢迎留言讨论

  • 你认为漏洞检测的突破方向在于更强的图建模,还是更大的预训练模型?
  • 语义路径是否会成为下一代代码理解模型的标配?

📌 点赞 · 收藏 · 分享 ------ 你的支持,是我们持续解析高水平代码安全论文的最大动力。

相关推荐
情绪总是阴雨天~6 分钟前
OpenClaw 核心机制深度讲解:开源个人 AI 智能体全解析
人工智能·开源
星越华夏6 小时前
计算机视觉:YOLOv12安装环境
人工智能·yolo·计算机视觉
Yolanda947 小时前
【人工智能】《从零搭建AI问答助手项目(九):Prompt优化》
人工智能·prompt
wj3055853788 小时前
课程 9:模型测试记录与 Prompt 策略
linux·人工智能·python·comfyui
小和尚同志8 小时前
深入使用 skill-creator:结合真实生产级实践
人工智能·aigc
DevSecOps选型指南8 小时前
安全419专访悬镜安全 | 穿越周期在 AI 浪潮中定义数字供应链安全新范式
人工智能
沪漂阿龙8 小时前
面试题详解:GraphRAG 全面解析——知识图谱增强 RAG、Local Search、Global Search、社区摘要、工程落地与评估指标一次讲透
人工智能·知识图谱
WangN28 小时前
Unitree RL Lab 学习笔记【通识】
人工智能·机器学习
haina20198 小时前
海纳AI亮相《科创中国》,解码招聘“智”变之路
人工智能·ai面试·ai招聘
阿星AI工作室8 小时前
刘润年中大课笔记:一句话说清AI落地之战的本质
大数据·人工智能·创业创新·商业