MDVul:用语义路径重塑漏洞检测的图模型能力

" 在大规模软件开发与开源复用背景下,代码漏洞已成为威胁软件安全的关键隐患。尽管深度学习推动了自动化漏洞检测的发展,但如何同时捕获代码的语义依赖与复杂结构关系,仍然是亟待突破的问题。传统序列模型关注局部上下文,而图模型虽可建模结构,却难以融合语义路径信息。本文提出的 MDVul ,便旨在解决这一痛点。"

论文标题: MDVul: A Semantic-Based Complex Dependency Code Vulnerability Detection Using Fusion Path
作者单位:东北大学、西电等
发表期刊: Information Fusion , 2026, Elsevier 出版

01

---

方法介绍

MDVul将漏洞检测建模为语义-结构融合问题,核心思想是构建多路径代码表示 :在传统AST与CFG的基础上,额外引入语义依赖路径(Semantic Fusion Path),以捕获变量、函数调用、数据流之间的显式与隐式关系。

随后,模型首先基于 UniXcoder 对代码片段进行语义编码,再将这些嵌入作为路径/节点输入,采用 Attention-BGRU 聚合多条融合路径,最终用 KAN 分类器进行判别,从而支持跨语句、跨函数的特征交互。

图 1:MDVul 模型架构示意

**小结:**MDVul 不再局限于语法结构,而是将代码理解提升到"跨路径语义关联"层面。

02

---

关键机制

机制 核心内容 作用
多路径图构建 AST / CFG + 语义路径 (fusion path) 建模复杂依赖与上下文关系
路径语义嵌入 UniXcoder / Code 表征 + Attention-BGRU 增强路径与节点的语义表示能力
多通道聚合与 KAN 判别 多条路径聚合 + KAN 分类器 区分高维语义差异,提升不平衡场景下的 F1

**小结:**关键机制实现了从"结构识别"到"语义理解"的跨越,是模型性能提升的根本原因。

03

---

实验结果

本文用到的数据集与规模:

数据集 非漏洞样本 漏洞样本 总样本数
Ffmpeg + Qemu(处理后 14117 11952 26069
TrVD 166641 98181 264822
Sub_DiverseVul (用于类型敏感性分析) 131439 8576 140015

小结:实验使用了两个主测试集(Ffmpeg+Qemu_p 与 TrVD)与一个用于漏洞类型敏感性分析的子集 Sub_DiverseVul,覆盖了真实项目与合成/参考集的混合场景。

下表为论文对比结果(Ffmpeg+Qemu_p):MDVul 在 F1 与 Recall 上有较明显提升,以下表为论文中的主要对比条目。

模型 Accuracy Precision Recall F1
MDVul (本文) 66.22 61.16 77.15 68.23
EPVD 61.52 55.79 72.88 63.20
UniXcoder 64.85 63.25 60.96 62.09
LineVul 62.46 60.15 60.71 60.43
DLAP 63.97 68.69 58.10 62.95
Devign 58.42 58.62 65.38 61.82
TrVD 59.58 56.67 69.34 62.37
VulDeePecker 40.12 37.45 28.74 32.52
SySeVR 46.46 42.57 50.36 46.14

小结:在 Ffmpeg+Qemu_p(真实项目数据)上,MDVul 在 F1/Recall 上优于多数基线,尤其对依赖复杂、需跨路径判断的漏洞类型更为敏感。

论文中还给出了 TrVD 数据集上的对比,结果如下(供跨数据集对比参考)。

模型 Accuracy Precision Recall F1
MDVul (本文) 87.64 91.83 86.73 89.21
TrVD 88.49 90.68 81.97 86.11
UniXcoder 88.26 85.01 82.88 83.93
LineVul 87.97 84.86 81.35 83.07
EPVD 87.34 84.51 85.69 85.10
DLAP 88.41 87.69 82.93 85.24
VulDeePecker 86.14 80.47 78.61 79.53
SySeVR 87.25 82.13 80.14 81.12

小结:MDVul在两类不同性质的数据集上均表现良好:在真实项目(Ffmpeg + Qemu_p)上对复杂依赖漏洞敏感度高,在合成/参考集(TrVD)上总体指标更高,表明方法既能处理现实复杂逻辑,也能在结构化测试集上获得强性能。

📌 总结

MDVul 通过语义路径建模与多通道图融合,为漏洞检测提供了一种超越传统结构分析的新范式。其核心贡献在于把隐式语义依赖显式化为融合路径,并利用预训练编码器 + Attention-BGRU 与 KAN 分类器提升对复杂依赖漏洞的识别能力。

📣 欢迎留言讨论

  • 你认为漏洞检测的突破方向在于更强的图建模,还是更大的预训练模型?
  • 语义路径是否会成为下一代代码理解模型的标配?

📌 点赞 · 收藏 · 分享 ------ 你的支持,是我们持续解析高水平代码安全论文的最大动力。

相关推荐
IT_陈寒29 分钟前
Vite的热更新突然不香了,排查三小时差点砸键盘
前端·人工智能·后端
阿里云大数据AI技术2 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu12273 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队3 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇3 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Token炼金师3 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc
这个DBA有点耶3 小时前
AI写的SQL跑崩了生产库,这锅谁背?
数据库·人工智能·程序员
阿里云大数据AI技术4 小时前
阿里云 EMR AI 助手正式发布:从问答工具到全栈智能运维助手
运维·人工智能
Larcher5 小时前
从零搭建 MCP 服务——让 AI 拥有无限扩展能力
人工智能·程序员
zzzzzz3105 小时前
你的 AI 写的 React 烂透了?这个 8000+ Star 的开源工具能揪出 90% 的「Agent 屎山」
人工智能