DiverseVul

DiverseVul 数据集 2023.10

DiverseVul 是一个用于深度学习漏洞检测的 C/C++ 源代码数据集,专门为研究人员和开发者提供了大量的漏洞样本,用于训练和评估漏洞检测模型。该数据集包含了超过 7,500 次提交,涵盖 150 种常见弱点枚举(CWE)类型,涉及到的项目从开源软件到工业项目都有所覆盖。通过该数据集,研究人员能够深入分析漏洞类型,并基于此开发更智能的自动化漏洞检测工具。

数据集字段介绍

DiverseVul 数据集的核心字段如下,分为 数据集字段元数据字段

数据集字段:
字段名 描述
project 相关的项目名称,例如 libass, gnutls
commit_id Git 提交的唯一标识符,便于追踪特定的代码变更
bug_info 描述该提交修复的漏洞类型,例如 Out-of-bounds Read(越界读取)
func 修复的函数代码,包含详细的代码实现(如加密、解密、填充验证等)
size 函数代码的大小(字节数)
hash 该函数代码的哈希值,用于唯一标识该代码片段
message 提交信息,描述该提交修复或涉及的漏洞类型
元数据字段:
字段名 描述
commit_url 指向具体 Git 提交的 URL
repo_url 项目的 Git 仓库 URL
CWE 漏洞类型的 CWE 编号,如 CWE-476(空指针解引用)
CVE 相关的 CVE 编号(如果有)

数据和元数据的关联

DiverseVul 数据集中,数据(源代码)元数据 是通过 提交 IDcommit_id)和 项目 URLrepo_url)连接的。

  1. 提交 ID (commit_id):唯一标识每次 Git 提交,指向包含漏洞修复的具体代码。通过提交 ID,您可以访问修复前后的代码差异。

  2. 项目 URL (repo_url):提供了项目的完整 Git 仓库地址,便于深入了解项目的背景和其他提交历史。

例如,您可以通过提交 ID 和项目 URL,直接访问修复漏洞的代码及其上下文,从而有效地分析漏洞修复过程。

论文和仓库链接

如何使用 DiverseVul 数据集

  1. 下载数据集

  2. 数据集结构

    • 数据集的主要文件包括漏洞函数和非漏洞函数的代码,适用于训练和测试漏洞检测模型。

    • 元数据提供了关于每个函数的详细信息,如提交 ID、项目 URL、CWE 编号、漏洞描述等。

  3. 文件用途

    • 下载后的数据集可以用于训练深度学习模型,如漏洞检测模型(基于图像识别、自然语言处理等技术)。

    • 元数据文件为研究人员提供了丰富的标签信息,帮助进行更精确的漏洞分析和模型评估。

核心数据存储方法

DiverseVul 数据集的核心数据存储方法是通过记录每个漏洞修复的提交及其相关元数据来构建数据集。具体来说:

  1. 项目收集:首先,从多个开源项目中收集包含漏洞的代码片段。这些项目涵盖了广泛的漏洞类型,从基础库到复杂应用程序均有涉及。

  2. 提交记录:每个漏洞的修复通过 Git 提交记录来表示,便于追溯漏洞的修复历史。每个提交包含了修复该漏洞的代码变更。

  3. 函数级存储:数据集按函数级别进行存储,每个函数都包含了修复前后的代码差异,帮助研究人员分析漏洞修复过程。

  4. 元数据支持:元数据文件提供了提交的详细信息,如提交 URL、CWE 编号、CVE 编号(如有)等,帮助研究人员理解每个漏洞的背景和修复方式。

数据集形式:

元数据形式:

相关推荐
超级大只老咪18 小时前
快速进制转换
笔记·算法
Fᴏʀ ʏ꯭ᴏ꯭ᴜ꯭.20 小时前
Keepalived VIP迁移邮件告警配置指南
运维·服务器·笔记
ling___xi21 小时前
《计算机网络》计网3小时期末速成课各版本教程都可用谢稀仁湖科大版都可用_哔哩哔哩_bilibili(笔记)
网络·笔记·计算机网络
星火开发设计21 小时前
类型别名 typedef:让复杂类型更简洁
开发语言·c++·学习·算法·函数·知识
Gorgous—l1 天前
数据结构算法学习:LeetCode热题100-多维动态规划篇(不同路径、最小路径和、最长回文子串、最长公共子序列、编辑距离)
数据结构·学习·算法
中屹指纹浏览器1 天前
中屹指纹浏览器底层架构深度解析——基于虚拟化的全维度指纹仿真与环境隔离实现
经验分享·笔记
Hello_Embed1 天前
libmodbus 移植 STM32(基础篇)
笔记·stm32·单片机·学习·modbus
无聊的小坏坏1 天前
实习笔记:用 /etc/crontab 实现定期数据/日志清理
笔记·实习日记
香芋Yu1 天前
【机器学习教程】第04章 指数族分布
人工智能·笔记·机器学习