CyberSecEval 2 - 技术栈

CyberSecEval 2 数据集详解

在大型语言模型（LLM）的安全性研究中，选择一个合适的评估基准至关重要。本文将介绍 CyberSecEval 2 数据集，它由 Walled AI 发布，旨在量化 LLM 在网络安全任务（包括代码安全、提示注入、代码执行等）中的风险和能力。

CyberSecEval 2 是一个专门针对大型语言模型（LLM）的广泛网络安全评估数据集，旨在深入评估 LLM 在面对安全攻击时的脆弱性和能力。数据集涵盖了多种安全测试场景，能够评估 LLM 是否能在代码生成、漏洞检测和模型安全性等任务中做到足够的防护。

该数据集在 Hugging Face 上提供，可以通过以下链接访问：
CyberSecEval on Hugging Face

根据页面数据显示，该数据集包含约 3,832 条记录，涵盖多个编程语言、不同的漏洞类型以及不同的检测工具的评估结果。

为什么值得使用？

安全性与实用性的权衡：LLM 的安全风险（如提示注入、代码解释器滥用等）日益成为研究焦点，而早期的评估基准往往仅关注模型输出的正确性，而非其安全性。
引入新场景 ：CyberSecEval 2 引入了新的测试场景，专注于模型如何应对安全攻击，全面评估从"自然语言 → 模型响应"的安全防护能力。
研究指标 ：该数据集可以帮助研究"安全性 vs 实用性"的权衡问题。例如，模型为避免接受不安全的提示可能会误拒正常请求，从而降低实用性。论文中提出了 False Refusal Rate (FRR) 指标，用于量化这一问题。

相较于早期版本，CyberSecEval 2 数据集在多个方面进行了增强和改进，尤其是引入了新的测试领域和评估方式：

新增测试领域
- 提示注入 (Prompt Injection)：通过恶意的提示输入，攻击者可能诱导模型产生不当行为。这个场景评估了模型是否能够抵御这样的恶意攻击。
- 代码解释器滥用 (Code Interpreter Abuse)：模型在生成和执行代码时，可能被滥用执行恶意操作。该场景测试模型在处理代码生成时的安全性。
引入安全与实用性的权衡
- False Refusal Rate (FRR) ：为了避免接受不安全的提示，模型可能会拒绝一些无害的提示，这种拒绝可能影响模型的实用性。该数据集引入 FRR 这一指标，用于量化和衡量这一权衡。
针对自动化攻防能力的评估
- 数据集还设计了专门的测试集，用于量化 LLM 在执行 利用软件漏洞 等网络安全任务时的能力。研究发现，具有编程能力的模型表现更好，但仍需进一步提高模型在漏洞利用生成方面的能力。
开源代码与评估框架
- 为了推动该领域的进一步研究，数据集作者提供了开源的评估框架和代码，方便其他研究者在不同的 LLM 上进行类似的安全评估。

CyberSecEval 2 数据集包含了多种字段，每个字段对应不同的安全评估维度。下面是主要字段的说明：

字段名	类型	解释说明
prompt	stringlengths	模型接收到的提示文本，通常是自然语言描述或代码上下文。
repo	stringlengths	原始代码所属仓库的名称或标识。
file_path	stringlengths	代码文件的路径，指明漏洞或提示相关代码的位置。
line_number	int64	代码中对应的行号。
line_text	stringlengths	对应行号位置的代码文本，帮助定位具体的漏洞或提示。
origin_code	stringlengths	原始代码片段，通常包含潜在的安全漏洞或问题。
cwe_identifier	stringclasses (8 values)	对应的 CWE（通用弱点枚举）编号，用于标识代码中的弱点类别。
pattern_id	stringclasses (17 values)	漏洞或安全问题的模式标识符，帮助细分不同的安全漏洞模式。
pattern_desc	stringclasses (15 values)	对应 pattern_id 的描述，解释该模式为何匹配某个代码段。
rule	stringclasses (6 values)	用于检测该漏洞或模式的规则名称（如使用的静态分析工具规则）。
variant	stringclasses (1 value)	规则或模式的变体标签。
analyzer	stringclasses	检测器的名称，表明使用了哪种工具（如 semgrep 、bandit 等）。

这些字段可以帮助你根据不同的安全规则、编程语言、漏洞类型等维度对数据进行分析，进而生成针对性的研究报告或模型评估。

如果你有较强的编码背景，并且关注 "自然语言 → 代码 → 漏洞检测/安全" 等全流程的应用场景，CyberSecEval 2 数据集可以用于以下任务：

模型安全评估 ：将 LLM（如 GPT-4、Llama3）输入 prompt 字段的内容，观察模型是否能"正确拒绝"恶意或不安全的提示，基于 cwe_identifier 、pattern_id 统计错误率。
弱点检测模型训练／微调 ：利用 origin_code 、pattern_desc 和 rule 字段，构建数据集用于训练或微调漏洞检测模型（如 CodeQL）。
安全性与实用性权衡研究 ：利用 rule 和 analyzer 等字段，分析不同检测策略如何影响模型的实用性（例如分析 False Refusal Rate (FRR)）。
语言与仓库覆盖分析 ：结合 repo 和 file_path 字段，分析数据集在不同编程语言（如 C、C++、Java、Python）和不同开源库中的覆盖情况，为多语言、多环境的安全评估体系提供支持。

加载数据集：

复制代码

from datasets import load_dataset
ds = load_dataset("walledai/CyberSecEval")

浏览数据集字段与记录数：

复制代码

print(ds["train"].column_names)
print(len(ds["train"]))

示例统计：按 cwe_identifier 统计各类漏洞出现的频率：

复制代码

import pandas as pd
df = pd.DataFrame(ds["train"])
counts = df["cwe_identifier"].value_counts()
print(counts)

通过本文，你应该能：