随着人工智能技术的迅速发展,大模型在处理各种复杂任务中展示出了卓越的能力。特别是在网络安全领域,大模型的应用潜力巨大,它们可以帮助自动化处理大量数据、识别潜在威胁和提供安全建议。然而,新型大模型层出不穷,要有效利用这些模型,首先必须验证它们在理解和处理网络安全相关问题上的能力。
4月19日凌晨,Meta开源了新一代 LLaMa-3模型。作为当前最受瞩目的大语言模型之一, LLaMa-3在网络安全领域的表现到底怎样?如何将 LLaMa-3这样的新型大模型快速应用到网络安全问题解决中?腾讯朱雀实验室和腾讯安全科恩实验室基于自研的网络安全大模型评测平台SecBench,对 LLaMa-3在网络安全领域的能力表现进行了全面评测。
SecBench------评测网络安全大模型的新基准
SecBench积累了行业独有的安全评测数据集,覆盖多题型、多任务,支持从能力、语言、领域、安全证书模拟考试等多个维度对大模型的网络安全能力进行评估。同时,SecBench构建了方便快捷的评测框架,支持不同数据、不同模型快速接入评测,输出评测结果。
LLaMa- 3 网络安全能力 评测结果 分析
SecBench对LLaMa-3小参数量模型进行了全面评测,同时与上一代LLaMa-2进行了对比。综合来看, LLaMa-3的网络安全能力相较于上一版本有显著提升。
1. 能力维度
能力维度主要从大模型通用能力的视角,评估大模型对网络安全知识的记忆能力、逻辑推理能力和理解表达能力。在网络安全综合能力上, LLaMa-3相较于LLaMa-2有较大提升(相对提升>44%);从各个细分能力维度上看,如对网络安全知识的记忆能力、逻辑推理能力、理解表达能力等,LLaMa-3也有较明显的提升。特别是在对网络安全知识的理解表达能力上,Llama-3-8B-Instruct模型提升最为明显。
2. 语言维度
语言维度主要评估大模型对不同语言的网络安全知识的学习理解能力,目前覆盖中文和英文两种主流语言。在语言维度的测试中,LLaMa-3相较于LLaMa-2同样有较大提升。同时,可以看出,前后两个版本的模型在英文上的能力表现都优于中文。
3. 领域维度
领域维度从垂类安全视角,评估大模型对网络安全九个子领域问题的解决能力。细分到网络安全各个领域,Llama-3-8B和Llama-3-8B-Instruct综合能力表现相当,在"云安全 "和"应用安全"两个子领域表现最佳。
4. 安全证书考试模拟评估
安全证书考试模拟评估是SecBench的特色能力,支持使用信息系统审计、云安全认证、云计算安全管理等经典证书考试模拟试题,评测大模型通过安全证书考试的能力。从安全证书模拟评估上来看,LLaMa-3已经可以通过渗透测试 和信息系统审计两类模拟评估测试,相对于LLaMa-2的全部不及格也有明显改善。虽然LLaMa-3仍然有部分安全证书模拟考试不及格,但从分数上看,LLaMa-3相较于LLaMa-2还是有很大程度上的提升。
Llama-3-8B-Instruct安全证书模拟评估结果:
Llama-3-8B安全证书模拟评估结果:
Llama-2-7B-Chat安全证书模拟评估结果:
Llama-2-7B安全证书模拟评估结果:
问题示例:
综合来看,LLaMa-3 小参数量模型的网络安全能力相较于上一版本有明显提升,但对比Claude-3-Opus、GPT-4等行业头部大模型还有较大差距。Claude-3-Opus与GPT-4在网络安全上的综合得分分别高达0.816和0.7984(更多排名请参考:secbench.org),对于几类安全证书模拟评估也可以高分通过,LLaMa-3的网络安全能力还有较大提升空间。
结束语
SecBench是腾讯朱雀实验室和腾讯安全科恩实验室联合腾讯混元大模型团队、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队以及上海人工智能实验室OpenCompass团队,共同建设的业界首个网络安全大模型评测平台,致力于为大模型在安全领域的应用提供坚实的基座,加速技术落地。未来SecBench将持续构建高质量的网络安全评测数据,紧跟最新大模型的步伐,推动相应的网络安全能力评测。期待能够与学术界、工业界相关从业者携手共创,共同推动网络安全大模型的发展。