LLM-SECURITY-PROMPTS大模型提示词攻击测评基准

LLM-SECURITY-PROMPTS大模型提示词攻击测评基准

LLM-SECURITY-PROMPTS 是一个评估大模型安全围栏防护提示词攻击的基准,目的是用于评测和提升大模型的安全性,将模型的输出与人类的价值观对齐。

免责声明: 本代码库包含一些有害语言的示例,建议读者自行判断,本代码库仅供研究之用,严禁任何滥用行为。


数据概述

本项目数据来源于攻击算法生成以及网络收集,涵盖18种攻击类型,共计2000条攻击数据和1000条正常样本数据。

数据分布

类型 数量
ArtPrompt 100
ReNeLLM 100
JBC 100
GPTFuzz 100
Cipher 100
Autodan 100
Cold 100
TensePast 100
CodeChameleon 100
DrAttack 100
DSN 100
PAP 100
Deepinception 100
Adaptive 100
GCG 100
PAIR 100
ICA 100
Tap 100
Multilingual 50
DRA 50
Jailbroken 100
Normal 1000

更新

2025/07/14 LLM-SECURITY-PROMPTS(v0.1)上线了,将持续更新! 🎉🎉🎉

攻击类型

类型 注释 是否包含
Adaptive 采用自适应提示模板,针对模型特定漏洞进行攻击。
ArtPrompt 利用大语言模型解析ASCII艺术图的缺陷发起攻击。
AutoDAN 采用新型分层遗传算法,自动生成隐蔽越狱指令。
Cipher 通过角色扮演诱导模型释放潜在风险能力。
Deep Inception 通过拟真虚拟场景的轻量级权威诱导策略实施攻击。
DRA 通过隐蔽指令诱导模型重构恶意内容。
DrAttack 通过语义分解与上下文学习重构攻击指令。
GCG 基于模型梯度自动生成对抗性后缀攻击。
GPTFuzzer 通过模糊测试框架自动生成越狱模板。
Multilingual 通过多语言构造对抗性提示实施攻击。
PAIR 通过黑盒攻击模式,利用攻击者大语言模型迭代生成并优化目标模型的越狱指令。
Past Tense 通过过去时态重构恶意请求实施攻击。
ReNeLLM 通过指令重写与场景嵌套,利用大语言模型自动生成越狱提示。
TAP 采用思维树推理剪枝策略自动生成越狱指令。
PAP 这种攻击通过基于社会科学研究的说服技巧分类体系,将普通的有害查询转换为说服性对抗性提示,诱导 LLM 违反既定的安全策略或指令,生成本不应产生的有害内容。
Cold LLM 攻击中的 COLD 是指基于能量的约束解码攻击(Energy - based Constrained Decoding with Langevin Dynamics)。这是一种高效的可控文本生成算法,可用于统一和自动化越狱提示生成,能绕过模型的安全机制,使 LLM 输出攻击者想要的内容。
DSN (Don't Say No)是一种针对大型语言模型(LLM)的 "越狱" 攻击手法。它通过精心设计提示,促使 LLM 不仅生成肯定响应,还抑制其拒绝回答的可能性,从而引导模型生成有害或违反规则的内容。

数据集链接

相关推荐
qq_4162764214 小时前
LOFAR物理频谱特征提取及实现
人工智能
Python图像识别14 小时前
71_基于深度学习的布料瑕疵检测识别系统(yolo11、yolov8、yolov5+UI界面+Python项目源码+模型+标注好的数据集)
python·深度学习·yolo
余俊晖14 小时前
如何构造一个文档解析的多模态大模型?MinerU2.5架构、数据、训练方法
人工智能·文档解析
千码君201615 小时前
React Native:从react的解构看编程众多语言中的解构
java·javascript·python·react native·react.js·解包·解构
淮北49416 小时前
windows安装minicoda
windows·python·conda
Akamai中国16 小时前
Linebreak赋能实时化企业转型:专业系统集成商携手Akamai以实时智能革新企业运营
人工智能·云计算·云服务
LiJieNiub17 小时前
读懂目标检测:从基础概念到主流算法
人工智能·计算机视觉·目标跟踪
weixin_5195357717 小时前
从ChatGPT到新质生产力:一份数据驱动的AI研究方向指南
人工智能·深度学习·机器学习·ai·chatgpt·数据分析·aigc
爱喝白开水a17 小时前
LangChain 基础系列之 Prompt 工程详解:从设计原理到实战模板_langchain prompt
开发语言·数据库·人工智能·python·langchain·prompt·知识图谱
takashi_void18 小时前
如何在本地部署大语言模型(Windows,Mac,Linux)三系统教程
linux·人工智能·windows·macos·语言模型·nlp