与人工智能安全相关的优质资源

一份精选的优秀人工智能安全相关框架、标准、学习资源和工具列表。

如果你想做出贡献，请创建 PR 或联系我@ottosulin / @ottosulin。

学习资源

一般阅读材料

技术资料及实验室

该死的漏洞百出的 MCP 服务器-一个故意存在漏洞的模型上下文协议 (MCP) 实现，用于教育目的。
OWASP WrongSecrets LLM 练习
易受攻击的 MCP 服务器实验室-一组故意存在漏洞的服务器，用于学习 MCP 服务器渗透测试。
FinBot 智能体 AI 夺旗 (CTF) 应用程序- FinBot 是一个智能体安全夺旗 (CTF) 交互式平台，它使用模拟的以金融服务为中心的应用程序来模拟智能体 AI 系统中的真实世界漏洞。

播客

治理

框架和标准

标准

分类、术语和风险

其他材料

进攻性工具和框架

指南和框架

OWASP GenAI 红队指南

机器学习

OpenAI Gym 的恶意软件环境 (Malware Env) 功能，使编写智能体成为可能。这些智能体可以学习如何操纵 PE 文件（例如恶意软件），以根据执行特定操纵操作所获得的奖励来实现某些目标（例如绕过杀毒软件）。
Deep-pwning------一个轻量级的框架，用于试验机器学习模型，旨在评估其对抗恶意攻击者的鲁棒性。
Counterfit------用于评估机器学习系统安全性的通用自动化层
DeepFool------一种简单而准确的欺骗深度神经网络的方法
Snaike-MLFlow - MLflow 红队工具套件
HackingBuddyGPT - 一款自动渗透测试工具（+ 相应的*[基准数据集]( https://github.com/ipa-lab/hacking-benchmark )*）
Charcuterie -机器学习或机器学习相关库的代码执行技术
OffsecML 战术手册-一系列进攻性和对抗性战术、技术和程序 (TTP) 及概念验证
BadDiffusion -用于复现发表于 CVPR 2023 的论文"如何为扩散模型引入后门？"的官方代码库。
探索对抗图像的空间
对抗性机器学习库 (Ad-lib) ( https://github.com/vu-aml/adlib ) -一个基于博弈论的对抗性机器学习库，提供了一系列学习器和对抗者模块。
对抗鲁棒性工具包( ART) 主要针对规避（通过修改输入改变模型行为）、投毒（通过修改训练数据控制模型）、提取（通过查询窃取模型）和推理（攻击训练数据的隐私）等威胁。
cleverhans------一个对抗性示例库，用于构建攻击、构建防御以及对攻击和防御进行基准测试。
foolbox -一个用于创建对抗样本的 Python 工具箱，这些对抗样本可以欺骗 PyTorch、TensorFlow 和 JAX 中的神经网络。
TextAttack - TextAttack 🐙 是一个用于对抗攻击、数据增强和自然语言处理模型训练的 Python 框架。https ://textattack.readthedocs.io/en/master/

法学硕士

Garak - LLM 的安全探测工具
agentic_security - Agentic LLM 漏洞扫描器/AI 红队演练工具包
Agentic Radar -用于代理工作流的开源 CLI 安全扫描器。
llamator -用于测试大型语言模型 (LLM) 漏洞的框架。
Whistleblower ------ Whistleblower 是一款攻击性安全工具，用于测试系统提示泄露和通过 API 暴露的 AI 应用程序的功能发现。
LLMFuzzer - 🧠 LLMFuzzer - 大型语言模型模糊测试框架 🧠 LLMFuzzer 是首个专为大型语言模型 (LLM) 设计的开源模糊测试框架，尤其适用于通过 LLM API 将其集成到应用程序中。🚀💥
vigil-llm - ⚡ Vigil ⚡ 检测提示注入、越狱和其他潜在风险的大型语言模型 (LLM) 输入
FuzzyAI是一款功能强大的自动化 LLM 模糊测试工具。它旨在帮助开发人员和安全研究人员识别并缓解 LLM API 中潜在的越狱漏洞。
EasyJailbreak -一个易于使用的 Python 框架，用于生成对抗性越狱提示。
promptmap------一款用于自定义LLM应用程序的提示注入扫描器
PyRIT - Python 生成式人工智能风险识别工具 (PyRIT) 是一个开源框架，旨在帮助安全专业人员和工程师主动识别生成式人工智能系统中的风险。
PurpleLlama -用于评估和改进 LLM 安全性的工具集。
Giskard-AI - 🐢 开源人工智能和LLM系统评估与测试平台
promptfoo -测试您的提示符、代理和红/ ...
HouYi------面向LLM集成应用程序的自动提示注入框架。
llm-attacks -对对齐语言模型的通用和可转移攻击
Dropbox LLM 安全- Dropbox LLM 安全研究代码和结果
llm-security -破解应用集成式 LLM 的新方法
OpenPromptInjection -该仓库提供了一个用于测试提示符注入攻击和防御的基准测试。
Plexiglass -用于检测和保护大型语言模型 (LLM) 中漏洞的工具包。
ps-fuzz -让您的 GenAI 应用安全可靠🚀 测试并加固您的系统提示
EasyEdit -修改LLM的真实数据
spikee）-用于评估和利用的简单提示注入工具包
Prompt Hacking Resources -为对人工智能红队演练、越狱和 Prompt Injection 感兴趣的人士精心整理的资源列表
mcp-injection-experiments -用于重现 MCP 工具投毒攻击的代码片段。
gptfuzz - GPTFUZZER 的官方仓库：使用自动生成的越狱提示对大型语言模型进行红队演练
AgentDojo -一个用于评估 LLM 代理的攻击和防御的动态环境。
jailbreakbench - JailbreakBench：用于越狱语言模型的开放鲁棒性基准测试 [NeurIPS 2024 数据集和基准测试赛道]
giskard - 🐢 面向LLM代理的开源评估与测试库
TrustGate - 生成式应用防火墙 (GAF)，用于检测、预防和阻止针对 GenAI 应用的攻击

用于进攻性网络攻击的人工智能

AI-Red-Teaming-Playground-Labs - AI 红队演练实验室，用于运行 AI 红队训练，包括基础设施。
HackGPT------一款利用 ChatGPT 进行黑客攻击的工具。
mcp-for-security -一套适用于 SQLMap、FFUF、NMAP、Masscan 等常用安全工具的模型上下文协议 (MCP) 服务器集合。将安全测试和渗透测试集成到 AI 工作流程中。
cai -网络安全人工智能 (CAI)，一个开放的、可用于漏洞赏金的人工智能（论文）
AIRTBench -代码库，用于：AIRTBench：衡量语言模型中自主人工智能红队演练能力
PentestGPT------一款基于 GPT 的渗透测试工具
HackingBuddyGPT -帮助道德黑客用 50 行或更少的代码使用 LLM。
HexStrikeAI ------ HexStrike AI MCP Agents 是一款先进的 MCP 服务器，它允许 AI 代理（例如 Claude、GPT、Copilot 等）自主运行 150 多种网络安全工具，用于自动化渗透测试、漏洞发现、漏洞赏金自动化和安全研究。它能够无缝地将 LLM 与现实世界的攻击性安全能力连接起来。
Burp MCP 服务器- Burp 的 MCP 服务器
burpgpt - Burp Suite 的一个扩展，它集成了 OpenAI 的 GPT，可以执行额外的被动扫描来发现高度定制的漏洞，并支持运行任何类型的基于流量的分析。
AI-Infra-Guard是由腾讯朱雀实验室开发的一款全面、智能、易用的 AI 红队演练平台。它集成了基础设施扫描、MCP 扫描和越狱评估模块，提供一键式 Web UI、REST API 和基于 Docker 的部署，用于全面的 AI 安全评估。

防御工具和框架

指南和框架

用于防御网络的AI

Claude 代码安全审查-一个使用 Claude 分析代码变更安全漏洞的 AI 驱动型安全审查 GitHub Action。
GhidraGPT -将 GPT 模型集成到 Ghidra 中，以实现自动化代码分析、变量重命名、漏洞检测和解释生成。

数据安全与治理

datasig - AIBOM 的数据集指纹识别
OWASP AIBOM -人工智能物料清单

安全与预防

Guardrail.ai - Guardrails 是一个 Python 包，允许用户为大型语言模型 (LLM) 的输出添加结构、类型和质量保证。
CodeGate是一个开源的、注重隐私的项目，它在开发者的代码生成 AI 工作流程中充当安全层。
MCP 安全检查清单-一份针对基于 MCP 的 AI 工具的全面安全检查清单。由 SlowMist 开发，旨在保护 LLM 插件生态系统。
Awesome-MCP-Security -您需要了解的有关模型上下文协议 (MCP) 安全性的所有信息。
LlamaFirewall - LlamaFirewall 是一个旨在检测和缓解以 AI 为中心的安全风险的框架，支持多层输入和输出，例如典型的 LLM 聊天和更高级的多步骤代理操作。
超棒的人工智能安全
ZenGuard AI------面向人工智能代理的最快信任层
llm-guard - Protect AI 的 LLM Guard 是一款旨在加强大型语言模型 (LLM) 安全性的综合工具。
vibraniumdome -功能齐全的端到端 LLM WAF，适用于代理，允许安全团队对代理使用语言模型进行治理、审计和策略驱动的控制。
LocalMod------一款可自行托管的内容审核API ，具备提示注入检测、毒性过滤、个人身份信息检测和NSFW分类功能。完全离线运行。
mcp-guardian - MCP Guardian 管理您的 LLM 助手对 MCP 服务器的访问，让您实时控制 LLM 的活动。
secure-mcp-gateway -此安全 MCP 网关内置身份验证、自动工具发现、缓存和防护措施。
mcp-context-protector - context-protector 是一个针对 MCP 服务器的安全封装器，用于解决运行不受信任的 MCP 服务器所带来的风险，包括行跳转、意外的服务器配置更改以及其他提示注入攻击。
NeMo-GuardRails - NeMo Guardrails 是一个开源工具包，用于轻松地向基于 LLM 的对话系统添加可编程护栏。
MCP Audit VSCode Extension -轻松集中审核和记录 VSCode 中所有 GitHub Copilot MCP 工具调用。
DynaGuard------一种具有用户自定义策略的动态防护模型
AprielGuard - 8B 参数安全保障模型
Safe Zone - Safe Zone 是一个开源的 PII 检测和防护引擎，可防止敏感数据泄露给 LLM 和第三方 API。
超级代理-超级代理提供专门训练的防护措施，使 AI 代理安全合规。

人工智能工具的安全性和沙箱机制

mcp-context-protector - mcp-context-protector 是一个针对 MCP 服务器的安全封装器，用于解决运行不受信任的 MCP 服务器所带来的风险。
vibekit -在干净、隔离的沙箱中运行 Claude Code、Gemini、Codex 或任何编码代理，并内置敏感数据编辑和可观察性。
claude-code-safety-net -一个 Claude Code 插件，它充当安全网，在破坏性 git 和文件系统命令执行之前将其捕获。
Leash - Leash 将 AI 编码代理封装在容器中并监控其活动。

检测与扫描

modelscan - ModelScan 是 Protect AI 的一个开源项目，用于扫描模型以确定它们是否包含不安全的代码。
反驳-即时注入检测器
LangKit ------ LangKit 是一个开源的文本指标工具包，用于监控语言模型。该工具包提供各种与安全相关的指标，可用于检测攻击。
MCP-Scan -一款用于 MCP 服务器的安全扫描工具
picklescan -安全扫描器，用于检测执行可疑操作的 Python Pickle 文件
fickling -一个 Python pickle 反编译器和静态分析器
a2a扫描器-扫描A2A代理是否存在潜在威胁和安全问题

隐私和保密

Python 差分隐私库
Diffprivlib - IBM 差分隐私库
PLOT4ai -人工智能隐私威胁库，一个帮助您构建负责任人工智能的威胁建模库。
TenSEAL------一个用于对张量进行同态加密操作的库
SyMPC ------ Syft 的安全多方计算配套库
PyVertical -隐私保护型垂直联邦学习
Cloaked AI -用于向量嵌入的开源属性保持加密
dstack------开源的保密人工智能框架，用于安全部署机器学习/机器学习，提供硬件强制隔离和数据隐私保护。
PrivacyRaven -深度学习系统的隐私测试库