大模型安全

键盘侠伍十七

garak 如何探测 LLM 的越狱漏洞2023 年 2 月。Reddit 用户 walkerspider 贴出一条 prompt，能让 ChatGPT 写出凝固汽油弹配方。Prompt 以 “Ignore all the instructions you got before” 开头，诱骗模型相信自己是一个叫 DAN（Do Anything Now）的测试 AI，不受任何内容策略约束。这个版本——DAN 11.0——几乎百发百中。

提示词注入- 大语言模型 OWASP TOP 10系列提示词注入，简单说就是攻击者通过精心设计的文字输入，让 AI 大模型做出它"不应该做"的事。AI 大模型会把用户发来的内容当作指令来执行。攻击者利用这一点，把恶意指令伪装成普通输入，从而让模型绕过限制、泄露机密或执行危险操作。这些恶意内容甚至不需要肉眼可见——只要 AI 能"读懂"，就能触发攻击。就像你和一个非常听话但缺乏判断力的员工说话，换个措辞，他可能就会帮你做一些本来被禁止的事。

企业AI用数安全架构设计：从数据脱敏到智能体隐私沙箱话题标签：大模型安全 LLM数据安全 RAG安全 Agent安全隐私计算企业AI落地面临的核心矛盾：高敏数据不能出域，但AI需要数据才能产生价值。传统数据安全方案为"人操作数据"设计，无法应对AI高频、模糊边界、自主执行的用数特征。

浅谈Prompt攻击与防御定义：输入恶意prompt内容，让LLM违背开发者预设的指令，输出恶意内容，比如：攻击者把恶意输入注入到第三方资料中，一旦大模型某个时间获取第三方资料作为prompt，就会被攻击

合天网安实验室

2025铸剑杯线下赛AI安全渗透复现2025铸剑杯线下赛第二部分是渗透，其中包括web渗透和大模型安全。这道题其实是2023年中国科学技术大学Hackergame的一道题目改编的，大差不差。

OWASP 2025 LLM 应用十大安全风险深度解析

【技术报告详细解读】Llama Guard 3 8BLlama Guard 目前提供三种版本：Llama Guard 3 1B、Llama Guard 3 8B和Llama Guard 3 11B-Vision。前两个版本仅支持文本，第三个版本则支持与基础 Llama 3.2 11B-Vision 模型相同的视觉理解功能。所有模型均支持多语言（仅限文本提示），并遵循 ML Commons 联盟定义的类别。

【论文阅读】ON THE ROLE OF ATTENTION HEADS IN LARGE LANGUAGE MODEL SAFETY原文摘要研究背景与现状背景现状研究目标与贡献目标：探索标准注意力机制与安全能力之间的联系，以填补安全性相关的可解释性研究空白。

Jinja2模板引擎SSTI漏洞再研究大模型相关应用的漏洞CVE-2025-25362时（参考1），看到作者给了比较详细的分析（参考2）。下面对这个漏洞做个介绍。

从DeepSeek看算法备案&大模型备案一、deepseek的备案情况（一）算法备案情况在算法备案系统网站上，北京深度求索人工智能基础技术研究有限公司和杭州深度求索人工智能基础技术研究有限公司分别进行了两个算法备案。从公司名称来看，正如创始人梁文锋所说，这两家公司专注于人工智能前沿技术的基础研究。

Refusal in Language Models Is Mediated by a Single Direction会话型大语言模型针对指令遵循和安全性进行了微调，从而产生服从良性请求但拒绝有害请求的模型。虽然这种拒绝行为在聊天模型中普遍存在，但其背后的机制仍然知之甚少。在这项工作中，我们展示了拒绝是由一维子空间介导的，涉及 13 个流行的开源聊天模型，参数大小高达 72B。具体来说，对于每个模型，我们找到一个单一方向，这样从模型的残余流激活(residual stream activations)中删除该方向可以防止其拒绝有害指令，而添加该方向会导致拒绝甚至无害的指令。利用这一见解，我们提出了一种新颖的白盒越狱方法，

一条测试老狗

OWASP发布大模型安全风险与应对策略（QA测试重点关注）开放式 Web 应用程序安全项目（OWASP）发布了关于大模型应用的安全风险，这些风险不仅包括传统的沙盒逃逸、代码执行和鉴权不当等安全风险，还涉及提示注入、对话数据泄露和数据投毒等人工智能特有的安全风险。

技术实践｜百度安全「大模型内容安全」高级攻击风险评测2023年10月16日，OWASP发布了《OWASP Top 10 for LLM Applications》，这对于新兴的大语言模型安全领域，可谓一份纲领性的重要报告。

我是有底线的