技术栈

越狱攻击

键盘侠伍十七
20 天前
人工智能·大模型·大模型安全·越狱攻击·garak·jailbreaking
garak 如何探测 LLM 的越狱漏洞2023 年 2 月。Reddit 用户 walkerspider 贴出一条 prompt,能让 ChatGPT 写出凝固汽油弹配方。Prompt 以 “Ignore all the instructions you got before” 开头,诱骗模型相信自己是一个叫 DAN(Do Anything Now)的测试 AI,不受任何内容策略约束。这个版本——DAN 11.0——几乎百发百中。
元直数字电路验证
3 个月前
人工智能·大模型水印·越狱攻击
当AI学会“越狱“与“签名“:大模型 安全的攻与防2023年以来,以ChatGPT、GPT-4、LLaMA、Qwen为代表的大语言模型(Large Language Models, LLMs)席卷了几乎所有行业。然而,能力越大,风险越大。一方面,用户发现可以通过精心构造的提示词绕过模型的安全护栏,让模型输出有害内容——这就是所谓的"越狱攻击"(Jailbreak Attack)。另一方面,AI生成的文本被大规模用于虚假新闻、学术作弊、网络钓鱼等场景,如何判定"这段文字是不是AI写的"成了迫切的需求——这催生了"大模型水印"(LLM Watermarkin
我是有底线的