技术栈

jailbreaking

键盘侠伍十七
2 小时前
人工智能·大模型·大模型安全·越狱攻击·garak·jailbreaking
garak 如何探测 LLM 的越狱漏洞2023 年 2 月。Reddit 用户 walkerspider 贴出一条 prompt,能让 ChatGPT 写出凝固汽油弹配方。Prompt 以 “Ignore all the instructions you got before” 开头,诱骗模型相信自己是一个叫 DAN(Do Anything Now)的测试 AI,不受任何内容策略约束。这个版本——DAN 11.0——几乎百发百中。
我是有底线的