garak - garak技术,学习,经验文章

键盘侠伍十七

1 个月前

garak 如何探测 LLM 的越狱漏洞2023 年 2 月。Reddit 用户 walkerspider 贴出一条 prompt，能让 ChatGPT 写出凝固汽油弹配方。Prompt 以 “Ignore all the instructions you got before” 开头，诱骗模型相信自己是一个叫 DAN（Do Anything Now）的测试 AI，不受任何内容策略约束。这个版本——DAN 11.0——几乎百发百中。