技术栈
garak
键盘侠伍十七
2 小时前
人工智能
·
大模型
·
大模型安全
·
越狱攻击
·
garak
·
jailbreaking
garak 如何探测 LLM 的越狱漏洞
2023 年 2 月。Reddit 用户 walkerspider 贴出一条 prompt,能让 ChatGPT 写出凝固汽油弹配方。Prompt 以 “Ignore all the instructions you got before” 开头,诱骗模型相信自己是一个叫 DAN(Do Anything Now)的测试 AI,不受任何内容策略约束。这个版本——DAN 11.0——几乎百发百中。
我是有底线的