注入攻击

最初的↘那颗心

Prompt安全实战：注入攻击防御与越狱防护全攻略导读：当我们兴致勃勃地把大模型接入业务系统时，往往只关注功能是否好用，却忽略了一个致命问题——安全。Prompt 注入攻击和越狱（Jailbreak）是当前大模型应用面临的两大核心安全威胁。前者能让攻击者"劫持"你的 AI 助手，后者能让用户绕过模型的内容安全限制。本文将从攻击原理到防御实战，带你系统掌握 Prompt 安全的多层防御体系。

【论文速读】Optimization-based Prompt Injection Attack to LLM-as-a-JudgeLLM-as-a-Judge 利用一个大型语言模型（LLM）从一组候选答案中选择给定问题的最佳回答。LLM-as-a-Judge 有许多应用，例如 LLM 驱动的搜索、带有 AI 反馈的强化学习（RLAIF）和工具选择。在这项工作中，提出了 JudgeDeceiver，这是一种针对 LLM-as-a-Judge 的基于优化的提示注入攻击。JudgeDeceiver 将一个精心设计的序列注入到攻击者控制的候选回答中，使得 LLM-as-a-Judge 无论其他候选回答是什么，都会为攻击者选择的问题选择该候选

我是有底线的