大模型安全

真·skysys1 个月前
大模型安全·大模型对齐·安全对齐·权重正交化·激活工程·模型越狱
Refusal in Language Models Is Mediated by a Single Direction会话型大语言模型针对指令遵循和安全性进行了微调,从而产生服从良性请求但拒绝有害请求的模型。虽然这种拒绝行为在聊天模型中普遍存在,但其背后的机制仍然知之甚少。在这项工作中,我们展示了拒绝是由一维子空间介导的,涉及 13 个流行的开源聊天模型,参数大小高达 72B。具体来说,对于每个模型,我们找到一个单一方向,这样从模型的残余流激活(residual stream activations)中删除该方向可以防止其拒绝有害指令,而添加该方向会导致拒绝甚至无害的指令。利用这一见解,我们提出了一种新颖的白盒越狱方法,
一条测试老狗4 个月前
安全·安全性测试·威胁分析·大模型安全
OWASP发布大模型安全风险与应对策略(QA测试重点关注)开放式 Web 应用程序安全项目(OWASP)发布了关于大模型应用的安全风险,这些风险不仅包括传统的沙盒逃逸、代码执行和鉴权不当等安全风险,还涉及提示注入、对话数据泄露和数据投毒等人工智能特有的安全风险。
百度安全1 年前
安全·百度·大模型·大模型安全
技术实践|百度安全「大模型内容安全」高级攻击风险评测2023年10月16日,OWASP发布了《OWASP Top 10 for LLM Applications》,这对于新兴的大语言模型安全领域,可谓一份纲领性的重要报告。