AI安全护栏对防御者的束缚远超攻击者，加剧攻防失衡

安全团队遭遇AI护栏困境

当前安全团队正被敦促采用AI副驾驶进行威胁建模、钓鱼模拟和安全运营中心（SOC）工作流。然而，许多广泛部署的企业级AI系统在面对模拟真实攻击行为的提示时，往往难以支持实际的防御场景。这并非因为此类活动本质具有恶意，而是主流AI安全模型的设计初衷是防止大规模滥用，而非区分授权安全工作与恶意行为。

与此同时，攻击者不受采购规则、合规义务或集中式安全执行的约束，无论他们依赖开源模型、微调工具还是完全不使用AI。

护栏军备竞赛

AI供应商已投入巨资构建安全机制。OpenAI、Anthropic、Google等公司实施了日益复杂的过滤器，防止其模型生成有害内容。这些护栏代表着真实的工程努力，反映了对AI滥用的合理担忧。

问题在于这些保护措施存在不对称性。2025年10月，HiddenLayer研究人员测试OpenAI护栏框架时，使用简单技术就绕过了越狱和提示注入检测。这种限制源于架构缺陷------评估内容的安全判断器本身也是LLM（大语言模型），与其保护的模型同样易受操控。

对开源权重模型的最新研究揭示了更严峻的结果。思科研究人员发现，在多轮提示攻击中，开源语言模型的平均成功率约为60%，特定评估条件下某模型甚至达到92.78%。这表明攻击者往往只需通过耐心将恶意意图分散在多个看似良性的请求中，而无需开发新型漏洞利用技术。

与此同时，安全专业人员在请求合法防御内容时却遭遇常规阻碍。例如，构建钓鱼模拟的红队成员会遭到拒绝；进行授权评估的渗透测试人员获取PoC漏洞利用代码时也会被拦截。实践中，直接请求攻击技术会被拒绝，而间接或教育性质的表述往往只能获得部分指导。

攻击者的优势

威胁行为者不受此类限制。他们直接使用越狱模型、本地托管开源替代品或在地下市场泛滥的专用恶意工具。2023年最初被关闭的WormGPT，现已作为未经审查AI工具的回收品牌重现。2024年10月至2025年2月间在地下市场BreachForums发布的新变种，基于xAI的Grok和Mistral的Mixtral等主流模型构建，采用越狱提示和系统提示操控技术。这些变种无需从头构建新模型，而是依赖在地下论坛广泛记录且日益商品化的提示操控、系统消息滥用或微调技术。

经济和技术门槛已大幅降低。多项研究表明，AI使钓鱼和社会工程攻击成本降低超95%，几乎任何有预算和意图的人都能发起高级AI驱动攻击。2021年美国黑帽大会的研究显示，AI生成的鱼叉式钓鱼邮件点击率高于人工编写的邮件。

防御缺口

这对安全专业人员造成实际运营问题。组织需要真实的钓鱼模拟来培训员工应对日益复杂的AI生成攻击，但创建这些场景常需依赖安全过滤器常规拦截的AI辅助。安全意识培训本就难以跟上节奏，年度或季度培训模块无法匹配每月进化的钓鱼技术。

研究AI安全的学术界和产业界面临不一致的限制。ChatGPT在评估安全相关任务的伦理影响时表现不一，有时拒绝生成其认为不道德的代码，却在不同表述下产出功能相似的输出。这种不可预测性使系统研究变得困难，迫使研究人员将时间浪费在提示工程而非安全分析上。

即使安全专业人员获得有用输出，质量也不稳定。某次评估中，ChatGPT首次尝试仅生成21个安全程序中的5个。拒绝编写漏洞利用代码却轻易生成可被利用的脆弱代码，存在伦理不一致性。

红队演练和渗透测试日益依赖AI辅助进行侦察、漏洞分析和报告生成。但当AI安全措施拦截安全工具输出或PoC演示时，测试覆盖率就会受损。组织可能因AI辅助安全工具受过度宽泛限制而错过关键漏洞。

现实中的不对称

这不仅是理论问题。攻击者成果与防御者可用资源间的差距已被记录且持续扩大。2024年学术研究发现，AI生成钓鱼邮件的点击率显著优于人工制作的对照邮件。威胁行为者已在规模化运用此能力。

2025年8月，微软检测到利用AI混淆的钓鱼活动。攻击者可能使用LLM生成旨在逃避检测的复杂SVG代码。该SVG使用商业相关语言显得合法，同时对用户不可见。

防御者需要能快速探索新兴攻击变体并验证跨环境检测规则的工具。该能力理论上存在，但因护栏限制实际可用性不均。

问题超越单个提示技巧。攻击者已将绕过技术产业化。EchoGram攻击技术识别能改变护栏决策却不影响恶意负载的翻转令牌（flip tokens），组合使用时效果叠加。研究人员在控制实验中证明，精心选择的令牌序列可完全逆转分类器判定，使恶意内容看似安全或用误报淹没安全团队。

CISO的两难困境

对安全领导者而言，这种不对称性造成若干战略问题。当威胁行为者展示防御团队无法合法或实际复现测试的AI驱动攻击能力时，组织无法准确评估其暴露风险或衡量对快速变异威胁的准备程度。

当培训内容落后于攻击者 sophistication 时，员工安全意识计划效果降低。若防御者无法轻松生成反映当前威胁的模拟，培训就只能聚焦昨日攻击。

当学术界和产业界研究人员面临攻击者轻易绕过的限制时，安全社区对新兴威胁的可见性降低。支撑防御战略的研究受阻，而攻击能力却畅通无阻。

组织变得依赖AI供应商判定何为合法安全用途。当这些判定不一致、主观或过度保守时，防御能力就会受损。攻击者通过越狱、本地部署或地下市场获取无审查AI，防御者却需 navigating 审批流程、服务条款和不可预测的拒绝。摩擦主要单边存在。

亟需的变革

关键不是完全放弃AI安全，而是设计考虑防御用例的安全措施。AI系统可支持对具有特定测试场景书面授权的合法安全专业人员进行认证，而非仅依赖基于内容的过滤。OpenAI近期宣布的"可信访问计划"代表此方向的尝试，但实施细节至关重要。

应允许安全专业人员声明经核实的预期用途，如授权渗透测试、批准培训或学术研究。这将评估重点从"做什么"转向"谁在做"和"为什么做"。Hybrid-Analysis等自动化恶意软件分析平台此前对研究账号采用类似审查机制。

为安全团队定制的工具可在受控环境中提供必要能力，例如红队专用AI实例、内置AI辅助的钓鱼模拟平台，或具有适当护栏和审计追踪的安全研究沙盒。

安全培训应区分恶意意图与合法安全工作。当前实现常未能区分，将所有攻击性安全内容请求等同视之，无视上下文。

最终目标不是无限制的AI访问，而是增强而非削弱防御能力的安全措施。安全本质是管理不对称性。当护栏扩大攻防差距时，无论初衷如何，它们都在破坏安全。

未来之路

当前趋势使防御者日益处于劣势。随着AI能力进步，除非刻意解决，否则攻击者可实现与防御者可合法实用获取资源间的差距将扩大。

这需要AI供应商、安全研究人员和企业安全团队合作开发安全框架，在不阻碍防御能力的前提下防止滥用。这意味着接受完美内容过滤不可行，转向基于授权的模式------验证合法用途而非试图从提示推断意图。

最重要的是，必须认识到经授权操作的安全专业人员不应是这些系统优化的对抗目标。当AI拒绝为授权培训构建钓鱼模拟，而攻击者却能以最小摩擦大规模生成逼真钓鱼内容时，安全措施就已背离核心目的。

AI安全本应减少危害。目前在安全领域，它正制造使所有人（除攻击者外）更不安全的盲区。