【杂谈】-当人工智能能力增速凌驾于安全管控模型之上

当人工智能能力增速凌驾于安全管控模型之上

人工智能工具的登场，往往伴随着令人耳熟能详的宣传话语。它们宣称能够精简工作流程、提升生产效率，并接手那些鲜有人愿做的工作。而在多数情形下，这些承诺确实得以兑现。它们优化登录流程、整合文档内容、实现工作流自动化，让日常事务的处理变得轻而易举。

不过，在这份便捷背后，实则潜藏着另一番隐情。这些工具已不再拘泥于文本输入框的局限，而是开始直接操控操作系统。它们能够查阅文件、撰写邮件、与各类应用程序交互，完成过去唯有细致入微、深谙后果的人类方可胜任的操作。这一转变，将人工智能推入了现有安全机制未曾涉足的全新领域。

当人工智能系统具备读取真实文件、执行真实命令的能力时，它便融入了可信计算基础体系。至此，人们长期以来对人工智能安全性的预期，开始出现动摇。

往昔，提示注入仅被视为一种奇特的模型行为，虽会使聊天机器人输出误导性或不当内容，但危害仅局限于对话范畴。如今，同样的漏洞却能引发主机层面的操作，而非仅仅停留在文本层面。隐匿于 PDF、网站或电子邮件中的恶意指令，不再仅仅催生怪异回复，而是会驱使机器执行相应操作。

这绝非行业可以等闲视之的理论问题。卡内基梅隆大学与华盛顿大学的研究人员已多次证实，隐藏指令能够引导大型语言模型执行用户始料未及的操作。与此同时，针对视觉模型的研究人员也揭示，篡改图像能够改变模型的感知，进而影响后续行为。

往昔，这些实验不过是实验室里的新奇发现。但当人工智能拥有操作系统访问权限时，它们便不再是纸上谈兵的理论，而是实实在在的威胁。

即便研发这些智能体的公司，也深刻认识到挑战的艰巨性。他们虽强化了过滤器以应对提示信息，却也公开坦言，在现实世界中对人工智能系统的行为管控，仍是整个行业亟待攻克的前沿课题。智能体能力与防御管控能力之间的鸿沟，催生出一类全新的风险，而现有的安全策略体系对此束手无策。

人工智能智能体已然跨越了行业尚未做好充分准备的界限。若要洞悉这一转变，唯有剖析提示注入如何与防御者坚守十余年的攻击链相融合。

攻击者的行动始终遵循着既定的模式。MITRE ATT&CK 框架精准勾勒出各个阶段：初始渗透、指令执行、持久驻留、信息探测、横向拓展、数据收集与窃取。具体手段虽各有差异，但整体架构却保持稳定。

当下发生转变的，是攻击的传播途径。攻击者不再诱使用户开启恶意附件或点击危险链接，而是将指令植入人工智能代理可读取的区域。代理本身便成为执行环境，严格依照指令推进操作。模型既不会质疑指令的危害性，也不会运用判断与直觉，只是机械执行。

一旦攻击者能够左右代理的推理过程，攻击链便会迅速成型。篡改文件触发执行动作，后续指令构建持久化机制，系统搜索开辟信息发现路径，文件上传达成数据收集与窃取目的。无需借助恶意软件，代理只需依令行事。

这正是安全团队难以适应的关键所在。多年来，他们围绕代码执行构建检测规则、管控措施与响应流程。而人工智能代理引入了全新的"解释器"，它以自然语言而非编译后的二进制文件来执行指令。现有工具既无法追踪，也难以剖析这一推理过程。

安全体系依旧默认，内容与行动之间始终存在人为干预环节。人类或许会被蒙蔽，但一旦察觉异样，便会驻足思考。他们会留意措辞异常，质疑反常行为，在最终决策前审慎权衡。

人工智能代理却截然不同，它们始终如一、严格遵循字面含义，且行动速度远超任何对手。仅需一行隐藏文本，便能指令代理读取敏感文件、在应用程序间跳转或连接远程服务器。这让防御者陷入前所未有的困境。

安全团队对代理决策机制的了解极为有限，也难以精准判定某项操作是源自用户还是人工智能。传统恶意软件检测手段在此失效，因为并未发生常规意义上的恶意操作，且无法确保代理会质疑或拒绝正常内容中潜藏的有害指令。

专为人类行为设计的工具，根本无法适配自然语言成为系统行为驱动脚本的全新场景。

单纯强化模型远远不够，安全团队需围绕代理构建管控体系，即便其推理过程遭受干扰，也能约束人工智能的行为。

以下策略成效显著：

最小权限原则举足轻重。代理仅应被授予执行任务所需的文件与操作权限。削减冗余权限，能够有效遏制被篡改指令的影响范围。
引入人工审批环节，可在有害行为发生前及时拦截。当代理尝试执行敏感操作，如运行指令或访问受保护数据时，需由用户进行审批或否决。
内容过滤在不可信内容与代理之间筑起一道屏障。对文档、URL 及外部文本进行筛选，能够降低隐藏指令触达模型的概率。
全面日志记录不可或缺。代理发起的每一项操作，都必须详尽记录并严格审查，其重视程度应与特权用户活动等同。
将代理行为与 ATT&CK 技术相对应，有助于防御者精准识别代理易被诱导实施有害行为的关键节点，以及必须筑牢防护屏障的薄弱环节，这与现有防御体系的思路一脉相承。

这些补偿性管控措施虽无法彻底消除风险，却能在模型层面防御难以触及的维度，实现对风险的有效管控。

人工智能代理标志着计算模式的重大革新。它们在带来惊人生产力的同时，也引入了一类现有安全框架难以涵盖的运营风险。英国国家网络安全中心的指导意见虽是一个良好开端，但多数组织仍缺乏管理具备系统操作权限代理的清晰路径。

当下的局势与云计算早期推广阶段极为相似，技术迭代速度远超管控能力的提升。那些能够迅速适应变革的组织，正是那些提前洞察这一转变，并积极构建配套流程的先行者。

人工智能代理领域亦将如此。它们不再仅仅是辅助工具，而是拥有系统级权限的"操作员"。守护它们，需要全新的操作规范、防护手段以及风险暴露评估模型。

行业无需对这些工具心怀畏惧，但必须深入了解它们，并迅速采取行动，因为攻击者已然洞察到其中的可乘之机。关键问题在于，防御者能否在为时未晚之际，构建起完备的安全防护体系。