艾体宝洞察|生成式 AI 安全：趋势、风险与最佳实践

从通过智能聊天机器人支持客户到自动生成代码，生成式 AI (GenAI) 正在彻底改变企业运营。但正如蜘蛛侠所说，能力越大，责任越大。本文将探讨生成式 AI 安全，包括其发展趋势和需要掌握的最佳实践。

为什么生成式 AI 在网络安全中如此重要？

在考虑实施 GenAI 时，组织需要思考以下风险：

数据泄露：在敏感或专有数据上训练的 GenAI 模型可能在推理过程中无意中泄露这些信息。
错误信息与幻觉：调整不佳的模型可能会生成误导性或不准确的输出，从而造成运营和声誉损害。
模型攻击：攻击者可以通过提示词注入或数据投毒来操纵 GenAI 模型。
合规风险：在训练或生成过程中滥用个人或受监管数据可能导致法律风险（例如，GDPR、HIPAA）。

生成式 AI 安全不仅仅是一个技术问题，更是一项业务要务。不当使用生成式 AI 会带来独特的风险，需要专门的缓解措施，公司必须从一开始就将安全融入其 AI 计划中。

GenAI 安全趋势与统计数据

要理解生成式 AI 在网络安全中的作用，了解行业关键趋势会很有帮助。以下是五个快速事实，助您掌握概况：

主流采用正在加速 ：根据麦肯锡研究，71% 的受访者表示其组织至少在一个业务职能中定期使用 GenAI，这一比例高于 2024 年初的 65%。更广泛的采用也带来了更多的安全漏洞风险。
影子 AI 成为一个日益增长的盲点 ：首席信息安全官 (CISO) 越来越担心员工未经授权使用 GenAI 工具，这些使用通常缺乏治理、安全审查或可见性。五分之一的 CISO 承认有员工通过 GenAI 泄露了公司数据。
安全框架正在涌现 ：OWASP 于 2023 年发布的 LLM 十大风险强调了生成式系统需要超越传统应用安全 (AppSec) 假设的威胁建模，引入了如过度代理、训练数据投毒和不安全的输出处理等类别。
云服务提供商正在响应 ：Google Cloud 强调，由于生成式模型的非确定性和不断演变的特性，需要通过持续评估来管理 AI 相关风险。AWS、Azure 和其他公司也同样在其 AI 服务中构建了防护措施。
企业 CISO 们正在敲响警钟：从可见性差距到缺乏可解释性，GenAI 正在重塑威胁格局和工具需求。对 AI 特定安全控制和监控的需求正在推动新的产品类别和监管审查。

生成式 AI 在网络安全中的关键组成部分

生成式 AI 网络安全的必要性显而易见，但需要考虑哪些要素呢？

GenAI 模型安全

保护模型本身涉及缓解以下威胁：

提示词注入攻击
模型提取与反演
数据投毒

开发人员必须确保 GenAI 模型在训练、微调和部署时具备威胁意识。这包括对抗性测试和滥用监控。

数据安全与隐私管理

用于训练和与 GenAI 系统交互的数据必须：

经过净化以移除敏感信息
在传输和静态时进行加密
在明确的访问和合规策略下进行治理

成熟的组织正在模型摄取之前实施数据分类和过滤层。

基础设施与流水线安全

AI 系统通常依赖于复杂的 MLOps 流水线和云基础设施，这引入了新的风险：

不安全的 API
配置错误的 IAM 和 RBAC
未扫描的容器镜像或 ML 工件

在 AI 开发中，强调安全软件供应链的重要性至关重要。倡导对依赖项、容器进行持续扫描和加固，并在整个 ML 流水线中自动执行策略，这可以将成熟的 DevSecOps 实践扩展到模型工件、数据集和 AI 基础设施。

应用层安全

GenAI 正越来越多地集成到 Web 应用、SaaS 平台和开发者工具中。这一层需要：

用户输入净化
输出过滤（例如，有害信息、个人身份信息 PII、偏见）
速率限制和滥用检测

在 Mend.io，我们以对待任何软件组件的同样严谨态度来处理 GenAI 集成，确保积极执行应用层保护，以防止滥用、泄露或下游危害。

OWASP 针对 LLM 和生成式 AI 安全风险的十大清单

OWASP 的 LLM 十大风险是当前对生成式 AI 安全风险进行分类的黄金标准。这些风险在信任边界、输入渠道、数据治理和模型行为方面带来了挑战。以下是各项风险的简要概述：

提示词注入 (Prompt Injection)：恶意用户精心制作输入，以操纵或颠覆模型的预期行为。
不安全的输出处理 (Insecure Output Handling)：未能验证或净化生成的内容可能导致注入或错误信息风险。
训练数据投毒 (Training Data Poisoning)：攻击者将受污染的数据注入训练集，以恶意影响模型输出。
模型拒绝服务 (Model Denial of Service)：提示循环或资源密集型查询可能导致服务崩溃或性能下降。
供应链漏洞 (Supply Chain Vulnerabilities)：不安全的模型、数据集或第三方插件可能在开发或部署期间引入风险。
敏感信息泄露 (Sensitive Information Disclosure)：模型可能会记住并泄露训练集中的专有或个人数据。
过度依赖 (Overreliance)：未经核实地过度信任 GenAI 输出可能导致错误或自动化滥用。
不安全的插件设计 (Insecure Plugin Design)：扩展模型功能的插件或工具可能缺乏输入验证或授权。
过度代理 (Excessive Agency)：给予 GenAI 系统过多自主权可能导致意外的行动或决策。
模型窃取或提取 (Model Theft or Extraction)：对手通过反复查询来逆向工程或复制模型的逻辑或权重。

这些风险与传统的应用安全类别（如输入验证、代码注入和访问控制）密切相关，但在 GenAI 的背景下，它们需要新颖的缓解策略。

生成式 AI 安全的最佳实践与策略

这些策略是什么？（我们听到你的疑问了。）以下七个最佳实践是一个很好的开始。

建立治理和 AI 风险框架

每个 GenAI 项目都应从一个治理策略开始，该策略明确定义可接受的使用方式、道德边界和风险容忍度。采用正式的 AI 特定风险管理框架，如 NIST AI RMF，并将其整合到现有的应用安全 (AppSec) 和 DevSecOps 计划中。治理应涵盖数据处理、模型训练、部署、监控和退役。

高级技巧：在您的代码托管或文档平台（例如，GitHub、Confluence）中建立一个集中的 AI 策略库，并将自动化策略检查集成到您的 CI/CD 流水线中。使用 OpenPolicyAgent (OPA) 或 Kyverno 等工具，在模型部署、数据访问和 API 调用到达生产环境之前强制执行规则。

加密和净化敏感数据

进入或离开 GenAI 系统的数据必须经过严格净化：清除个人身份信息 (PII)、凭证、财务记录和其他敏感资产。使用数据脱敏、令牌化和数据丢失防护 (DLP) 工具来防止意外泄露。

高级技巧：在您的 GenAI 流水线中集成一个预处理中间件层，该层使用基于正则表达式的 PII 检测器、命名实体识别 (NER) 以及哈希/令牌化库（例如，presidio、spaCy 或 AWS Comprehend）。将其配置为在对模型进行 API 调用之前运行，并在收到响应后再次运行。

进行对抗性测试（红队演练）

通过模拟现实世界的攻击场景（如提示词注入、模型反演、数据投毒等）来主动对 AI 系统进行压力测试。开源工具如 Microsoft 的 PyRIT 或 IBM 的 ART (Adversarial Robustness Toolbox) 可以自动化对抗性测试。

高级技巧：建立一个专用的红队测试环境，该环境与您的生产 GenAI 技术栈镜像。在计划的 Jenkins/GitHub Actions 工作流中使用 PyRIT 或 IBM ART 自动化攻击。将漏洞（例如，成功的提示词注入）记录并评分到 SIEM 或漏洞管理工具（如 Jira 或 DefectDojo）中，以进行修复跟踪。

利用可解释 AI (XAI)

使用可解释性工具提高信任度和可见性，这些工具能让您深入了解模型内部。理解 GenAI 模型为什么会产生某个特定输出有助于检测异常和偏见。因此，可解释性工具对于发现安全异常和满足合规要求至关重要。XAI 还有助于建立用户对模型输出的信任。

高级技巧：在您的生产 GenAI API 旁边部署模型可解释性框架，如 SHAP、LIME 或 Captum。将特征归因报告存储在集中的日志存储库中，并在检测到异常推理模式时（例如，决策由意外的令牌或敏感数据字段驱动）在您的 SIEM 中触发自动警报。

消除影子 AI

通过 SaaS 发现工具、端点监控以及全面的教育和培训来强制执行使用策略。尽管 93% 的组织已经实施了 AI，但只有 8% 的组织嵌入了治理。在这个领域，您应该争做领导者，而非落后者。

高级技巧：使用网络出口过滤和 API 发现工具（例如，Palo Alto SaaS Security、Zscaler CASB 或开源数据包嗅探器）来检测对未经授权的 AI 端点的调用。将这些发现与身份管理日志相关联，以识别特定用户或设备，然后自动发送合规通知或实施临时访问限制。

创建并维护 AI 物料清单 (AI-BOM)

AI 物料清单 (AI-BOM) 是 AI 领域的软件物料清单 (SBOM)。它记录了模型来源、训练数据集及其出处、第三方依赖项以及任何应用的微调或配置。这有助于实现可追溯性、合规性并加快事件调查速度。

高级技巧：通过将脚本集成到您的 MLOps 流水线中来自动化 AI-BOM 的生成，这些脚本在每次构建时捕获模型版本哈希、数据集校验和、依赖项清单和微调参数。将 AI-BOM 存储在版本控制的存储库中（例如 Git），并使用拉取请求检查来阻止没有更新 AI-BOM 的部署。

使用 RLHF 和宪法 AI

基于人类反馈的强化学习 (RLHF) 和宪法 AI 是新兴的方法论，旨在将人类价值观、安全约束和道德准则直接注入 GenAI 模型中。RLHF 根据精心策划的人类输入来微调模型行为，而宪法 AI 则提供预定义的规则来主动塑造输出。

高级技巧：将您的模型训练或微调过程托管在支持反馈循环日志记录的环境中。使用 Hugging Face trl 或 Anthropic 的宪法 AI 方法等框架，在训练期间强制执行对齐规则。将您的"AI 宪法"存储为机器可读的 YAML/JSON 文件，以便可以通过编程方式加载并通过版本控制进行更新。

现在是处理生成式 AI 安全风险的时候了

随着企业越来越多地采用 GenAI，威胁格局也随之演变。生成式 AI 安全不再是可选项，而是负责任创新的基础学科。

在 Mend.io，我们相信应用安全 (AppSec) 领导者必须像对待任何其他关键应用程序组件一样对待 GenAI：对其进行威胁建模、治理、测试并在整个生命周期中保护它。通过采纳最佳实践并与 OWASP 的 LLM 十大风险等框架保持一致，组织可以释放 GenAI 的价值，而不会带来新的风险。