浅析大语言模型安全和隐私保护国内外标准和政策

过去两年,大模型技术已经普及并逐步渗透到各行各业,2025年注定是大模型应用井喷式发展的一年 ,AI在快速发展的同时,其带来的安全风险也逐渐凸显。人工智能系统的安全性隐私保护已经成为社会关注的重点。

附下载600多个人工智能AI工具汇总(AIGC时代-超级个体的崛起).xlsx (访问密码: 6277)

1. 前言

人工智能系统设计、研发、训练、测试、部署、使用、维护等生命周期各环节都面临安全风险,既包括自身技术缺陷或不足带来的风险(如提示词注入),也包括不当使用、滥用甚至恶意利用带来的安全风险(如数据泄露)。

例如,在自动驾驶领域,如何确保车辆能够正确识别交通信号和行人,避免事故的发生,这是一个涉及公共安全的重要问题。在金融领域,人工智能被用于风险评估和反欺诈系统中,如果算法存在偏见或者被恶意利用,可能会导致严重的经济损失和社会信任危机。

2023年8月,国家六个部委发布的《生成式人工智能服务管理暂行办法》正式施行,更是强调了大语言模型安全的重要性,防止生成潜在隐私泄露、违法犯罪内容。

2. 大模型安全风险和应对策略(国内)

2024年9月国家网络安全宣传周主论坛在广州举办,全国网络安全标准化技术委员会在论坛上发布了《人工智能安全治理框架》1.0版,以下简称"框架"。

框架主要由人工智能安全治理原则、人工智能安全治理框架构成、人工智能安全风险分类、技术应对措施、综合治理措施、人工智能安全开发应用指引等六部分构成。该框架中指出了人工智能的存在多种安全风险,典型如下:

  • 对抗攻击风险:攻击者通过创建精心设计的对抗样本数据,隐蔽地误导、影响,以至操纵人工智能模型,使其产生错误的输出,甚至造成运行瘫痪。

  • "投毒" 风险:训练数据中含有虚假、偏见、侵犯知识产权等违法有害信息,或者来源缺乏多样性,导致输出违法的、不良的、偏激的等有害信息内容。训练数据还面临攻击者篡改、注入错误、误导数据的"投毒"风险,"污染"模型的概率分布,进而造成准确性、可信度下降。

  • 数据泄露风险:人工智能研发应用过程中,因数据处理不当、非授权访问、恶意攻击、诱导交互等问题,可能导致数据和个人信息泄露。for:政府、企业等机构工作人员在业务工作中不规范、不当使用人工智能服务,向大模型输入内部业务数据、工业信息,导致工作秘密、商业秘密、敏感业务数据泄露。

  • 滥用风险:人工智能可被用于实施自动化网络攻击或提高攻击效率,包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、网络扫描、社会工程学攻击等,降低网络攻击门槛,增大安全防护难度。

框架中对风险进行了全部梳理,可以参见下图

因为存在以上安全风险,需要做以下管控措施:

  • 实施人工智能应用分类分级管理。根据功能、性能、应用场景等,对人工智能系统分类分级,建立风险等级测试评估体系。

  • 加强人工智能最终用途管理,对特定人群及场景下使用人工智能技术提出相关要求,防止人工智能系统被滥用。

  • 此外,对算力、推理能力达到一定阈值或应用在特定行业领域的人工智能系统进行登记备案,要求其具备在设计、研发、测试、部署、使用、维护等全生命周期的安全防护能力。

3. 大模型安全风险和应对策略(国际)

在博文基于ChatGPT解读OWASP 大语言模型(LLM)安全测评基准中我们介绍了大模型的安全性测试基准。

2025年1月份,OWASP更新了大模型的安全Top 10。

此外,MITRE ATLAS作为一个专注于机器学习(ML)系统对抗性策略、技术和案例研究的知识库,为我们系统地揭示了AI系统面临的严峻挑战。

MITRE ATLAS基于真实世界观察、机器学习红队和安全小组演示,以及学术研究的综合成果,旨在提高人们对ML系统威胁的认识,并以安全研究人员熟悉的方式呈现这些威胁。该框架仿照MITRE ATT&CK框架建模,其策略和技术与ATT&CK相辅相成,共同构成了对AI系统安全性的全面审视。

随着大型语言模型和生成式AI在商业运营中的集成日益增加,建立一个专注于AI安全的卓越中心(CoE)变得至关重要。该中心确保AI技术在安全和伦理框架内有效实施和维护。

报告《OWASP Top 10 for LLM COE Guide》中提供了一个全面的角色和责任框架,强调了包括法律、风险管理、IT和运营等多个利益相关者的重要性。组织可以利用此框架作为蓝图,根据自身运营需求调整利益相关者角色。

本文写作过程中收集并参考了大量LLM大语言模型安全相关的发文和国际标准。感兴趣的可以通过如下链接打包下载:


相关推荐
stsdddd1 小时前
【YOLOv8杂草作物目标检测】
人工智能·yolo·目标检测
power-辰南1 小时前
人工智能学习路线全链路解析
人工智能·学习·机器学习
几维安全1 小时前
面对移动安全挑战,应用加固是不可忽视的防线
网络·安全·web安全
董董灿是个攻城狮1 小时前
010:传统计算机视觉之大津算法初探
人工智能·计算机视觉·cnn
WhoisXMLAPI2 小时前
新的 WhoisXML API 白皮书重点分析了主要 gTLD 和 ccTLD 注册趋势
运维·服务器·网络·数据库·网络协议·安全
Stealmoon_92 小时前
快速、简单的2D-6D位姿估计:Gen6D算法复现 (pytorch 1.12.1 + cu113)
人工智能·pytorch·算法
whaosoft-1432 小时前
51c~Pytorch~合集4
人工智能
爱喝热水的呀哈喽2 小时前
pytorch模型的保存失敗しましたが、
人工智能·pytorch·python
夏冰加密软件2 小时前
U盘加密软件哪个好用?免安装、安全、防复制
安全
pzx_0012 小时前
【深度学习】通俗理解偏差(Bias)与方差(Variance)
人工智能·python·深度学习·算法·机器学习·集成学习