1. 背景分析
隐私计算作为一种实现"原始数据不出域,可用不可见"的数据流通价值的关键技术,经历了2020-2023年的高光时刻,却在2024年骤然走向低谷。从各种渠道了解到一些业内曾经风光无两的隐私计算公司都有不同程度的裁员。几乎一夜之间,行业的重心转向了数据要素流通平台和公共数据运营平台,不管是巨头,还是创业公司,企业不再仅仅标榜自己是"隐私计算公司",而是更强调自己是作为"数据要素生态运营公司"。并且各方都在狂降成本和探索应用出路,比如某巨头由于员工成本超高,不太可能采用定制的模式输出,开源是最佳的解决方案,同时与各大高校合作,吸引大量的本科生和研究生作为代码贡献者,参与到开源平台的建设,降低开发成本。并且通过开源,形成事实性的行业标准和范本,行业内很多机构都相继提出了需要与某开源的平台能够实现互联互通。此外,通过产学研合作等方式扩大数据源合作和前沿技术研究,在保持技术和业务增长的同时可以进一步降低成本。这就是当前的行业现状,大家都在谋求可行的出路。
事实上,我反倒认为隐私计算企业在这样的变革中愈加成熟了。若隐私计算仅被视为一项技术,可能其影响更多局限于学术领域。尤其在2020-2022年间,行业和各类大型机构对隐私计算的认知大多聚焦在技术本身,竞相比拼技术指标,你追我赶,好不热闹。这个现象像极了大模型行业,百模大战、竞技场PK,只要开源一款新的版本大模型就声称自己在某种程度上超过了GPT某个系列的大模型。但是大模型企业有一个很清晰的认知,一开始公司就定位自己的核心业务形态,比如to C需要做哪些, to B又需要往哪方面加强,并且比如AI六小虎的融资金额够充足。公司也划分为模型预训练、AI架构、AI应用等核心部门,大模型作为一种技术,需要探索落地应用的方向和场景,找到愿意付费的群体。回到隐私计算本身,如果技术无法用于解决实际业务问题、实现持续应用,它的价值终究难以持久,融资也迟早会耗尽。数据要素运营场景的出现,其实是为隐私计算找到了业务应用场景。数据要素运营的范围更广、需求更多元,数据的分类分级也更加复杂,隐私计算则在其中作为专门应对高密级数据的技术解决方案,成为数据要素生态的一环。
当然,某些企业在隐私计算的场景应用其实还挺丰富的,也有一系列的落地成果,同行评价也比较高,今天就不展开说这块。本文主要是希望探讨隐私计算在应用层面的更多可能性, 跳出原先的金融风控、广告营销的狭小应用范围。
2. 隐私计算应用场景
2.1 隐私数据存储与计算
隐私数据存储,实现大型公司系统数据的可用不可见。能够为业务提供安全合规的解决方案。这里面也会涉及到高并发的分布式系统建设,解决数据存储和计算的安全合规问题等。隐私数据存储和计算,或者说采用隐私计算去支撑系统研发,本身就是一整套的解决方案,涉及密码学、算法、研发、架构等多方面,是系统性的工程,比如下图的处理模式【1,2】。
以下列出的是一些可能的技术应用方向,仅供参考。
1. 隐私数据存储
加密存储:使用加密算法对敏感数据进行存储加密,密钥通过硬件安全模块或分布式密钥管理系统进行保护,从而实现"不可见"的数据存储。所有数据在保存和提取时都需解密和加密处理,以防止数据泄露。
分布式加密数据库:采用支持数据加密和分区存储的分布式数据库系统,确保高并发环境下的数据读取和存储稳定、安全。
数据分层与分级管理:将数据按敏感级别划分(如公开、内部、敏感、机密等),并根据数据级别应用相应的存储和加密策略,以提高存储合规性和安全性。
去标识化与匿名化:将敏感标识信息去标识化或进行匿名化处理,进一步降低数据泄露的隐私风险。
2. 隐私保护计算
这里仅仅做简单介绍,详细的隐私计算算法介绍可以参考隐私计算专栏
同态加密计算:同态加密允许在加密数据上直接执行计算,不需要将数据解密即可完成计算任务。
多方安全计算(MPC):在涉及跨部门或跨公司计算的数据时,通过多方安全计算技术实现数据的联合计算。各方只提供数据的部分信息,计算的中间数据对所有参与方不可见。
可信执行环境(TEE):采用可信执行环境来隔离敏感数据计算。通过硬件级别的隔离,保证计算过程中数据在内存中的安全,防止外部环境的篡改和窥探。
联邦学习:联合建模和协作分析的场景。通过联邦学习框架在各个数据源本地训练模型,服务端仅聚合模型参数,不会获取数据本身,实现数据协同分析。
3. 分布式系统架构设计
分布式存储与负载均衡:利用分布式存储和负载均衡机制,确保在高并发下的稳定性和数据处理能力,同时可以通过分布式加密存储方案加强数据的安全性。
高并发数据访问控制:在高并发场景中,利用分布式锁和分级授权管理,严格控制对敏感数据的访问。基于角色和属性的访问控制机制,保证数据的访问权限划分清晰。
数据流监控与日志审计:在数据流通过分布式系统处理过程中,通过日志记录和实时监控,对所有访问和操作进行记录上链,便于合规审查,发现异常行为时可实时告警并采取措施。
4. 合规与安全策略
合规加密算法和标准:确保所用的加密算法、数据保护技术符合行业安全合规要求,以确保数据使用的合规性。
动态数据安全:使用动态访问控制策略,根据数据使用场景、访问频率和敏感级别动态调整数据的加密策略和访问策略,满足不同业务的安全需求。
安全策略隔离:对于不同的业务模块,通过微服务隔离或网络隔离实现数据的隔离和访问控制,避免不同业务间的数据越界访问。
访问权限审计:定期进行隐私数据访问权限的审计,确保访问权限的合理性,并根据业务变化及时调整权限。
5. 高效的数据存储与计算框架
数据分区与缓存:对高频访问的隐私数据进行分区和缓存处理,以减轻分布式系统下的存储压力,减少对后端数据库的直接访问,提升高并发环境中的计算效率。
边缘计算:在数据存储和计算场景中引入边缘计算,通过数据源边缘节点进行预处理和聚合,减少对中心化服务端的访问请求,优化高并发场景下的数据流处理。
2.2 Web3+隐私计算
2.2.1 Web3.0概念解析
什么是Web3?【3】给出了一些定义。Web3.0其实是应对零信任交互系统需求不断增加而产生的。将信息交给某种主体(比如电商平台、社交网站、云平台等)本身是一种根本上存在缺陷的模式。机构不干涉我们数据的概率只是所需的努力减去预期收益,但考虑到大多数组织的收入模式需要尽可能多地了解用户,这就存在一种现实性的矛盾,在利益面前,总是会有主体突破某种限制。
Web 3.0,重新构想对Web的使用方式,但其交互模式有着根本性的不同。将假定为公共的信息发布出来,假定需要共识的信息放入共识账本中,而假定为私密的信息则严格保密。所有通信都将通过加密信道,并只用伪匿名身份进行传输,不涉及可追踪信息(如IP地址)。简而言之,通过数学手段设计系统来实现我们原有的假设,因为没有任何组织能够真正被信任。
Web3.0主要包含四个方面:静态内容发布、动态消息、无信任交易和集成用户界面。第一部分是去中心化加密的信息发布系统。它通过一个信息的哈希返回该信息本身。一旦下载,可以确保这是正确的信息,因为地址是与之相关的。第二部分是基于身份的伪匿名低层消息系统,用于网络中的人与人之间的通信。采用强加密,以确保消息可以用身份的公钥加密,确保仅该身份能解密,且发送者可用私钥签名来证明消息确实来自于自己,并为接收者提供安全的通信回执。Web 3.0的第三部分是共识引擎。共识引擎是一种达成互动规则的手段。Web 3.0中,所有信任的信息发布与更改都将通过共识引擎来完成,比如以太坊。Web 3.0的第四部分是整合以上组件的用户界面------"浏览器"。包含URI栏、后退按钮以及页面显示区域,但与传统网页不同,Web 3.0中的应用以共识引擎解决的名称为入口。使用信息发布系统,可以扩展为一组前端所需的文件。
2.2.2 Web3.0与隐私计算关系
隐私保护是维护用户权利的基石,也是Web3的重要发展方向之一。在开放且用户主导的Web3,隐私保护是一种标配。在日益复杂的交互环境中,很多关键信息需要外部保障来防止隐私信息被恶意利用。Web3提倡还权于用户,构建去中心化的价值互联网,改变Web2时代用户隐私被忽视的现状。在Web3中,隐私不仅需要保密性,也需要实现匿名性,涵盖数据隐私、身份隐私和计算隐私等多个方面。数据隐私和身份隐私的解决方案会逐渐成熟,基本实现数据内容的隐私保护和物理身份与数字身份的隔离。
比如多方安全计算(MPC)拓展至Web3领域,将去中心化数据所有权与隐私保护技术无缝结合。确保高度安全的在线环境,同时保护了个人的数据自主权。在Web3.0与MPC的交汇点上,用户可以掌控自己的私密数据【5】。比如TEE机密计算在Web3应用中可以建立可信的去中心化系统,无需盲目信任,通过机密计算验证数据和过程,增强了用户对系统的信任。在不暴露数据的前提下使用数据。增强智能合约功能,使智能合约可以安全访问敏感数据,支持复杂的去中心化应用场景。赋予个体数据主权,个人可以共享数据而不失去控制权,进一步保障数据隐私【6】。此外,零知识证明特别适合匿名身份管理,在Web3中,去中心化身份是一个重要的领域。零知识证明可以让用户证明他们拥有某些特定属性(例如年龄、国籍等),但不透露完整身份信息。
这里给一个具体应用案例:Web 3.0 场景下的MPC 钱包。MPC 钱包是基于多方计算方法创造的数字加密货币钱包的子工具。它们允许多个用户创建一个联合钱包来存储数字资产,而不会出现单点故障。在实际应用中,用户可独立访问、操作和修改 MPC 钱包,而不会泄露彼此的身份或将共享的数字资产置于危险之中。
2.3 物联网+隐私计算
物联网(IoT)整合了数十亿个由不同组织和个人所拥有的设备,利用这些物联网设备提供的信息,为解决以前太大太难的互联网规模问题提供了机会。物联网应用(IoT)有可能获取敏感的用户数据,就像其他基于网络的信息系统一样,IoT也必须应对大量网络安全和隐私威胁,这些威胁甚至可能将整个行业的数据甚至国家的数据作为人质,如下图监控设备例子所示【8】。
IoT必须有效地应对这些威胁,并确保从IoT设备收集和提炼的信息的安全和隐私。IoT分为设备层、基础设施/平台层和应用层,需要确保在这三个IoT层之间端到端隐私。隐私保护技术利用多个IoT云数据存储来保护从IoT收集的数据的隐私。【9】提出了一套隐私保护的IoT架构和概念验证实现。
2.4 大模型+隐私计算
关于隐私计算与大模型的结合,出发点主要有两个:
(1)高质量数据的消耗殆尽,未来可能需要更多私域的高质量数据,而私域数据一般不出域,需要利用隐私计算技术,来实现多方高质量数据的训练应用。
(2)大模型本身存在的一些隐私保护风险。比如敏感场景下用户的prompt需要进行保护,或者大模型自身的关键模型参数需要保护。
之前,我们在《大模型的安全由隐私计算来保护》、《全同态加密应用场景案例(隐私云计算中的大模型推理)》中介绍了隐私计算技术在大模型训练、预测等场景的应用案例。
【10】对大模型中隐私保护进行了分类。红色表示各种攻击技术,蓝色代表通过处理训练数据或模型来保护隐私的当前可行方案。最后,橙色标注的是现有的隐私保护工具。
除了我们之前文章中介绍的案例外,这里再给三个新的应用案例(24年发表),帮助理解如何利用隐私计算技术实现大模型的隐私保护处理。
【10】中提到采用差分隐私技术,在模型中,通常是通过在训练梯度中加入噪声(DP-SGD)来实现隐私保护。但在语言模型的所有训练参数的梯度中添加噪声往往成本较高。因此参数高效微调技术可以减少训练参数的数量,从而降低在这些梯度上应用差分隐私的成本。
【11】涉及关于敏感用户指令的处理方法。大模型应用的服务提供商在真实环境中收集用户指令,并利用这些指令进一步调整模型,使其更符合用户意图。但是,这些指令可能包含敏感信息,并在数据标注过程中被人工处理,导致隐私优化无法解决的新隐私风险。因此提出使用合成指令替代真实指令进行数据标注和模型微调。通过使用经过隐私微调的生成器生成合成指令,可确保差分隐私。为了实现所需的实用性,设计过滤算法使合成指令的分布与真实指令的分布相匹配。在有监督微调和基于人类反馈的强化学习中,合成指令集效果可与真实指令相媲美。
【12】提出了一种两方密态推理框架 Nimbus,专门用于 Transformer 神经网络的隐私保护推理,为 Transformer 神经网络中线性层的矩阵乘法及非线性层的激活函数提出了针对性的加速,比如线性层采用基于外积编码的高效矩阵乘法协议、非线性层采用输入分布感知的分段多项式拟合,针对那些出现概率较高的区间给予更精细的拟合,而对于低概率出现的区间,则允许其存在一定程度上的拟合误差。该框架在保护模型和用户数据隐私的前提下,实现了高效的推理过程,支撑大模型的隐私推理场景。
3. 参考材料
【1】dsMTL: a computational framework for privacy-preserving, distributed multi-task machine learning
【2】Privacy-Preserving Distributed Energy Resource Control with Decentralized Cloud Computing
【4】Web3.0知识要点
【5】Securing the future of data privacy with multiparty computation
【6】Secure and Private Data Processing in Web3: A Deep Dive into Arcium and Confidential Computing
【7】MQX 在 Web 3.0 领域的应用:MPC 钱包安全交易方案
【8】Privacy-Preserving Protocols for Smart Cameras and Other IoT Devices
【9】Privacy preserving Internet of Things: From privacy techniques to a blueprint architecture and efficient implementation
【10】Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions
【11】Privacy-Preserving Instructions for Aligning Large Language Models
【12】Nimbus: Secure and Efficient Two-Party Inference for Transformers