涉私数据安全与可控匿名化利用机制研究(上)

文章目录


前言

当前,数据要素价值化、市场化正在积极推进,相关数据安全问题也极为突出,亟待分类分级治理。其中,涉私数据的安全保护和流通利用问题尤其值得重视。这类数据不仅承载着个人、企业等主体的核心利益,更涉及人格权、商业秘密等敏感权益,其流通利用与隐私保护存在天然张力。


一、涉私数据的概述及分类

涉私数据因包含身份识别要素而天然承载人格权益属性,需以人身属性为优先级锚点,通过"知情同意原则"实现数据来源者权益对处理行为的约束。

(一)涉私数据的"知情同意原则"

数据二十条指出:"建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制。""健全数据要素权益保护制度,逐步形成具有中国特色的数据产权制度体系。"这是针对数据处理者的权益。同时,数据二十条也指出:"充分保护数据来源者合法权益,推动基于知情同意或存在法定事由的数据流通使用模式,保障数据来源者享有获取或复制转移由其促成产生数据的权益......在保护公共利益、数据安全、数据来源者合法权益的前提下,承认和保护依照法律规定或合同约定获取的数据加工使用权,尊重数据采集、加工等数据处理者的劳动和其他要素贡献,充分保障数据处理者使用数据和获得收益的权利。"即保障数据处理者的权益以优先保障数据来源者的权益为前提,数据来源者的权益高于数据处理者的权益。按照《个人信息保护法》的原则,即数据来源者对数据的"知情权、决定权"高于数据处理者的持有权、加工使用权和数据产品经营权。

一般来说,数据权益直接涉及生产主体、关联对象和价值载体这三方面。其中,关联对象即数据二十条中的"数据来源者",欧盟为数据主体;而生产主体和价值载体则相当于"数据处理者"。所谓涉私数据,是指数据关联对象涉及私权的数据,包括个人数据、法人数据及非法人组织数据。

根据《个人信息保护法》的原则,数据来源者(即数据关联对象或数据主体,包括个人、法人及非法人组织)对数据拥有"知情权、决定权",这里也隐含了对数据的"可携带权"。此三项权利共同构成数据人身属性的三大支柱。基于数据的四维框架------主权属性、人身属性、公共属性和价值属性,其属性的位阶应遵循如下排序:主权属性>人身属性>公共属性>价值属性。从本质上看,数据依据人身属性可以分类为涉私数据和非涉私数据,前者因包含直接或间接的身份识别要素而关涉人格权益,后者则不涉及此类权益。据此,非涉私数据可作为独立客体进行数据处理,而涉私数据因涉及人格权保护,需严格遵循"知情同意原则"并经法定程序方可处理。

(二)涉私数据的分类

《个人信息保护法》区分了敏感个人信息和非敏感个人信息,《民法典》则区分了私密信息和非私密信息。在实践中,两种区分具有一致性。当前,学界存在进一步细化涉私数据分类的学术主张,甚至通过场景化区分涉私数据的私密性和敏感性。然而,这种细分路径在实务层面面临双重困境:一方面,需求侧应用场景的动态演进导致分类标准难以固化;另一方面,供给侧数据治理需兼顾操作可行性与制度稳定性。鉴于此,应当回归法律的实践逻辑,从数据分类和敏感分级角度,涉私数据的私密性和敏感性应当视同。

涉私数据依据私密性和敏感性可以分为四类:敏感(私密)个人数据、敏感(私密)法人/组织数据、非敏感(非私密)个人数据,以及非敏感(非私密)法人/组织数据。根据数据二十条和《个人信息保护法》要求,涉私数据的处理及流通需以"知情同意"或"法定事由"为前提。其中,敏感数据需叠加隐私保护和涉私数据保护双重机制,仅可在特定使用场景下经关联对象单独授权后方可处理;非敏感数据需要受到涉私数据保护,经关联对象授权后进行处理。

二、涉私数据可控匿名化利用机制

为平衡涉私数据的隐私保护与价值利用,需构建以可信数据空间为核心的可控匿名化机制,通过在受控环境中处理逻辑真实数据并辅以映射关系表及授权还原,实现数据的合法合规应用。

(一)数据产品与涉私数据的利用形式

数据的价值在于应用,而数据产品是从数据到应用的唯一桥梁。数据产品可以分为分析类数据产品和个体化数据产品。前者是指嵌入数据产品的数据均不具有人身属性的数据产品,即只涉及非涉私数据(包括涉私数据匿名化后的数据)的数据产品;后者是指包含具有人身属性的数据嵌入的数据产品,即涉及涉私数据的数据产品,需要在应用场景中由数据关联对象授权方可使用。相应地,涉私数据的应用有两种形式:一是通过匿名化转化为非涉私数据后用于分析类数据产品。当然,将数据用于分析类用途,例如,统计分析本身也是一种匿名化的过程,此说法主要针对大样本,而小样本的情形有可能还原出原始数据,因而需要先进行匿名化再分析。二是直接用于个体化数据产品。前者需要保证可靠的匿名化处理,后者需要基于以可信数据空间为核心和边界的数据基础设施(数据平台)进行数据产品化,将涉私数据嵌入,并在应用场景中由关联对象授权后处理和利用。

(二)通过可信数据空间受控环境实现涉私数据可控匿名化处理

数据脱敏是一种在保持数据原有特征和业务属性的同时,对敏感信息进行变形处理的技术机制。该技术旨在安全地使用经过脱敏处理的真实数据集,防止敏感数据在测试、开发、数据分析等环节中因明文显示而导致的数据泄露风险。数据脱敏的核心手段包括去标识化和匿名化。《个人信息保护法》明确界定:去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。匿名化,是指个人信息经过处理无法识别特定自然人且不能复原的过程。

值得关注的是,不仅分析类数据产品需要涉私数据的匿名化,个体化数据产品在生产过程中,为了避免个体数据在关联对象授权之前为数据产品开发者泄露,也需要某种程度的数据脱敏,此即涉私数据的可控匿名化。

鉴于关联对象仅在应用场景实际调用个体化数据产品时方完成授权及权益让渡,而授权前涉私数据需严格遵循"数据不出域"原则,这就需要通过"扩大安全域"并"请进来"相关数据处理者,依托以可信数据空间为核心和边界的数据基础设施(即数据平台),借助其公共化基础组件实现私有域数据向公共域的合规流转。此时,"数据不出域"的边界便拓展至可信数据空间的公共域范畴,在该受控环境下可开展数据预处理工作,即利用域内具备"供得出、流得动"特性的样例数据和逻辑真实数据,开发形成数据产品框架或模型原型。需特别阐明的是,个体化数据产品并非静态存在,而是通过前述预处理流程生成的产品框架或模型系统。只有在个体化数据产品面向特定应用场景进入实质使用阶段,在获取关联对象即时授权的同时,涉私数据将瞬时注入预置的产品框架或模型系统,经实时计算输出服务结果,由此完成"授权-计算-服务"的一体化价值闭环。这种基于时空约束的动态授权与即时计算相结合的机制(瞬间集成),正是个体化数据产品实现安全合规应用的核心特征。

由此可见,在数据平台内数据产品开发者并不直接接触真实的涉私数据,而是基于脱敏后的逻辑真实数据或样例数据进行个体化数据产品开发。这一机制有效避免了数据产品开发者在关联对象授权前接触真实的涉私数据,切实保障了关联对象的数据权益。

(三)可控匿名化机制实现涉私数据的合法合规利用

所谓逻辑真实数据是指与原始数据业务逻辑一致的脱敏数据,可以在数据开发中具备与真实数据同等的使用效能。从真实原始数据到逻辑真实数据有一个映射关系表。这里利用了假名化技术,这是一种使用假名替换直接标识(或其他敏感标识符)的去标识化技术。假名化技术为每条数据创建唯一的标识符,以取代原来的直接标识或敏感标识符(如身份证号码)。同时,假名化后的逻辑真实数据因为和原始数据有相同的业务逻辑,其用于真实的个体化数据产品的效果是一样的。因此,基于逻辑真实数据开发的数据产品本质上即为真实的个体化数据产品。当个体化数据产品在实际运行于应用场景时,需在关联对象授权的前提下,将逻辑真实数据替换为真实原始数据,即通过脱敏处理时的映射关系表进行逆向映射,实现从逻辑真实数据到真实原始数据的还原。此时,个体化数据产品在真实应用场景中调用的是真实原始数据,能够即时完成集成并输出服务结果。

从真实原始数据到逻辑真实数据的数据脱敏就是可控匿名化。所谓可控匿名化,是指数据在可控环境中的部分匿名化:对于"请进来"的数据处理者(包括数据产品开发者、第三方数据服务者等),经假名化等脱敏技术处理后的逻辑真实数据已具备不可还原、不可回溯至原始数据的特性,此类数据处理者可以将这些数据按照非涉私数据进行处理,包括数据产品开发;但对于掌控着映射关系表的可信数据空间运营者而言,逻辑真实数据可以还原为原始数据,故不属于匿名化范畴,且仅能在真实应用场景中经关联对象授权后实施还原操作。通过这一机制,数据产品开发者对逻辑真实数据的处理行为合法合规,而可信数据空间运营者在关联对象授权前提下将逻辑真实数据还原为原始数据的操作亦符合规范,从而确保涉私数据的合法合规使用。

可控匿名化机制的关键在于"可控性",具体体现为对映射关系表进行严格的访问控制和使用控制,即便系统管理员也无法擅自还原映射关系,仅当获得关联对象授权时方可执行还原操作。在技术层面可以采用加密方式生产假名等;在管理层面则需明确可信数据空间运营者的法律责任,并由数据管理机构对其实施监管,确保可控匿名化机制"可信可追溯"。


相关推荐
聚客AI3 小时前
💥下一代推理引擎:vLLM如何重塑AI服务架构?
人工智能·架构·llm
在钱塘江3 小时前
LangGraph从新手到老师傅 - 4 - StateGraph条件边详解
人工智能·python
wanhengidc3 小时前
使用云手机进行游戏搬砖划算吗?
运维·服务器·网络·安全·游戏·智能手机
stjiejieto3 小时前
中小企业 AI 转型难?成本、技术、人才三重困境下,轻量化解决方案来了
人工智能
Ronin-Lotus3 小时前
深度学习篇---SGD+Momentum优化器
人工智能·深度学习·机器学习
在钱塘江3 小时前
LangGraph从新手到老师傅 - 3 - StateGraph基础入门
人工智能·python
洛阳泰山3 小时前
MaxKB4j智能体平台 Docker Compose 快速部署教程
java·人工智能·后端
m0_738120723 小时前
CTFshow系列——命令执行web73-77(完结篇)
前端·安全·web安全·网络安全·ctfshow
Christo33 小时前
TFS-2005《A Possibilistic Fuzzy c-Means Clustering Algorithm》
人工智能·算法·机器学习