数据脱敏简介

数据脱敏（Data Masking）本质上是在保护隐私/合规 与保留数据价值之间寻找平衡。针对不同的应用场景（开发测试、数据分析、生产环境），选型逻辑截然不同。

根据技术原理和应用层级，我将常用的方案整理为以下四类：

这是最传统且应用最广的方案。它通过规则引擎对数据库中的敏感字段（如姓名、身份证、手机号）进行"洗白"，生成一份去标识化的测试数据。

常用技术 ：
- 替换：用字典中的假数据替换真数据（如将"张三"替换为"李四"）。
- 置乱/洗牌：在列内随机打乱数据（如将所有人的手机号随机交换）。
- 泛化：降低数据精度（如将具体年龄"28"泛化为"20-30岁"）。
- 抑制：直接删除或置空敏感列。
选型建议 ：当你需要将生产数据提供给开发、测试或第三方分析，且不需要追溯原始数据时，首选SDM。

DDM像是一个"数据滤镜"，它不改变底层存储的数据，而是在SQL查询返回结果的那一刻，根据用户角色实时屏蔽敏感信息。

典型应用 ：
- 客服系统：客服代表查询用户信息时，系统自动屏蔽身份证后8位。
- 数据分析平台：普通分析师只能看到城市级别的聚合数据，而特权用户能看到明细。
选型建议 ：适用于生产环境，需要对不同权限的用户（如员工、合作伙伴）展示不同颗粒度数据的场景。

这是一种"破坏性"脱敏，主要用于处理需要唯一标识但无需知道具体内容的字段。

技术对比 ：
- 哈希（如SHA-256）：不可逆。适合将手机号哈希后作为用户ID进行关联分析。
- 格式保留加密 (FPE)：可逆，且保持数据格式（如加密后的手机号依然是11位数字）。适合需要保持数据格式的业务逻辑。
选型建议 ：当你需要隐藏数据内容，但又要利用其进行数据关联或去重时，选择哈希；若需解密还原，则选FPE。

这是目前学术界和工业界在隐私保护上的"黄金标准"。它通过向查询结果（如统计均值）注入精心计算的随机噪声，使得攻击者无法通过对比查询结果推断出单个个体的信息。

你可以通过回答以下四个问题来快速定位最适合的方案：

数据给谁用？
- 开发/测试人员 ：选 静态脱敏 (SDM)，给假数据最安全。
- 生产系统用户 ：选 动态脱敏 (DDM)，按权限展示。
- 数据分析师 ：若需关联分析，选哈希；若需高精度统计，考虑 差分隐私。
是否需要还原原始数据？
- 否（测试、分析）：优先考虑静态脱敏或哈希。
- 是（特权用户查看）：必须使用动态脱敏或格式保留加密。
对数据真实性要求多高？
- 高（如金融风控）：尽量使用动态脱敏或加密，避免破坏数据分布。
- 低（如功能测试）：静态脱敏的替换、置乱技术完全够用。
是否涉及法律合规（如GDPR、个保法）？
- 是：必须采用不可逆 的脱敏方式（如哈希、假名化）或具备严格数学证明的差分隐私。简单的替换可能不被视为充分的匿名化。