移动云大云海山数据库(He3DB)postgresql_anonymizer插件原理介绍与安装

海山数据库(He3db)postgresql_anonymizer插件原理介绍与安装

1. 引言

在数据驱动的业务场景中，PostgreSQL作为主流开源关系型数据库，存储了大量包含用户隐私、商业机密等敏感信息的数据，如身份证号、手机号、银行卡号、客户联系方式等。为满足《个人信息保护法》《数据安全法》等法规要求，同时支撑开发测试、数据分析、第三方数据共享等场景的安全需求，需对敏感数据实施有效保护。

动态数据脱敏（Dynamic Data Masking，DDM）作为核心数据安全技术之一，可在数据查询、传输过程中实时对敏感数据进行脱敏处理，既保证脱敏后数据的可用性（如格式与原数据一致），又防止敏感信息泄露，且不改变数据库中存储的原始数据。postgresql_anonymizer是一款专为PostgreSQL设计的动态数据脱敏插件，支持多种脱敏规则与灵活的权限控制，能无缝集成到PostgreSQL生态中。本文将详细阐述PostgreSQL兼容该插件实现动态数据脱敏的原理、插件特性、安装过程。

2. PostgreSQL与postgresql_anonymizer动态数据脱敏兼容原理

postgresql_anonymizer基于PostgreSQL的查询重写（Query Rewriting）、自定义操作符（Operator）及角色权限控制等核心机制实现动态数据脱敏，不修改PostgreSQL内核架构，仅通过插件扩展方式介入查询执行流程，核心原理可分为以下4个关键环节：

2.1 脱敏规则元数据管理

插件通过扩展PostgreSQL系统表，新增脱敏规则相关的元数据存储结构，如在pg_attribute（列属性表）中关联脱敏函数标识、脱敏策略类型等信息，或创建独立的系统视图（如pg_anonymizer_rules）维护表、列与脱敏规则的映射关系。当用户为某列绑定脱敏规则时，插件会将规则信息持久化到元数据中，供查询重写时调用。

2.2 查询语句重写机制

这是插件实现动态脱敏的核心环节。当用户执行查询语句时，PostgreSQL的查询解析器会先将SQL转换为抽象语法树（AST），插件通过注册的查询重写钩子（Hook）拦截AST，结合元数据中的脱敏规则和当前查询用户的权限，对AST进行实时修改：

若查询列已绑定脱敏规则，且当前用户无敏感数据访问权限（未被授予pg_anonymizer_unmask角色），插件会将查询语句中的原始列名替换为"原始列名 + 脱敏函数"的组合形式，例如将SELECT phone FROM user_info重写为SELECT mask_phone(phone) FROM user_info。
若当前用户拥有敏感数据访问权限，插件不修改AST，确保用户能获取原始数据。

重写后的AST会被提交给PostgreSQL查询优化器，生成执行计划并执行，最终返回脱敏后的数据（或原始数据）。

2.3 脱敏函数与策略实现

插件内置丰富的脱敏函数库，涵盖常见敏感数据类型的脱敏需求，如手机号掩码、身份证号部分替换、姓名脱敏等。这些脱敏函数本质是PostgreSQL的自定义函数，遵循PostgreSQL函数调用规范，可直接嵌入查询语句中执行。同时，插件支持自定义脱敏策略，用户可通过创建自定义函数并绑定到目标列，实现符合业务场景的脱敏逻辑。

2.4 权限控制与访问审计

插件基于PostgreSQL的角色权限体系实现脱敏权限管控：

默认创建pg_anonymizer_unmask系统角色，拥有该角色的用户可访问原始敏感数据，无该角色的用户仅能获取脱敏后的数据。
支持通过GRANT/REVOKE语句管理脱敏权限，例如GRANT pg_anonymizer_unmask TO dba_user;为管理员授予原始数据访问权限。
部分场景下可集成PostgreSQL的审计日志功能，记录敏感数据的访问行为，包括访问用户、查询语句、访问时间等，便于合规审计。

2.5 架构流程

图1 postgresql_anonymizer脱敏流程架构图

postgresql_anonymizer插件的整体工作流程可归纳为三大核心链路：动态查询脱敏、静态数据脱敏与脱敏规则管理。三者协同工作，共同构成完整的数据脱敏防护体系，具体流程如上图所示。

（1）动态脱敏执行链路（SELECT查询）

当用户执行SELECT查询时，系统首先检查当前会话的search_path配置。若路径中包含mask Schema（即用户未授予pg_anonymizer_unmask角色权限），查询将被路由至与原始表同结构的掩码视图（Masking View）。该视图通过查询重写机制，自动将原始列引用替换为"脱敏函数(原始列)"的形式（如mask_phone(phone)），经函数计算后返回脱敏后的数据（如138****5678）。反之，若search_path不包含掩码Schema（特权用户），则直接访问原始表，返回未脱敏的真实数据。此过程在查询解析阶段完成，对业务应用完全透明。

（2）静态脱敏执行链路（UPDATE操作）

对于需要永久改写敏感数据的场景（如生产数据向测试环境迁移），系统通过静态脱敏流程处理。当检测到UPDATE操作且目标对象为静态脱敏策略绑定的列时，插件直接调用脱敏函数生成替换值，并永久写入磁盘存储，即使后续通过VACUUM FULL也无法恢复原始数据。若未配置静态脱敏规则，则执行标准UPDATE逻辑，保持数据原貌。

（3）脱敏规则管理链路（DDL配置）

架构图右侧展示了脱敏规则的持久化机制。管理员通过SECURITY LABEL FOR anon DDL语句为列或角色绑定脱敏策略时，规则信息被写入PostgreSQL系统表pg_seclabel中存储。这些元数据随表结构同步备份，在插件加载时自动解析并激活，为上述动态/静态脱敏链路提供策略依据，实现了"配置一次，全局生效"的统一管理。

上述三条链路分别对应权限控制、数据转换与策略存储三个维度，共同实现了海山数据库中敏感数据的全生命周期保护。

3. postgresql_anonymizer插件核心特性

3.1 轻量级无侵入式集成

插件采用PostgreSQL标准插件扩展方式开发，无需修改数据库内核代码，安装后仅通过查询重写钩子介入查询流程，不影响数据库原有事务性能、存储结构及其他核心功能。支持PostgreSQL 10及以上版本，兼容性良好，可快速集成到现有PostgreSQL部署环境中。

3.2 丰富的脱敏策略与函数

postgresql_anonymizer内置多种脱敏策略，覆盖主流敏感数据场景，核心脱敏函数如下表所示：

|-------------------------------------------------------|-----------|---------------------------------------------|--------------------------------------------------|
| 脱敏函数 | 适用数据类型 | 脱敏逻辑 | 示例（原始→脱敏后） |
| mask_phone(phone text) | 手机号（11位） | 保留前3位和后4位，中间4位替换为* | 13812345678→138****5678 |
| mask_idcard(idcard text) | 身份证号（18位） | 保留前6位和后4位，中间8位替换为* | 110101199001011234→110101********1234 |
| mask_name(name text) | 姓名 | 单字名保留全字，双字名保留姓、名替换为*，三字及以上保留姓和最后一字，中间替换为* | 张三→张*；李四明→李*明 |
| mask_email(email text) | 邮箱地址 | 保留用户名前2位和域名，中间替换为* | zhangsan@example.com→zh****@example.com |
| random_int(min int, max int) | 整数 | 生成指定范围内的随机整数替换原始值 | 100→156（若min=100, max=200） |
| partial_mask(val text, keep_left int, keep_right int) | 任意字符串 | 自定义保留左、右两侧字符数，中间替换为* | 12345678→12****78（keep_left=2, keep_right=2） |

同时支持自定义脱敏函数，用户可根据业务需求编写PL/pgSQL函数实现特殊脱敏逻辑。

3.3 细粒度权限控制

基于PostgreSQL角色体系实现多维度权限管控：

列级脱敏权限：可针对表中不同列分别配置脱敏规则，实现"敏感列脱敏、非敏感列正常显示"的细粒度控制。
角色级访问控制：通过pg_anonymizer_unmask角色区分"脱敏访问"和"原始访问"，普通开发、测试用户默认仅能获取脱敏数据，管理员通过授权可获取原始数据。
会话级临时授权：支持通过SET ROLE语句临时切换角色，实现临时访问原始数据的需求，会话结束后权限自动回收。

3.4 动态实时脱敏与数据可用性平衡

插件在查询执行时实时脱敏，不修改数据库中存储的原始数据，既保证了生产环境数据的完整性，又确保脱敏后数据的格式与业务场景匹配（如脱敏后的手机号仍为11位，可用于开发测试中的格式校验）。相比静态脱敏（提前生成脱敏数据集），避免了数据冗余和同步成本，同时支持实时数据的脱敏查询。

3.5 支持批量配置与批量脱敏

提供批量绑定脱敏规则的语法，支持对多张表、多列同时配置脱敏策略，例如通过ALTER TABLE ... APPLY ANONYMIZATION RULES语句批量为表中列绑定规则。同时支持对查询结果集进行批量脱敏，适配大数据量查询场景。

3.6 审计与监控支持

可与PostgreSQL的pgAudit插件等审计工具集成，记录敏感数据访问行为，包括访问用户、操作类型（查询/修改）、涉及表列、访问时间等信息。部分场景下支持脱敏规则变更日志，便于追溯规则修改记录，满足合规审计要求。

4. postgresql_anonymizer插件安装过程

4.1 安装前提条件

安装前需确保系统满足以下条件，避免兼容性问题：

PostgreSQL版本：支持PostgreSQL 10以上版本，建议使用PostgreSQL 12及以上版本以获得更好的性能。
操作系统：支持Linux（CentOS 7/8、Ubuntu 18.04/20.04、RedHat 7/8）、Windows Server 2016及以上、macOS 10.15及以上，推荐Linux系统部署。
依赖环境 ：
编译依赖：gcc（版本4.8及以上）、make、cmake（版本3.5及以上）。
PostgreSQL依赖：postgresql-devel（需与PostgreSQL版本完全一致，提供插件开发所需的头文件和库文件）。
其他依赖：libpq（PostgreSQL客户端库）、openssl（可选，用于加密脱敏规则元数据）。

权限要求：安装用户需具备PostgreSQL安装目录的读写权限，以及系统管理员权限（如Linux的root、Windows的Administrator）。

4.2 具体安装步骤

4.2.1 下载插件源码

从postgresql_anonymizer官方仓库或开源社区下载源码，推荐从GitHub官方仓库下载，命令如下（以Linux系统为例）：

|-----------------------------------------------------------------------------|
| bash # 克隆官方仓库 git clone https://github.com/dalibo/postgresql-anonymizer.git |

若无法使用git，可直接从GitHub Releases页面下载源码压缩包并解压。

4.2.2 编译与安装插件

编译前需指定PostgreSQL的pg_config工具路径（通常位于PostgreSQL安装目录的bin目录下），确保编译过程能找到正确的依赖文件，步骤如下：

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| bash # 进入源码目录（若解压后目录为postgresql-anonymizer） cd postgresql-anonymizer # 配置编译参数，指定pg_config路径（以He3pg安装在/home/he3db/he3pg为例） ./configure --with-pgconfig=/home/he3db/he3pg/bin/pg_config # 编译源码 make # 安装插件（需root权限，若为非root用户需加sudo） sudo make install |

安装成功后，插件文件（anon.so）会被复制到PostgreSQL的插件目录（如/home/he3db/he3pg/lib），同时相关的SQL脚本（如anon.sql）会被复制到PostgreSQL的扩展脚本目录（如/home/he3db/he3pg/share/extension）。

4.2.3 配置He3pg参数

修改He3pg的主配置文件postgresql.conf（通常位于PostgreSQL数据目录下），添加插件加载配置，确保插件在数据库启动时自动加载：

|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| ini # 加载postgresql_anonymizer插件（若已有其他插件，用逗号分隔） shared_preload_libraries = 'anon' # 可选：启用脱敏日志（记录脱敏规则应用情况，默认关闭） anon.log_masking = on # 可选：设置默认脱敏函数的替换字符（默认为*） anon.default_mask_char = '*' |

若需对特定数据库单独配置，可在数据库级通过ALTER DATABASE语句设置：ALTER DATABASE testdb SET shared_preload_libraries = 'anon';

4.2.4 重启PostgreSQL服务

配置修改后需重启PostgreSQL服务使配置生效，不同操作系统重启命令如下：

|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| bash # CentOS/RHEL系统（以PostgreSQL 14为例） sudo systemctl restart postgresql-14 # Ubuntu/Debian系统 sudo service postgresql restart # Windows系统（通过服务管理器或命令行） net stop postgresql-x64-14 && net start postgresql-x64-14 |

4.2.5 安装插件扩展并验证

登录PostgreSQL数据库，执行CREATE EXTENSION语句安装插件扩展，随后验证安装是否成功：

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| sql # 登录PostgreSQL（以默认postgres用户、postgres数据库为例） psql -U postgres -d postgres # 安装anonymizer扩展 CREATE EXTENSION IF NOT EXISTS anon; # 验证插件是否安装成功（查询扩展列表，若存在anonymizer则成功） SELECT extname, extversion FROM pg_extension WHERE extname = 'anon'; # 验证脱敏函数是否可用（执行内置脱敏函数，返回脱敏结果则正常） SELECT mask_phone('13812345678') AS masked_phone; |

若查询扩展列表返回anon，且脱敏函数执行返回138****5678，则说明插件安装成功。