今日项目对接,甲方要求提供个人与公司签署的合同扫描 PDF 文件。合同内包含薪资等敏感隐私信息,需要做脱敏处理。市面各类在线 PDF 脱敏工具大多收费高昂,且处理效果粗糙、排版易错乱,并不适用。
其实 PDF 工具普遍收费,核心原因在于:PDF 属于固定版式文档,底层仅存储坐标、字体、图形信息,并无标准文字段落结构;加上 PDF 官方规范繁杂庞大,同时存在大量闭源私有格式,还要兼容加密 PDF、扫描图片 PDF、双层 PDF、矢量内容、公式排版、内嵌字体等各类场景,技术研发、格式适配、长期迭代维护成本极高。
而扫描件类 PDF 本质就是图片格式,无需复杂 PDF 底层解析,直接提取页面图片、对敏感区域做涂抹遮挡,再重新合成 PDF 即可,全程本地免费处理,安全便捷、不留痕迹。
我写了一个读取图片的小工具:



工具下载地址:【免费】pdf内容提取图片提取资源-CSDN下载
https://download.csdn.net/download/hanbo79/92821082