pdf文件脱敏处理(1)-扫描版本的PDF

今日项目对接,甲方要求提供个人与公司签署的合同扫描 PDF 文件。合同内包含薪资等敏感隐私信息,需要做脱敏处理。市面各类在线 PDF 脱敏工具大多收费高昂,且处理效果粗糙、排版易错乱,并不适用。

其实 PDF 工具普遍收费,核心原因在于:PDF 属于固定版式文档,底层仅存储坐标、字体、图形信息,并无标准文字段落结构;加上 PDF 官方规范繁杂庞大,同时存在大量闭源私有格式,还要兼容加密 PDF、扫描图片 PDF、双层 PDF、矢量内容、公式排版、内嵌字体等各类场景,技术研发、格式适配、长期迭代维护成本极高。

而扫描件类 PDF 本质就是图片格式,无需复杂 PDF 底层解析,直接提取页面图片、对敏感区域做涂抹遮挡,再重新合成 PDF 即可,全程本地免费处理,安全便捷、不留痕迹。

我写了一个读取图片的小工具:

工具下载地址:【免费】pdf内容提取图片提取资源-CSDN下载https://download.csdn.net/download/hanbo79/92821082

相关推荐
qq_369224335 天前
Windows全系通用!ntdll.dll文件丢失、报错、闪退问题的完整排查与修复教程
windows·dll·dll修复·dll丢失·dll错误
weixin_397574095 天前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
Metaphor6925 天前
使用 Python 将 PDF 转换为 HTML
python·pdf·html
2601_961845155 天前
粉笔行测5000题电子版|pdf|解析
pdf·新媒体运营·github·个人开发·内容运营·规格说明书·极限编程
阿米亚波5 天前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
Sour5 天前
PDF翻译卡住不动怎么办?扫描件、OCR 和大文件排查清单
前端·pdf·ocr
caimouse5 天前
Reactos 第 10 章 网络操作 — 10.3.1 NIC驱动
网络·windows
初圣魔门首席弟子5 天前
Node.js 详细介绍(知识库版)
windows·qt·node.js·知识库
CHENG-JustDoIt5 天前
AI工具 | 爆火开源项目Odysseus AI 工作台:从项目介绍、部署情况及其使用等多方位分析指南(含详细步骤)
大数据·人工智能·windows·python·ai·开源·github
kingbal5 天前
Windows:flutter环境搭建
windows·flutter