文档处理
pdf文档
简介
-
流程:PDF文档 → 水印检测与去除 → 文本提取 → 图片提取 → 表格提取 → 结构化输出
-
文档类型 :电子PDF,
PDF文档分为两种类型,处理策略完全不同:
电子PDF:由办公软件直接生成的PDF,包含可编辑的文本层。推荐使用 PyMuPDF 直接提取(性能最好),表格提取需 PyMuPDF 1.23.0+ 版本。
扫描件PDF:由扫描仪生成的PDF,本质是图片集合,没有文本层,必须通过OCR识别。推荐使用 PaddleOCR(中文识别最佳)或 Tesseract。
水印
水印在 PDF 中的存在形式主要有三种:
- 文本水印(如"草稿"、"机密"等文字)
- 图像水印(公司 Logo、背景图等)
- 动态生成的水印(添加在 PDF 图层上的印章或注释)
扫描件
-扫描件本质上是图片集合,文档中没有可编辑的文字层,必须依赖图像处理和OCR技术
Nanonets-OCR-s
一站式OCR大模型,推荐)
Nanonets-OCR-s是基于Qwen2.5-VL-3B微调的开源视觉语言模型,一次解析直接输出文档中的文本、表格、图片、水印、公式、签名等所有内容,输出为结构化Markdown格式
。
核心能力:
检测并提取水印文本(输出到 <watermark> 标签内)
提取复杂表格并转换为Markdown/HTML表格
生成图像描述(输出到 标签内)
识别数学公式并转换为LaTeX
限制:输入必须是图像,需先将PDF转换为图片(使用 pdf2image 库)
部署:模型权重已开源在 Hugging Face:nanonets/Nanonets-OCR-s