AI 实战 - 文档处理(pdf/work/md/txt...)

文档处理

pdf文档

简介

  • 流程:PDF文档 → 水印检测与去除 → 文本提取 → 图片提取 → 表格提取 → 结构化输出

  • 文档类型 :电子PDF,

    PDF文档分为两种类型,处理策略完全不同:

    电子PDF:由办公软件直接生成的PDF,包含可编辑的文本层。推荐使用 PyMuPDF 直接提取(性能最好),表格提取需 PyMuPDF 1.23.0+ 版本。

    扫描件PDF:由扫描仪生成的PDF,本质是图片集合,没有文本层,必须通过OCR识别。推荐使用 PaddleOCR(中文识别最佳)或 Tesseract。

水印

水印在 PDF 中的存在形式主要有三种:

  • 文本水印(如"草稿"、"机密"等文字)
  • 图像水印(公司 Logo、背景图等)
  • 动态生成的水印(添加在 PDF 图层上的印章或注释)

扫描件

-扫描件本质上是图片集合,文档中没有可编辑的文字层,必须依赖图像处理和OCR技术

Nanonets-OCR-s

一站式OCR大模型,推荐)

Nanonets-OCR-s是基于Qwen2.5-VL-3B微调的开源视觉语言模型,一次解析直接输出文档中的文本、表格、图片、水印、公式、签名等所有内容,输出为结构化Markdown格式

复制代码
核心能力:

    检测并提取水印文本(输出到 <watermark> 标签内)

提取复杂表格并转换为Markdown/HTML表格

生成图像描述(输出到 标签内)

识别数学公式并转换为LaTeX

限制:输入必须是图像,需先将PDF转换为图片(使用 pdf2image 库)

部署:模型权重已开源在 Hugging Face:nanonets/Nanonets-OCR-s

相关推荐
m0_5474866614 小时前
华南农业大学《数据结构》期末试卷及答案2011-2019 2020-2023年PDF
大数据·数据结构·pdf·华南农业大学
ComPDFKit14 小时前
2026 PDF 表格提取工具横评:15 款工具实测对比
pdf·excel·pdf表格提取·pdf to excel·pdf数据提取
m0_5474866614 小时前
华南农业大学《C语言程序设计》期末试卷及答案2018-2025年PDF
c语言·开发语言·pdf·c语言程序设计
Metaphor6921 天前
使用 Python 给 PDF 设置背景色或背景图
数据库·python·pdf
2601_961845151 天前
新高考一卷真题2025|真题PDF全科整理
线性代数·矩阵·pdf·动态规划·概率论·高考
复园电子1 天前
企业PDF批量盖章开发集成指南:API对接OA/LIMS系统,高并发落地实战
开发语言·python·pdf
2601_961845152 天前
2026四级作文预测题|英语四级写作押题+提纲PDF
java·c语言·数据库·c++·python·pdf·php
VBA说2 天前
俄罗斯诚信码的批量识别,pdf文件也可
pdf
yuhulkjv3352 天前
Kimi如何导出pdf | AI导出鸭 独家深度测评
人工智能·ai·chatgpt·pdf·ai导出鸭
被放养的研究生2 天前
各软件中的 pt 有何不同?PDF 查看器、Draw.io 与 LaTeX 的单位陷阱
pdf·draw.io