AI 实战 - 文档处理(pdf/work/md/txt...)

文档处理

pdf文档

简介

  • 流程:PDF文档 → 水印检测与去除 → 文本提取 → 图片提取 → 表格提取 → 结构化输出

  • 文档类型 :电子PDF,

    PDF文档分为两种类型,处理策略完全不同:

    电子PDF:由办公软件直接生成的PDF,包含可编辑的文本层。推荐使用 PyMuPDF 直接提取(性能最好),表格提取需 PyMuPDF 1.23.0+ 版本。

    扫描件PDF:由扫描仪生成的PDF,本质是图片集合,没有文本层,必须通过OCR识别。推荐使用 PaddleOCR(中文识别最佳)或 Tesseract。

水印

水印在 PDF 中的存在形式主要有三种:

  • 文本水印(如"草稿"、"机密"等文字)
  • 图像水印(公司 Logo、背景图等)
  • 动态生成的水印(添加在 PDF 图层上的印章或注释)

扫描件

-扫描件本质上是图片集合,文档中没有可编辑的文字层,必须依赖图像处理和OCR技术

Nanonets-OCR-s

一站式OCR大模型,推荐)

Nanonets-OCR-s是基于Qwen2.5-VL-3B微调的开源视觉语言模型,一次解析直接输出文档中的文本、表格、图片、水印、公式、签名等所有内容,输出为结构化Markdown格式

复制代码
核心能力:

    检测并提取水印文本(输出到 <watermark> 标签内)

提取复杂表格并转换为Markdown/HTML表格

生成图像描述(输出到 标签内)

识别数学公式并转换为LaTeX

限制:输入必须是图像,需先将PDF转换为图片(使用 pdf2image 库)

部署:模型权重已开源在 Hugging Face:nanonets/Nanonets-OCR-s

相关推荐
Muyuan19983 小时前
22.让 RAG Agent 更像真实产品:聊天页面优化、PDF 上传、知识库重建与检索片段展示
python·django·pdf·fastapi
打小就很皮...6 小时前
html2canvas + jsPDF 生成 PDF 的踩坑与解决方案总结
前端·pdf
优化控制仿真模型7 小时前
27考研数学一、二、三历年真题及答案解析PDF电子版(1987-2026年)
经验分享·pdf
huluang7 小时前
解决 Adobe Acrobat 裁剪 PDF 后内容仍存留的问题
pdf
其实秋天的枫7 小时前
27考研数学一、二、三历年真题及答案解析PDF电子版(1987-2026年)
经验分享·pdf
其实秋天的枫8 小时前
【2026专四】英语专业四级TEM4历年真题及答案电子版PDF(2009-2025年)
经验分享·pdf
SunnyDays10118 小时前
如何使用 Python 将 PDF 转换为 TIFF 或将 TIFF 转换为 PDF
人工智能·python·pdf
优化控制仿真模型8 小时前
26年新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf
明如正午9 小时前
转换pdf文件为md文件【markitdown+pdf4llm】
python·pdf·markitdown·pdf4llm