AI 实战 - 文档处理(pdf/work/md/txt...)

文档处理

pdf文档

简介

  • 流程:PDF文档 → 水印检测与去除 → 文本提取 → 图片提取 → 表格提取 → 结构化输出

  • 文档类型 :电子PDF,

    PDF文档分为两种类型,处理策略完全不同:

    电子PDF:由办公软件直接生成的PDF,包含可编辑的文本层。推荐使用 PyMuPDF 直接提取(性能最好),表格提取需 PyMuPDF 1.23.0+ 版本。

    扫描件PDF:由扫描仪生成的PDF,本质是图片集合,没有文本层,必须通过OCR识别。推荐使用 PaddleOCR(中文识别最佳)或 Tesseract。

水印

水印在 PDF 中的存在形式主要有三种:

  • 文本水印(如"草稿"、"机密"等文字)
  • 图像水印(公司 Logo、背景图等)
  • 动态生成的水印(添加在 PDF 图层上的印章或注释)

扫描件

-扫描件本质上是图片集合,文档中没有可编辑的文字层,必须依赖图像处理和OCR技术

Nanonets-OCR-s

一站式OCR大模型,推荐)

Nanonets-OCR-s是基于Qwen2.5-VL-3B微调的开源视觉语言模型,一次解析直接输出文档中的文本、表格、图片、水印、公式、签名等所有内容,输出为结构化Markdown格式

复制代码
核心能力:

    检测并提取水印文本(输出到 <watermark> 标签内)

提取复杂表格并转换为Markdown/HTML表格

生成图像描述(输出到 标签内)

识别数学公式并转换为LaTeX

限制:输入必须是图像,需先将PDF转换为图片(使用 pdf2image 库)

部署:模型权重已开源在 Hugging Face:nanonets/Nanonets-OCR-s

相关推荐
驯龙高手_追风16 小时前
Adobe Acrobat PDF阅读器设置默认滚动翻页
adobe·pdf·adobe acrobat reader·adobe reader
优化控制仿真模型1 天前
【26年社工】初级社会工作者历年真题及答案PDF电子版(2010-2025年)
经验分享·pdf
ComPDFKit1 天前
PDF发票生成怎么做?从零到服务化落地的完整指南
pdf·pdf生成·文件生成·发票生成
weixin_441003641 天前
【2026年最新】初级社会工作者(社工)考试历年真题及答案解析电子版pdf(2010-2025年)
pdf
优化控制仿真模型1 天前
【26年7月】日语N1、N2、N3、N4、N5历年真题及答案PDF电子版(2010-2025年12月)
经验分享·pdf
jianwuhuang821 天前
智谱清言怎么导出pdf
人工智能·chatgpt·pdf·豆包·deepseek·ai导出鸭
daanpdf1 天前
专科英语A级和B级考试历年真题试卷及答案PDF电子版
pdf
南风微微吹2 天前
2015-2025年英语四级历年真题及答案解析电子版PDF(含听力音频)
pdf·英语四级
Metaphor6922 天前
使用 Python 将 Excel 转换为 PDF
python·pdf·excel
daanpdf2 天前
考研英语一历年真题及答案解析PDF(2010-2026)百度网盘
考研·pdf