AI 实战 - 文档处理(pdf/work/md/txt...)

程序员的记录2026-05-01 17:55

文档处理

pdf文档

pdf文档

简介

流程：PDF文档 → 水印检测与去除 → 文本提取 → 图片提取 → 表格提取 → 结构化输出
文档类型 ：电子PDF，

PDF文档分为两种类型，处理策略完全不同：

电子PDF：由办公软件直接生成的PDF，包含可编辑的文本层。推荐使用 PyMuPDF 直接提取（性能最好），表格提取需 PyMuPDF 1.23.0+ 版本。

扫描件PDF：由扫描仪生成的PDF，本质是图片集合，没有文本层，必须通过OCR识别。推荐使用 PaddleOCR（中文识别最佳）或 Tesseract。

水印

水印在 PDF 中的存在形式主要有三种：

文本水印（如"草稿"、"机密"等文字）
图像水印（公司 Logo、背景图等）
动态生成的水印（添加在 PDF 图层上的印章或注释）

扫描件

-扫描件本质上是图片集合，文档中没有可编辑的文字层，必须依赖图像处理和OCR技术

Nanonets-OCR-s

一站式OCR大模型，推荐）

Nanonets-OCR-s是基于Qwen2.5-VL-3B微调的开源视觉语言模型，一次解析直接输出文档中的文本、表格、图片、水印、公式、签名等所有内容，输出为结构化Markdown格式

。

复制代码

核心能力：

    检测并提取水印文本（输出到 <watermark> 标签内）

提取复杂表格并转换为Markdown/HTML表格

生成图像描述（输出到标签内）

识别数学公式并转换为LaTeX

限制：输入必须是图像，需先将PDF转换为图片（使用 pdf2image 库）

部署：模型权重已开源在 Hugging Face：nanonets/Nanonets-OCR-s

上一篇：AI多租户平台的物理隔离方案实践与权衡

下一篇：DISC 性格测评理论

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 10Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚