PDF图片和表格等信息提取开源项目

文章目录



综合性工具

PDF-Extract-Kit - opendatalab开发的综合工具包,包含布局检测、公式检测、公式识别和OCR功能

  • 仓库:opendatalab/PDF-Extract-Kit
  • 特点:功能全面,包含表格内容提取的StructEqTable模块

marker - VikParuchuri开发的高精度PDF转换工具,支持将PDF转换为markdown和JSON格式

  • 仓库:VikParuchuri/marker
  • 特点:支持表格、公式、链接、代码块等结构化提取,性能优秀

专门的表格提取工具

pdfplumber - Jeremy Singer-Vine开发的详细PDF分析工具,可以提取文本和表格

  • 仓库:jsvine/pdfplumber
  • 特点:提供字符级别的详细信息,表格提取功能强大

TableExtractor-Advanced-PDF-Table-Extraction - 专门用于从扫描PDF文档中提取表格的Python项目,使用OCR和图像处理技术

  • 仓库:Baskar-forever/TableExtractor-Advanced-PDF-Table-Extraction

Table-extraction-from-PDF-and-Images - 支持从PDF和图片中提取表格数据到CSV或XML格式

  • 仓库:anudeep-20/Table-extraction-from-PDF-and-Images

pdf-table-extract - ashima开发的PDF页面表格提取工具

  • 仓库:ashima/pdf-table-extract

经典工具

camelot-py - 虽然搜索结果中没有显示,但这是最受欢迎的PDF表格提取库之一

  • 仓库:camelot-dev/camelot
  • 特点:专门用于表格提取,准确度高

tabula-py - Tabula的Python封装

  • 仓库:chezou/tabula-py
  • 特点:简单易用,适合快速提取表格
相关推荐
开开心心就好1 天前
批量PDF转换工具,一键转换Word Excel
开发语言·前端·学习·pdf·电脑·word·excel
老家的回忆2 天前
jsPDF和html2canvas生成pdf,组件用的elementplus,亲测30多页,20s实现
前端·vue.js·pdf·html2canvas·jspdf
Vertira2 天前
pdf 合并 python实现(已解决)
前端·python·pdf
十一0829932 天前
【PDF-XSS攻击】springboot项目-上传文件-解决PDF文件XSS攻击
spring boot·pdf·xss
qq_393828222 天前
PDF的图片文字识别工具
windows·pdf·电脑·软件需求·图片处理
wsxqaz2 天前
浏览器原生控件上传PDF导致hash值不同
算法·pdf·哈希算法
工业3D_大熊11 天前
3D模式格式转换工具HOOPS Exchange如何将3D PDF转换为STEP格式?
3d·pdf·3d格式转换·3d模型格式转换·cad格式转换·cad数据格式转换·3d模型可视化
IDRSolutions_CN12 天前
在 Java 中生成 PDF 缩略图(教程)
java·经验分享·pdf·软件工程·团队开发
IDRSolutions_CN12 天前
用Java将PDF转换成GIF
java·经验分享·pdf·软件工程·团队开发
贤和兄12 天前
使用docx4j 实现word转pdf(linux乱码处理)
linux·pdf·word