PDF图片和表格等信息提取开源项目

文章目录



综合性工具

PDF-Extract-Kit - opendatalab开发的综合工具包,包含布局检测、公式检测、公式识别和OCR功能

  • 仓库:opendatalab/PDF-Extract-Kit
  • 特点:功能全面,包含表格内容提取的StructEqTable模块

marker - VikParuchuri开发的高精度PDF转换工具,支持将PDF转换为markdown和JSON格式

  • 仓库:VikParuchuri/marker
  • 特点:支持表格、公式、链接、代码块等结构化提取,性能优秀

专门的表格提取工具

pdfplumber - Jeremy Singer-Vine开发的详细PDF分析工具,可以提取文本和表格

  • 仓库:jsvine/pdfplumber
  • 特点:提供字符级别的详细信息,表格提取功能强大

TableExtractor-Advanced-PDF-Table-Extraction - 专门用于从扫描PDF文档中提取表格的Python项目,使用OCR和图像处理技术

  • 仓库:Baskar-forever/TableExtractor-Advanced-PDF-Table-Extraction

Table-extraction-from-PDF-and-Images - 支持从PDF和图片中提取表格数据到CSV或XML格式

  • 仓库:anudeep-20/Table-extraction-from-PDF-and-Images

pdf-table-extract - ashima开发的PDF页面表格提取工具

  • 仓库:ashima/pdf-table-extract

经典工具

camelot-py - 虽然搜索结果中没有显示,但这是最受欢迎的PDF表格提取库之一

  • 仓库:camelot-dev/camelot
  • 特点:专门用于表格提取,准确度高

tabula-py - Tabula的Python封装

  • 仓库:chezou/tabula-py
  • 特点:简单易用,适合快速提取表格
相关推荐
孤客网络科技工作室8 分钟前
Python - 100天从新手到大师:第二十七天Python操作PDF文件
开发语言·python·pdf
Bella_chene10 小时前
Excel转PDF不分页
pdf·excel
RuiyuanZHOU10 小时前
tkinter+pymupdf开发的简单pdf查看编辑器
pdf·tkinter·pymupdf
诗句藏于尽头10 小时前
关于win11的Microsoft To Pdf打印机修改端口后无法再刷新显示于设备界面的问题
pdf
Time_Memory_cici10 小时前
Wiley出版社WileyNJDv5_Template模板编译不能生成PDF解决办法
pdf
NON-JUDGMENTAL2 天前
《Local_Pdf_Chat_RAG 深度学习笔记:PDF 本地化对话的 RAG 原理与实践》
笔记·pdf
Metaphor6922 天前
Java 旋转 PDF 页面:使用 Spire.PDF 实现高效页面处理
java·经验分享·pdf
拓端研究室2 天前
专题:2025零售数字化与即时零售竞争洞察报告|附130+份报告PDF、数据仪表盘汇总下载
pdf·零售
精致先生3 天前
多模态PDF解析
pdf·大模型·rag
啦啦9117143 天前
Print Conductor打印软件安装教程!一款非常好用的批量打印软件!支持PDF、Word、Excel、图片等
pdf·excel