PDF图片和表格等信息提取开源项目

文章目录



综合性工具

PDF-Extract-Kit - opendatalab开发的综合工具包,包含布局检测、公式检测、公式识别和OCR功能

  • 仓库:opendatalab/PDF-Extract-Kit
  • 特点:功能全面,包含表格内容提取的StructEqTable模块

marker - VikParuchuri开发的高精度PDF转换工具,支持将PDF转换为markdown和JSON格式

  • 仓库:VikParuchuri/marker
  • 特点:支持表格、公式、链接、代码块等结构化提取,性能优秀

专门的表格提取工具

pdfplumber - Jeremy Singer-Vine开发的详细PDF分析工具,可以提取文本和表格

  • 仓库:jsvine/pdfplumber
  • 特点:提供字符级别的详细信息,表格提取功能强大

TableExtractor-Advanced-PDF-Table-Extraction - 专门用于从扫描PDF文档中提取表格的Python项目,使用OCR和图像处理技术

  • 仓库:Baskar-forever/TableExtractor-Advanced-PDF-Table-Extraction

Table-extraction-from-PDF-and-Images - 支持从PDF和图片中提取表格数据到CSV或XML格式

  • 仓库:anudeep-20/Table-extraction-from-PDF-and-Images

pdf-table-extract - ashima开发的PDF页面表格提取工具

  • 仓库:ashima/pdf-table-extract

经典工具

camelot-py - 虽然搜索结果中没有显示,但这是最受欢迎的PDF表格提取库之一

  • 仓库:camelot-dev/camelot
  • 特点:专门用于表格提取,准确度高

tabula-py - Tabula的Python封装

  • 仓库:chezou/tabula-py
  • 特点:简单易用,适合快速提取表格
相关推荐
程序视点1 分钟前
PDF转Word免费工具!批量处理PDF压缩,合并, OCR识别, 去水印, 签名等全功能详解
pdf·pdf压缩·pdf编辑软件·pdf转换器·免费pdf工具·pdf转word免费工具·批量处理pdf的软件推荐
mixiumixiu12 小时前
免费 PDF 转 Word 工具:无水印 / 支持批量转换,本地运行更安全【附工具下载】
pdf
Humbunklung15 小时前
C# WPF 实现读取文件夹中的PDF并显示其页数
pdf·c#·wpf·npoi·gemini·itext
全栈技术负责人1 天前
前端静态资源优化
前端·性能优化·pdf
SEO-狼术2 天前
Find Content Fast in PDF Documents
pdf
Hi202402172 天前
支持OCR和AI解释的Web PDF阅读器:解决大文档阅读难题
pdf·flask·llm·ocr·阅读器
VB5942 天前
《考研 考证 各学科 各专业 思维导图汇总》PDF 5.2GB
考研·pdf
软件工程小施同学3 天前
计算机学报 2025年 区块链论文 录用汇总 附pdf下载
pdf·区块链
VB5943 天前
《中国传世名画》《中国传世山水画》《中国传世人物画》百科全书式的中国名画,PDF,294M
pdf
家庭云计算专家3 天前
ONLYOFFICE深度解锁系列.13-如何复制、重新排序 PDF 页面:onlyoffice 9.0.3 新功能
pdf·onlyoffice·协作空间·onlyoffice开发版·onlyoffice新功能·onlyoffice开发者版