PDF图片和表格等信息提取开源项目

文章目录



综合性工具

PDF-Extract-Kit - opendatalab开发的综合工具包,包含布局检测、公式检测、公式识别和OCR功能

  • 仓库:opendatalab/PDF-Extract-Kit
  • 特点:功能全面,包含表格内容提取的StructEqTable模块

marker - VikParuchuri开发的高精度PDF转换工具,支持将PDF转换为markdown和JSON格式

  • 仓库:VikParuchuri/marker
  • 特点:支持表格、公式、链接、代码块等结构化提取,性能优秀

专门的表格提取工具

pdfplumber - Jeremy Singer-Vine开发的详细PDF分析工具,可以提取文本和表格

  • 仓库:jsvine/pdfplumber
  • 特点:提供字符级别的详细信息,表格提取功能强大

TableExtractor-Advanced-PDF-Table-Extraction - 专门用于从扫描PDF文档中提取表格的Python项目,使用OCR和图像处理技术

  • 仓库:Baskar-forever/TableExtractor-Advanced-PDF-Table-Extraction

Table-extraction-from-PDF-and-Images - 支持从PDF和图片中提取表格数据到CSV或XML格式

  • 仓库:anudeep-20/Table-extraction-from-PDF-and-Images

pdf-table-extract - ashima开发的PDF页面表格提取工具

  • 仓库:ashima/pdf-table-extract

经典工具

camelot-py - 虽然搜索结果中没有显示,但这是最受欢迎的PDF表格提取库之一

  • 仓库:camelot-dev/camelot
  • 特点:专门用于表格提取,准确度高

tabula-py - Tabula的Python封装

  • 仓库:chezou/tabula-py
  • 特点:简单易用,适合快速提取表格
相关推荐
Python大数据分析@5 小时前
我把pdfplumber整成了可以拖拉拽的web软件
前端·pdf
生而为虫10 小时前
27.Python操作PDF文件
pdf
green__apple10 小时前
扫描版PDF转换为EPUB电子书
pdf
lichong95121 小时前
《postman、apipost、smartApi 等使用与特点 3 天路线图(可打印 PDF+互动脑图)》
前端·测试工具·macos·pdf·postman·大前端·大前端++
u***28471 天前
SpringBoot实战(三十二)集成 ofdrw,实现 PDF 和 OFD 的转换、SM2 签署OFD
spring boot·后端·pdf
你挚爱的强哥2 天前
【sgSelectExportDocumentType】自定义组件:弹窗dialog选择导出文件格式word、pdf,支持配置图标和格式名称,触发导出事件
vue.js·pdf·word
shouchaobao4 天前
免费PDF工具:PDF转Word/Excel/图片+AI总结+合并拆分+OCR识别,多端无广告!
pdf·word·excel
南风微微吹4 天前
2026年最新国考《行测》《申论》历年真题及答案PDF电子版(2000-2025年)
pdf·国考
q***01775 天前
SpringBoot实战(三十二)集成 ofdrw,实现 PDF 和 OFD 的转换、SM2 签署OFD
spring boot·后端·pdf
嗯、.5 天前
使用Itext9生成PDF水印,兼容不同生成引擎的坐标系(如: Skia、OpenPDF)
java·pdf·itextpdf·openpdf·坐标变换矩阵