PDF图片和表格等信息提取开源项目

文章目录



综合性工具

PDF-Extract-Kit - opendatalab开发的综合工具包,包含布局检测、公式检测、公式识别和OCR功能

  • 仓库:opendatalab/PDF-Extract-Kit
  • 特点:功能全面,包含表格内容提取的StructEqTable模块

marker - VikParuchuri开发的高精度PDF转换工具,支持将PDF转换为markdown和JSON格式

  • 仓库:VikParuchuri/marker
  • 特点:支持表格、公式、链接、代码块等结构化提取,性能优秀

专门的表格提取工具

pdfplumber - Jeremy Singer-Vine开发的详细PDF分析工具,可以提取文本和表格

  • 仓库:jsvine/pdfplumber
  • 特点:提供字符级别的详细信息,表格提取功能强大

TableExtractor-Advanced-PDF-Table-Extraction - 专门用于从扫描PDF文档中提取表格的Python项目,使用OCR和图像处理技术

  • 仓库:Baskar-forever/TableExtractor-Advanced-PDF-Table-Extraction

Table-extraction-from-PDF-and-Images - 支持从PDF和图片中提取表格数据到CSV或XML格式

  • 仓库:anudeep-20/Table-extraction-from-PDF-and-Images

pdf-table-extract - ashima开发的PDF页面表格提取工具

  • 仓库:ashima/pdf-table-extract

经典工具

camelot-py - 虽然搜索结果中没有显示,但这是最受欢迎的PDF表格提取库之一

  • 仓库:camelot-dev/camelot
  • 特点:专门用于表格提取,准确度高

tabula-py - Tabula的Python封装

  • 仓库:chezou/tabula-py
  • 特点:简单易用,适合快速提取表格
相关推荐
落落鱼20135 小时前
Dompdf库html生成pdf时editor编辑器中文本长度被截断不会自动换行问题处理
pdf·编辑器·php·html生成pdf
「QT(C++)开发工程师」10 小时前
【LUA教程】LUA脚本语言中文教程.PDF
开发语言·pdf·lua
我命由我1234514 小时前
PDFBox - PDF 页面坐标系、PDF 页面尺寸获取、PDF 页面位置计算
java·服务器·开发语言·笔记·后端·java-ee·pdf
何中应1 天前
如何截取PDF内容为图片
java·开发语言·后端·pdf
njsgcs1 天前
PDF信息vlm提取excel工具
pdf·excel
星空的资源小屋2 天前
MkFont,一款开源免费的字体设计工具
网络·人工智能·pdf·电脑
开开心心就好2 天前
Word转PDF工具,免费生成图片型文档
前端·网络·笔记·pdf·word·powerpoint·excel
演绎平生2 天前
=word插入公式后行距变大怎么办?-笔记
pdf
2501_929157683 天前
Switch 20.5.0系统最新PSP模拟器懒人包
android·游戏·ios·pdf
zstar-_3 天前
FreeP2W:一个PDF转Word的CLI工具
pdf·word