TableStructureRec: 表格结构识别推理库来了

引言

TableStructureRec 仓库是用来对文档中表格做结构化识别的推理库,包括来自 PaddleOCR 的表格结构识别算法模型、来自阿里读光有线和无线表格识别算法模型等。

该仓库将表格识别前后处理做了完善,并结合 OCR,保证表格识别部分可直接使用。

该仓库会持续关注表格识别这一领域,集成最新最好用的表格识别算法,争取打造最具有落地价值的表格识别工具库。

欢迎大家持续关注。

在这里,我们做的工作主要包括以下两点:

  1. 将模型转换为 ONNX 格式,便于部署
  2. 完善后处理代码,与 OCR 识别模型整合,可以保证输出结果为完整的表格和对应的内容

lineless_table_rec: 无线表格识别库

lineless_table_rec库源于阿里读光-LORE 无线表格结构识别模型

该模型主要解决无线表格结构识别问题,具体包括文档中涉及到一些三线表之类表格结构识别。对于有线的表格支持较差。

安装

bash 复制代码
pip install lineless_table_rec

使用

python 复制代码
from lineless_table_rec import LinelessTableRecognition

engine = LinelessTableRecognition()

img_path = "tests/test_files/lineless_table_recognition.jpg"
table_str, elapse = engine(img_path)

print(table_str)
print(elapse)

结果

wired_table_rec:有线表格识别库

wired_table_rec库源于阿里读光-表格结构识别-有线表格

该模型主要解决拍照和截屏场景下有线结构识别问题。

安装

bash 复制代码
pip install wired_table_rec

使用

python 复制代码
from wired_table_rec import WiredTableRecognition

table_rec = WiredTableRecognition()

img_path = "tests/test_files/wired/table_recognition.jpg"
table_str, elapse = table_rec(img_path)
print(table_str)
print(elapse)

结果

写在最后

目前 PaddleOCR 中表格识别暂未整理到这个仓库中,后续会整理进来。

欢迎持续关注。

仓库地址:TableStructureRec

相关推荐
机器视觉_Explorer12 小时前
【halcon】编程技巧:鼠标擦除
图像处理·人工智能·深度学习·算法·视觉检测
灵智实验室13 小时前
PX4状态估计技术EKF2详解(二):EKF2 误差状态动力学与协方差传播
算法·无人机·px 4
米粒113 小时前
力扣算法刷题 Day 64 Floyd算法 & A* 算法 & 总结篇
算法·leetcode·职场和发展
XX風13 小时前
OpenGL中Face culling 面剔除的具体实现
算法·图形渲染
IT猿手14 小时前
光伏模型参数估计:基于山羊优化算法(GOA )的光伏模型参数辨识问题求解研究,免费提供完整MATLAB代码链接
开发语言·算法·matlab·群智能优化算法·智能优化算法·光伏模型参数估计·光伏模型参数辨识
麻雀飞吧14 小时前
期货量化策略讲解:天勤量化下的跨期价差均值回归策略实战
python·算法·均值算法·回归
sali-tec15 小时前
C# 基于OpenCv的视觉工作流-章62-线线距离
图像处理·人工智能·opencv·算法·计算机视觉
WolfGang00732115 小时前
代码随想录算法训练营 Day53 | 图论 part11
算法·图论
呃呃本15 小时前
算法题(图论)
算法·图论
一只数据集15 小时前
商超上货人形机器人全身运控数据集分析——Kuavo 5机器人5W型号夹爪末端执行器操作轨迹数据
人工智能·算法·机器人