TableStructureRec: 表格结构识别推理库来了

引言

TableStructureRec 仓库是用来对文档中表格做结构化识别的推理库,包括来自 PaddleOCR 的表格结构识别算法模型、来自阿里读光有线和无线表格识别算法模型等。

该仓库将表格识别前后处理做了完善,并结合 OCR,保证表格识别部分可直接使用。

该仓库会持续关注表格识别这一领域,集成最新最好用的表格识别算法,争取打造最具有落地价值的表格识别工具库。

欢迎大家持续关注。

在这里,我们做的工作主要包括以下两点:

  1. 将模型转换为 ONNX 格式,便于部署
  2. 完善后处理代码,与 OCR 识别模型整合,可以保证输出结果为完整的表格和对应的内容

lineless_table_rec: 无线表格识别库

lineless_table_rec库源于阿里读光-LORE 无线表格结构识别模型

该模型主要解决无线表格结构识别问题,具体包括文档中涉及到一些三线表之类表格结构识别。对于有线的表格支持较差。

安装

bash 复制代码
pip install lineless_table_rec

使用

python 复制代码
from lineless_table_rec import LinelessTableRecognition

engine = LinelessTableRecognition()

img_path = "tests/test_files/lineless_table_recognition.jpg"
table_str, elapse = engine(img_path)

print(table_str)
print(elapse)

结果

wired_table_rec:有线表格识别库

wired_table_rec库源于阿里读光-表格结构识别-有线表格

该模型主要解决拍照和截屏场景下有线结构识别问题。

安装

bash 复制代码
pip install wired_table_rec

使用

python 复制代码
from wired_table_rec import WiredTableRecognition

table_rec = WiredTableRecognition()

img_path = "tests/test_files/wired/table_recognition.jpg"
table_str, elapse = table_rec(img_path)
print(table_str)
print(elapse)

结果

写在最后

目前 PaddleOCR 中表格识别暂未整理到这个仓库中,后续会整理进来。

欢迎持续关注。

仓库地址:TableStructureRec

相关推荐
AiXed10 分钟前
PC微信 device uuid 算法
前端·算法·微信
@木辛梓35 分钟前
指针,数组,变量
开发语言·c++·算法
苏纪云1 小时前
数据结构期中复习
数据结构·算法
flashlight_hi1 小时前
LeetCode 分类刷题:141. 环形链表
javascript·算法·leetcode
初听于你2 小时前
Java五大排序算法详解与实现
数据结构·算法·排序算法
多多*2 小时前
牛客周赛 Round 117 ABCDE 题解
java·开发语言·数据结构·算法·log4j·maven
liu****2 小时前
13.POSIX信号量
linux·开发语言·c++·算法·1024程序员节
熬夜敲代码的小N2 小时前
仓颉ArrayList动态数组源码分析:从底层实现到性能优化
数据结构·python·算法·ai·性能优化
Kt&Rs3 小时前
11.9 LeetCode 题目汇总与解题思路
算法·leetcode
ゞ 正在缓冲99%…3 小时前
leetcode1547.切棍子的最小成本
数据结构·算法·leetcode·动态规划