引言
TableStructureRec 仓库是用来对文档中表格做结构化识别的推理库,包括来自 PaddleOCR 的表格结构识别算法模型、来自阿里读光有线和无线表格识别算法模型等。
该仓库将表格识别前后处理做了完善,并结合 OCR,保证表格识别部分可直接使用。
该仓库会持续关注表格识别这一领域,集成最新最好用的表格识别算法,争取打造最具有落地价值的表格识别工具库。
欢迎大家持续关注。
在这里,我们做的工作主要包括以下两点:
- 将模型转换为 ONNX 格式,便于部署
- 完善后处理代码,与 OCR 识别模型整合,可以保证输出结果为完整的表格和对应的内容
lineless_table_rec: 无线表格识别库
lineless_table_rec
库源于阿里读光-LORE 无线表格结构识别模型。
该模型主要解决无线表格结构识别问题,具体包括文档中涉及到一些三线表之类表格结构识别。对于有线的表格支持较差。
安装
bash
pip install lineless_table_rec
使用
python
from lineless_table_rec import LinelessTableRecognition
engine = LinelessTableRecognition()
img_path = "tests/test_files/lineless_table_recognition.jpg"
table_str, elapse = engine(img_path)
print(table_str)
print(elapse)
结果
wired_table_rec:有线表格识别库
wired_table_rec
库源于阿里读光-表格结构识别-有线表格。
该模型主要解决拍照和截屏场景下有线结构识别问题。
安装
bash
pip install wired_table_rec
使用
python
from wired_table_rec import WiredTableRecognition
table_rec = WiredTableRecognition()
img_path = "tests/test_files/wired/table_recognition.jpg"
table_str, elapse = table_rec(img_path)
print(table_str)
print(elapse)
结果
写在最后
目前 PaddleOCR 中表格识别暂未整理到这个仓库中,后续会整理进来。
欢迎持续关注。
仓库地址:TableStructureRec