人工智能结合模板实现表格信息提取

一、项目介绍

本项目基于是OCR（文本识别）、表格识别的人工智能技术应用，通过表格识别，实现快速制作模板；模板单元格信息，结合OCR识别结果，将表格内容提取为结构化信息输出。与KIE（Key Information Extraction，关键信息抽取）模型对比，本项目准确率更高，效率更快，占用资源更小，能大大提升用户将非结构化的数据转化为结构化数据的质量。

二、技术要点

PaddleOCR，百度飞桨开源的OCR文字识别工具库
Table Detection，基于Cycle-CenterNet的表格识别
OpenCV，开源、跨平台的计算机视觉库

三、视频展示

四、操作流程

制作模板

运行模板制作工具WlkrLabel
文件 -> 打开，选择模板所在路径文件夹
人工智能 -> 表格检测
- Anchor锚点，用于定位表格，修正图片偏移，适用于如扫描件、照片等，减少因图片位置偏移带来的错误
- 单元格Region，适合文字居中的情况
- 文字Region，适合文字非居中的情况
选中的蓝色单元，为程序推理得出的锚点，其他颜色单元格则为与锚点一一配对的待提取内容
检查模板，由于无法做到100%准确，需要手动修正，如删除多余单元格，修正错误字等
确认模板无误后，点击右下角"确认"按钮
对于空白表单也能识别，但是效果会稍差
完成所有图片模板的制作后，按Ctrl + S保存结果（或者文件 -> 导出标记结果）