PP-OCR与文心一言强强结合,无须训练,信息抽取精度超80%!

众所周知,文本图像的智能分析面临诸多挑战。首先,文本图像的场景非常多样 ,比如论文、书籍、说明书、合同等,模型的泛化性难以满足要求。其次,有的场景比较复杂 ,比如生僻字、表格和多页PDF 等,模型难以达到理想的精度。最后,部署繁琐,模型部署涉及诸多技术细节,影响落地效率。

在大模型时代,LLM会带来怎样的帮助呢?

近期,我们发布了一个融合了文心一言和PP-OCRv4的文档图像信息抽取神器------PP-ChatOCRv2。一个SDK,覆盖20+ 高频应用场景,支持5 文本图像智能分析能力和部署,包括通用场景关键信息抽取(快递单、营业执照和机动车行驶证等)、复杂文档场景关键信息抽取(解决生僻字、特殊标点、多页PDF、表格等难点问题)、通用OCR、文档场景专用OCR、通用表格识别。此外针对垂类业务场景,也支持模型训练、微调和Prompt优化。让我们先看看效果。

PP-ChatOCRv2 效果速览

PP-ChatOCRv2在线体验传送门:

https://aistudio.baidu.com/application/detail/10368

PP-ChatOCRv2有四方面特色:

  • 场景丰富: 支持5种智能文本图像分析能力,覆盖20+高频应用场景,尤其针对复杂文档场景进行了专项优化。
  • 精准度高: 「PP-OCR」与「文心一言」强强结合,支持 1.5万+大字库,专项优化生僻字、多页PDF、 表格等难题。无需训练即可在20+场景关键息抽取平均准确率达80%以上。
  • 一键部署: 一键获取PP-ChatOCRv2离线部署SDK,助力企业快速实现工程落地。
  • 便捷开发: 针对垂类业务场景,可灵活替换微调后的OCR模型,支持自定义Prompt优化。

下面我们将详细介绍这款神器的特色。

场景丰富

PP-ChatOCRv2支持的5种智能文本图像分析能力如下表所示:

覆盖以下20+高频应用场景:营业执照、机动车行驶证、驾照、车检证、增值税发票、高速发票、商场发票、火车票、航空电子行程单(飞机发票)、快递单号、快车/出租车行程单、身份证、社保卡、银行卡、名片、身份证、社保卡、户口本、结婚证、出生证、房产证、港澳通行证、台湾通行证、保险单、银行电子回单等。此外,PP-ChatOCRv2 针对复杂文档场景进行了专项优化。

精准度高

PP-ChatOCRv2通用文本图像智能分析系统由OCR系统和文心大模型串联完成,OCR系统中集成了文本检测、文本识别、版面分析、表格识别等多个功能,可实现CPU/GPU上的实时预测,在通用场景上达到80%+的平均准确率。文心大语言模型可以将海量数据和知识融合,准确率高且应用广泛。

PP-ChatOCRv2的技术流程如下图所示:首先输入预测图片,送入通用OCR系统,经过版面分析后,预测图像中的文字信息和表格结构。将OCR预测出的文字、表格结构与Query之间进行向量检索,得到与Query相关的文本信息。然后送入Prompt生成器重新组合成Prompt,最终传给大模型获得预测结果。

PP-ChatOCRv2 技术流程图

一键部署

PP-ChatOCRv2 的部署非常简单,选择好部署环境,一键获取SDK部署包。一个SDK,通过不同配置文件,完成5种智能文本图像分析任务推理。目前支持部署在Linux 操作系统,使用NVIDIA GPU和X86 CPU推理,后续规划适配到更多国产硬件,并且提供服务化部署和端侧部署能力。

便捷开发

除上述特色外,这款神器也提供了便捷的二次开发功能,可灵活替换微调后的OCR模型,支持自定义Prompt优化。通过UI界面点击和少量文本内容修改,即可便捷地完成二次开发:

  • Prompt优化:通过配置文件的方式暴露必要接口,开发者可以通过配置文件选择场景模版、修改few-shot指令,通过少量的代码即可完成特定场景的预处理和后处理,减小开发成本。
  • OCR模型优化:PaddleX支持用户基于自有数据进行OCR模型的训练微调,进而替换PP-ChatOCRv2中的OCR模型,获得更优的推理效果。

Prompt优化示意

OCR 模型微调示意

PaddleX是面向国内外主流AI硬件的,全流程、高效率的飞桨精选AI模型的一站式AI开发套件,目前覆盖10+主流AI任务下的40+精选模型全流程开发,提供了PP-ChatOCRv2、大模型半监督学习工具和PP-TSv2三大特色工具。PP-ChatOCRv2作为一个通用文本图像智能分析工具,旨在为大家带来LLM加持下的效率提升。

PP-ChatOCRv2 工具首页:

https://aistudio.baidu.com/projectdetail/paddlex/7050167

加入PaddleX官方频道,和大家一起讨论PP-ChatOCRv2开发经验,传送门:

https://aistudio.baidu.com/community/channel/610

相关推荐
昨日之日20061 小时前
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
人工智能·whisper·语音识别
浮生如梦_1 小时前
Halcon基于laws纹理特征的SVM分类
图像处理·人工智能·算法·支持向量机·计算机视觉·分类·视觉检测
深度学习lover1 小时前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
热爱跑步的恒川2 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
阡之尘埃4 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
孙同学要努力6 小时前
全连接神经网络案例——手写数字识别
人工智能·深度学习·神经网络
Eric.Lee20216 小时前
yolo v5 开源项目
人工智能·yolo·目标检测·计算机视觉
其实吧37 小时前
基于Matlab的图像融合研究设计
人工智能·计算机视觉·matlab
丕羽7 小时前
【Pytorch】基本语法
人工智能·pytorch·python
ctrey_7 小时前
2024-11-1 学习人工智能的Day20 openCV(2)
人工智能·opencv·学习