PP-OCR与文心一言强强结合,无须训练,信息抽取精度超80%!

众所周知,文本图像的智能分析面临诸多挑战。首先,文本图像的场景非常多样 ,比如论文、书籍、说明书、合同等,模型的泛化性难以满足要求。其次,有的场景比较复杂 ,比如生僻字、表格和多页PDF 等,模型难以达到理想的精度。最后,部署繁琐,模型部署涉及诸多技术细节,影响落地效率。

在大模型时代,LLM会带来怎样的帮助呢?

近期,我们发布了一个融合了文心一言和PP-OCRv4的文档图像信息抽取神器------PP-ChatOCRv2。一个SDK,覆盖20+ 高频应用场景,支持5 文本图像智能分析能力和部署,包括通用场景关键信息抽取(快递单、营业执照和机动车行驶证等)、复杂文档场景关键信息抽取(解决生僻字、特殊标点、多页PDF、表格等难点问题)、通用OCR、文档场景专用OCR、通用表格识别。此外针对垂类业务场景,也支持模型训练、微调和Prompt优化。让我们先看看效果。

PP-ChatOCRv2 效果速览

PP-ChatOCRv2在线体验传送门:

https://aistudio.baidu.com/application/detail/10368

PP-ChatOCRv2有四方面特色:

  • 场景丰富: 支持5种智能文本图像分析能力,覆盖20+高频应用场景,尤其针对复杂文档场景进行了专项优化。
  • 精准度高: 「PP-OCR」与「文心一言」强强结合,支持 1.5万+大字库,专项优化生僻字、多页PDF、 表格等难题。无需训练即可在20+场景关键息抽取平均准确率达80%以上。
  • 一键部署: 一键获取PP-ChatOCRv2离线部署SDK,助力企业快速实现工程落地。
  • 便捷开发: 针对垂类业务场景,可灵活替换微调后的OCR模型,支持自定义Prompt优化。

下面我们将详细介绍这款神器的特色。

场景丰富

PP-ChatOCRv2支持的5种智能文本图像分析能力如下表所示:

覆盖以下20+高频应用场景:营业执照、机动车行驶证、驾照、车检证、增值税发票、高速发票、商场发票、火车票、航空电子行程单(飞机发票)、快递单号、快车/出租车行程单、身份证、社保卡、银行卡、名片、身份证、社保卡、户口本、结婚证、出生证、房产证、港澳通行证、台湾通行证、保险单、银行电子回单等。此外,PP-ChatOCRv2 针对复杂文档场景进行了专项优化。

精准度高

PP-ChatOCRv2通用文本图像智能分析系统由OCR系统和文心大模型串联完成,OCR系统中集成了文本检测、文本识别、版面分析、表格识别等多个功能,可实现CPU/GPU上的实时预测,在通用场景上达到80%+的平均准确率。文心大语言模型可以将海量数据和知识融合,准确率高且应用广泛。

PP-ChatOCRv2的技术流程如下图所示:首先输入预测图片,送入通用OCR系统,经过版面分析后,预测图像中的文字信息和表格结构。将OCR预测出的文字、表格结构与Query之间进行向量检索,得到与Query相关的文本信息。然后送入Prompt生成器重新组合成Prompt,最终传给大模型获得预测结果。

PP-ChatOCRv2 技术流程图

一键部署

PP-ChatOCRv2 的部署非常简单,选择好部署环境,一键获取SDK部署包。一个SDK,通过不同配置文件,完成5种智能文本图像分析任务推理。目前支持部署在Linux 操作系统,使用NVIDIA GPU和X86 CPU推理,后续规划适配到更多国产硬件,并且提供服务化部署和端侧部署能力。

便捷开发

除上述特色外,这款神器也提供了便捷的二次开发功能,可灵活替换微调后的OCR模型,支持自定义Prompt优化。通过UI界面点击和少量文本内容修改,即可便捷地完成二次开发:

  • Prompt优化:通过配置文件的方式暴露必要接口,开发者可以通过配置文件选择场景模版、修改few-shot指令,通过少量的代码即可完成特定场景的预处理和后处理,减小开发成本。
  • OCR模型优化:PaddleX支持用户基于自有数据进行OCR模型的训练微调,进而替换PP-ChatOCRv2中的OCR模型,获得更优的推理效果。

Prompt优化示意

OCR 模型微调示意

PaddleX是面向国内外主流AI硬件的,全流程、高效率的飞桨精选AI模型的一站式AI开发套件,目前覆盖10+主流AI任务下的40+精选模型全流程开发,提供了PP-ChatOCRv2、大模型半监督学习工具和PP-TSv2三大特色工具。PP-ChatOCRv2作为一个通用文本图像智能分析工具,旨在为大家带来LLM加持下的效率提升。

PP-ChatOCRv2 工具首页:

https://aistudio.baidu.com/projectdetail/paddlex/7050167

加入PaddleX官方频道,和大家一起讨论PP-ChatOCRv2开发经验,传送门:

https://aistudio.baidu.com/community/channel/610

相关推荐
artificiali2 小时前
Anaconda配置pytorch的基本操作
人工智能·pytorch·python
酱香编程,风雨兼程3 小时前
深度学习——基础知识
人工智能·深度学习
Lossya3 小时前
【机器学习】参数学习的基本概念以及贝叶斯网络的参数学习和马尔可夫随机场的参数学习
人工智能·学习·机器学习·贝叶斯网络·马尔科夫随机场·参数学习
#include<菜鸡>4 小时前
动手学深度学习(pytorch土堆)-04torchvision中数据集的使用
人工智能·pytorch·深度学习
程序员-杨胡广4 小时前
从0-1 用AI做一个赚钱的小红书账号(不是广告不是广告)
人工智能
AI进修生4 小时前
全新WordPress插件简化成功之路
人工智能·语言模型·自然语言处理
GG_Bond194 小时前
【项目设计】Facial-Hunter
服务器·人工智能
chnyi6_ya5 小时前
深度学习的笔记
服务器·人工智能·pytorch
知来者逆5 小时前
讨论人机交互研究中大语言模型的整合与伦理问题
人工智能·gpt·语言模型·自然语言处理·人机交互
i嗑盐の小F5 小时前
【IEEE出版,高录用 | EI快检索】第二届人工智能与自动化控制国际学术会议(AIAC 2024,10月25-27)
图像处理·人工智能·深度学习·算法·自然语言处理·自动化