PP-OCR与文心一言强强结合,无须训练,信息抽取精度超80%!

众所周知,文本图像的智能分析面临诸多挑战。首先,文本图像的场景非常多样 ,比如论文、书籍、说明书、合同等,模型的泛化性难以满足要求。其次,有的场景比较复杂 ,比如生僻字、表格和多页PDF 等,模型难以达到理想的精度。最后,部署繁琐,模型部署涉及诸多技术细节,影响落地效率。

在大模型时代,LLM会带来怎样的帮助呢?

近期,我们发布了一个融合了文心一言和PP-OCRv4的文档图像信息抽取神器------PP-ChatOCRv2。一个SDK,覆盖20+ 高频应用场景,支持5 文本图像智能分析能力和部署,包括通用场景关键信息抽取(快递单、营业执照和机动车行驶证等)、复杂文档场景关键信息抽取(解决生僻字、特殊标点、多页PDF、表格等难点问题)、通用OCR、文档场景专用OCR、通用表格识别。此外针对垂类业务场景,也支持模型训练、微调和Prompt优化。让我们先看看效果。

PP-ChatOCRv2 效果速览

PP-ChatOCRv2在线体验传送门:

https://aistudio.baidu.com/application/detail/10368

PP-ChatOCRv2有四方面特色:

  • 场景丰富: 支持5种智能文本图像分析能力,覆盖20+高频应用场景,尤其针对复杂文档场景进行了专项优化。
  • 精准度高: 「PP-OCR」与「文心一言」强强结合,支持 1.5万+大字库,专项优化生僻字、多页PDF、 表格等难题。无需训练即可在20+场景关键息抽取平均准确率达80%以上。
  • 一键部署: 一键获取PP-ChatOCRv2离线部署SDK,助力企业快速实现工程落地。
  • 便捷开发: 针对垂类业务场景,可灵活替换微调后的OCR模型,支持自定义Prompt优化。

下面我们将详细介绍这款神器的特色。

场景丰富

PP-ChatOCRv2支持的5种智能文本图像分析能力如下表所示:

覆盖以下20+高频应用场景:营业执照、机动车行驶证、驾照、车检证、增值税发票、高速发票、商场发票、火车票、航空电子行程单(飞机发票)、快递单号、快车/出租车行程单、身份证、社保卡、银行卡、名片、身份证、社保卡、户口本、结婚证、出生证、房产证、港澳通行证、台湾通行证、保险单、银行电子回单等。此外,PP-ChatOCRv2 针对复杂文档场景进行了专项优化。

精准度高

PP-ChatOCRv2通用文本图像智能分析系统由OCR系统和文心大模型串联完成,OCR系统中集成了文本检测、文本识别、版面分析、表格识别等多个功能,可实现CPU/GPU上的实时预测,在通用场景上达到80%+的平均准确率。文心大语言模型可以将海量数据和知识融合,准确率高且应用广泛。

PP-ChatOCRv2的技术流程如下图所示:首先输入预测图片,送入通用OCR系统,经过版面分析后,预测图像中的文字信息和表格结构。将OCR预测出的文字、表格结构与Query之间进行向量检索,得到与Query相关的文本信息。然后送入Prompt生成器重新组合成Prompt,最终传给大模型获得预测结果。

PP-ChatOCRv2 技术流程图

一键部署

PP-ChatOCRv2 的部署非常简单,选择好部署环境,一键获取SDK部署包。一个SDK,通过不同配置文件,完成5种智能文本图像分析任务推理。目前支持部署在Linux 操作系统,使用NVIDIA GPU和X86 CPU推理,后续规划适配到更多国产硬件,并且提供服务化部署和端侧部署能力。

便捷开发

除上述特色外,这款神器也提供了便捷的二次开发功能,可灵活替换微调后的OCR模型,支持自定义Prompt优化。通过UI界面点击和少量文本内容修改,即可便捷地完成二次开发:

  • Prompt优化:通过配置文件的方式暴露必要接口,开发者可以通过配置文件选择场景模版、修改few-shot指令,通过少量的代码即可完成特定场景的预处理和后处理,减小开发成本。
  • OCR模型优化:PaddleX支持用户基于自有数据进行OCR模型的训练微调,进而替换PP-ChatOCRv2中的OCR模型,获得更优的推理效果。

Prompt优化示意

OCR 模型微调示意

PaddleX是面向国内外主流AI硬件的,全流程、高效率的飞桨精选AI模型的一站式AI开发套件,目前覆盖10+主流AI任务下的40+精选模型全流程开发,提供了PP-ChatOCRv2、大模型半监督学习工具和PP-TSv2三大特色工具。PP-ChatOCRv2作为一个通用文本图像智能分析工具,旨在为大家带来LLM加持下的效率提升。

PP-ChatOCRv2 工具首页:

https://aistudio.baidu.com/projectdetail/paddlex/7050167

加入PaddleX官方频道,和大家一起讨论PP-ChatOCRv2开发经验,传送门:

https://aistudio.baidu.com/community/channel/610

相关推荐
一水鉴天10 分钟前
为AI聊天工具添加一个知识系统 之65 详细设计 之6 变形机器人及伺服跟随
人工智能
井底哇哇6 小时前
ChatGPT是强人工智能吗?
人工智能·chatgpt
Coovally AI模型快速验证6 小时前
MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
人工智能·算法·yolo·目标检测·机器学习·计算机视觉·目标跟踪
AI浩7 小时前
【面试总结】FFN(前馈神经网络)在Transformer模型中先升维再降维的原因
人工智能·深度学习·计算机视觉·transformer
可为测控7 小时前
图像处理基础(4):高斯滤波器详解
人工智能·算法·计算机视觉
一水鉴天7 小时前
为AI聊天工具添加一个知识系统 之63 详细设计 之4:AI操作系统 之2 智能合约
开发语言·人工智能·python
倔强的石头1067 小时前
解锁辅助驾驶新境界:基于昇腾 AI 异构计算架构 CANN 的应用探秘
人工智能·架构
佛州小李哥8 小时前
Agent群舞,在亚马逊云科技搭建数字营销多代理(Multi-Agent)(下篇)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
说私域8 小时前
社群裂变+2+1链动新纪元:S2B2C小程序如何重塑企业客户管理版图?
大数据·人工智能·小程序·开源
程序猿阿伟9 小时前
《探秘鸿蒙Next:如何保障AI模型轻量化后多设备协同功能一致》
人工智能·华为·harmonyos