任意PDF与图片的批量信息提取软件 OCR 识别加大模型

之前好几个朋友问我是否可以提取一些很少见的票据的信息到Excel, 比如国外的飞机票,或者国外的保险单,或者工厂地秤的票据,如果单独为这些少见的票据写定制的代码其实很麻烦,所以今天花了点时间做了一个通用的信息提取工具

0 软件做什么用的?

比如你有一堆同样格式!同样格式!同样格式! 的发票或飞机票或者地铁票或者保险单或者其他任意文件(目前支持PDF和图片),需要批量把里面的某些信息提取出来,

比如所有发票或飞机票的金额,或者保险单的金额以及其他细节等等,那么就可以使用这个软件

1 怎么使用软件?

直接打开用就会使用了,很简单,只有三个按照顺序点击的按钮,按照步骤来即可, 可以直接先使用,不会的话再来看说明

把你需要提取信息的PDF或者图片放在一个文件夹里面,

然后打开软件,等待界面出现,有点慢

第一步,软件里面选择这个文件夹

第二步,点击软件的识别样本按钮,软件就会识别你的第一个文件,然后返回所有的信息和字段,你在这个步骤之后可以选择你需要提取的字段

第三步,点击软件的批量识别提取按钮,等待所有信息提取完成即可,结果会自动保存在你的第一步的文件夹

2 和之前软件最大的不同点在哪里?

不仅仅支持发票了,支持任意票据,任意PDF和图片格式的文档;

并且采用了不同的技术路线,这次使用的是OCR加大模型的技术路线,之前是使用的是电子PDF内部数据直接解析的方案

所以可以混合使用,根据你的实际数据情况和需求来

PS:很多人分不清什么是电子PDF,什么是非电子的PDF,简单说就是如果PDF里面的文字你可以用鼠标选中,那就是电子格式的,可以直接解析读取内部数据,如果是一整张照片那样的就是非电子格式的PDF,可以把它看作一张张图片组成的PDF,这种就只能通过OCR来识别

下载地址:

链接:https://pan.baidu.com/s/1WQQ8kaDilaagjoK5IrYZzA

提取码:1111

相关推荐
AI人工智能+6 小时前
智能文档抽取系统以专业的文档解析底座和大模型智能语义理解能力为核心,洞察文档的语义内涵与逻辑结构
深度学习·自然语言处理·ocr·文档抽取
Sour10 小时前
【无标题】aPPT 翻译后保留版式的流程:文本框、图片、母版和动画检查
pdf·powerpoint
无心水11 小时前
27、私有化部署|PaddleOCR-Server 本地OCR服务搭建
金融·pdf·ocr·pdf解析·pdf抽取·pdf提取·ocr服务
开开心心就好16 小时前
解决截图被拦截黑屏问题的免费小工具
安全·智能手机·flink·kafka·pdf·音视频·1024程序员节
软件工程小施同学17 小时前
CCF A区块链论文分享-NDSS 2026(2)-CtPhishCapture:揭露针对加密货币钱包的基于凭证窃取的网络钓鱼诈骗(附pdf)
网络·pdf·区块链
2601_9618451517 小时前
2026法考资料pdf|电子版|资料已整理
开发语言·前端框架·pdf·c#·xhtml·csrf·view design
qq_4221525717 小时前
PDF 解密工具怎么选?2026 年文档密码移除方案与注意事项
java·前端·pdf
情绪总是阴雨天~17 小时前
OCR光学字符识别技术:完整原理与实战学习笔记
笔记·学习·ocr
Sour17 小时前
Word 文档翻译后保留格式的检查清单:标题、表格、图片、目录和批注
pdf·word·办公软件·office·文档翻译
Sour18 小时前
扫描版 PDF 翻译流程:OCR 识别、译文校对和排版保留
pdf·ocr