任意PDF与图片的批量信息提取软件 OCR 识别加大模型

点云-激光雷达-Slam-三维牙齿2025-12-05 8:50

之前好几个朋友问我是否可以提取一些很少见的票据的信息到Excel, 比如国外的飞机票，或者国外的保险单，或者工厂地秤的票据，如果单独为这些少见的票据写定制的代码其实很麻烦，所以今天花了点时间做了一个通用的信息提取工具

0 软件做什么用的？

比如你有一堆同样格式！同样格式！同样格式！的发票或飞机票或者地铁票或者保险单或者其他任意文件（目前支持PDF和图片），需要批量把里面的某些信息提取出来，

比如所有发票或飞机票的金额，或者保险单的金额以及其他细节等等，那么就可以使用这个软件

1 怎么使用软件？

直接打开用就会使用了，很简单，只有三个按照顺序点击的按钮，按照步骤来即可，可以直接先使用，不会的话再来看说明

把你需要提取信息的PDF或者图片放在一个文件夹里面，

然后打开软件，等待界面出现，有点慢

第一步，软件里面选择这个文件夹

第二步，点击软件的识别样本按钮，软件就会识别你的第一个文件，然后返回所有的信息和字段，你在这个步骤之后可以选择你需要提取的字段

第三步，点击软件的批量识别提取按钮，等待所有信息提取完成即可，结果会自动保存在你的第一步的文件夹

2 和之前软件最大的不同点在哪里？

不仅仅支持发票了，支持任意票据，任意PDF和图片格式的文档；

并且采用了不同的技术路线，这次使用的是OCR加大模型的技术路线，之前是使用的是电子PDF内部数据直接解析的方案

所以可以混合使用，根据你的实际数据情况和需求来

PS：很多人分不清什么是电子PDF，什么是非电子的PDF，简单说就是如果PDF里面的文字你可以用鼠标选中，那就是电子格式的，可以直接解析读取内部数据，如果是一整张照片那样的就是非电子格式的PDF，可以把它看作一张张图片组成的PDF，这种就只能通过OCR来识别

下载地址：

提取码：1111