【工具】OCR方法|不用下载额外的软件,提取扫描中英文PDF的目录文本的最优解!(一)

需求:

1)从PDF里快速提取目录;

2)不想下载任何软件。

我提取出来的目录文本会用于嵌入到PDF中,向PDF批量添加目录的软件以及软件的使用方法可以看我上一篇文章:PDF批量插入目录

以下是我自己能想到的方案以及方案的测评结果,满星5星。

评分标准(根据目录提取的需求):

1)安装便捷性;

2)中英文字形识别率;

3)数字识别准确率;

4)保持目录格式,或只需要少量的调整;

5)使用便捷性。

最后得到的方法是QQ+GPT3.5进行目录提取。

之后还有一篇文章,会写到用Python做OCR提取,这样能把提取过程扔到服务器后台,用起来更加方便(不用打开GPT也不用打开QQ了这样就)。

用来测试的目录图片示意:

文章目录

  • 一、用现有常用软件直接导出目录
    • [1 (推荐指数☆)QQ OCR文字识别](#1 (推荐指数☆)QQ OCR文字识别)
    • [2 (推荐指数0星)GPT4 图像识别](#2 (推荐指数0星)GPT4 图像识别)
    • [3 (推荐指数0星)GPT4 AI PDF插件](#3 (推荐指数0星)GPT4 AI PDF插件)
    • [4 (推荐指数☆☆☆☆)QQ+GPT3.5结合](#4 (推荐指数☆☆☆☆)QQ+GPT3.5结合)
    • [5 (推荐指数☆☆☆☆)QQ+GPT4结合](#5 (推荐指数☆☆☆☆)QQ+GPT4结合)

一、用现有常用软件直接导出目录

这个方案是用常用的软件生成的,不需要下载其他奇怪的软件。

1 (推荐指数☆)QQ OCR文字识别

星星点

1)即开即用

2)中文的字形识别特别准确

扣星星点

1)没办法放后台运行

2)数字识别特别差,

3)格式特别乱,用来做目录提取要调整很久

识别结果:

bash 复制代码
摘要..
Abstract . . . . .......................................................[II第1章绪论...... . . . .. . .  .        
1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
.... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
i . .  i   . . ... o
第2章相关理论基础........ . .. .....................72.1密码学基础........................ ............72.1.1 密码学原理..... . . .......................。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . ........................................152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15
....................l7
2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
. . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
1K小P·    . ... . . . . . . . . . . . ...... . . .. 21
2.5本章小结........... ... .. . .. . .. .. . .
第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .

2 (推荐指数0星)GPT4 图像识别

GPT4我一直用着挺舒服的,直到碰到这个目录识别的需求。

它胡言乱语,恼火!

3 (推荐指数0星)GPT4 AI PDF插件

原本想着是不是原生的我prompt引导错了,用插件是不是就有救了,但是插件它!

压根不支持扫描PDF的识别,game over!

4 (推荐指数☆☆☆☆)QQ+GPT3.5结合

上面不是说QQ的文字识别贼精准嘛,但是目录的整理工作量很大。

但是GPT它又恰好是一个聪明的机器人,它平时胡言乱语但是正经工作不含糊。

所以可以这样:先QQ自动识别,然后一键复制给GPT,说:

bash 复制代码
订正这个目录:
摘要..
Abstract . . . . .......................................................[II第1章绪论...... . . . .. . .  .        
1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
.... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
i . .  i   . . ... o
第2章相关理论基础........ . .. .....................72.1密码学基础........................ ............72.1.1 密码学原理..... . . .......................。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . ........................................152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15
....................l7
2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
. . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
1K小P·    . ... . . . . . . . . . . . ...... . . .. 21
2.5本章小结........... ... .. . .. . .. .. . .
第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .

输出的结果GPT3:

又快又好啊!!!

扣一颗星是因为它没有弥补出部分丢失的页码信息。

5 (推荐指数☆☆☆☆)QQ+GPT4结合

同样,我还测试了GPT4的结果。

GPT4扣一颗星因为它响应比GPT3.5慢。虽然它甚至输出了缩进,但缩进在批量添加目录的软件里本来就可以自动添加,所以不构成优势。

但是优点是它补全了所有丢失的页码信息!太强了。

输出的结果GPT4:

总之,最好的方式是QQ识别+GPT3.5。

扩展阅读:【工具】FreePic2PDF+PdgCntEditor|PDF批量添加书签(Windows)

相关推荐
jump_jump9 小时前
为了重玩金庸群侠传,我研究了一下 Ruffle 怎么复活 Flash
游戏·rust·github
LinXunFeng21 小时前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
DayDaydream1 天前
7 天涨了 8000+ Star,Agent Reach 想给 AI 装上互联网眼睛
github
天衍四九2 天前
Git从0到实战(四):冲突解决与版本回退 —— 别怕,出错了也能救
github
大刚测试开发实战2 天前
如何内网穿透访问本地私有化部署的TestHub
前端·后端·github
uhakadotcom3 天前
在python 的 工程化架构中 ,什么是 薄包装器层?
后端·面试·github
newbe365243 天前
对接 Reasonix 1.x 跑通 DeepSeek V4:ACP 模型选择器接入实战
gpt·claude·chatglm (智谱)
Avan_菜菜4 天前
AI 能写代码了,为什么我反而开始要求它先写文档?
前端·github·ai编程
newbe365244 天前
如何使用 Upptime 免费搭建自己的状态站点
gpt·claude·chatglm (智谱)