paddleocr PP-StructureV3 pdf转md 懒人整合包 cpu可用 交互界面调整

前言

本文依旧是懒人包的优化更新

之前最大的问题就是使用fastapi这种偏向编程交互的操作方式

适合api调用,不太适合gui界面可视化操作,现在统一把fastapi改为gradio可视化交互

关于懒人包,目前最多的系列是ocr,其中pdf转md也最为常用

优化

首先第一个优化是fastapi转gradio

可以看到下图

左侧上传图片和PDF等文件,可以预览(可以拖拽和点击选择),是否批量待定

右侧查看输出的md结构,可以复制和下载

底部用于下拉和勾选对应的选项,以及点击交互,可以查看实时进度等以及一些文案提示

问题

之前把一些不必要的功能,没有验证的功能都放上去,容易让人迷惑

现在只保留PDF和PNG等转MD的功能,其他转JSON,HTML,EXCEL等功能都不做,以后如果需要和支持,再添加对应的功能

同样的对于低显存或者CPU也可以处理的AI,我会把它拆分为cpu版本和gpu版本

cpu版本用来简单体验功能和临时使用

gpu版本用来加速和大量使用

目前cpu版本先上,后续再补充gpu版本

懒人包说明

example用于放图片等示例的文件,可以快速方便的查看AI效果

models存放ai的本地模型,离线懒人包不会发起请求,只会读取本地的文件模型

output用于存放ai处理后的文件,比如处理后生成的md文件

python312为离线python环境,含有对应的依赖包

app.py为应用程序和界面,代码逻辑和界面交互都在这个文件

start.bat是win上的启动文件,方便双击一键启动

Tips

点击此处 网盘下载

目前PDF转MD系列的paddleocr PP-StructureV3效果不错,所以先更新它

后面的paddleocr vL1.5等再逐步更新

图中的启动方向分类按钮和启动去扭曲按钮只是占位

目前还没有下载对应的模型,等待后续有空再把功能补充完善

相关推荐
优化控制仿真模型3 分钟前
【英一】考研英语一历年真题及答案解析PDF电子版(1980-2026年)
经验分享·pdf
其实秋天的枫4 分钟前
【英一】考研英语一历年真题及答案解析PDF电子版(1980-2026年)
经验分享·pdf
要不枉此行7 分钟前
【Python 实战】一键爬取 HTML 文档并合并为完整 PDF
python·pdf·html
E_ICEBLUE41 分钟前
在 Java 中使用 Spire.PDF 合并 PDF 文档(含加密与压缩处理)
java·pdf
其实秋天的枫2 小时前
日语N1、N2、N3、N4、N5历年真题及答案解析PDF电子版(2010-2025年12月)
经验分享·pdf
优化控制仿真模型2 小时前
日语N1、N2、N3、N4、N5历年真题及答案解析PDF电子版(2010-2025年12月)
经验分享·pdf
CHANG_THE_WORLD2 小时前
gc.py 功能介绍:PDF 对象流还原工具(用于 pdfium 测试)
算法·pdf
ji_shuke3 小时前
访问s3里pdf文件出现strict-origin-when-cross-origin问题修复
pdf
CHANG_THE_WORLD3 小时前
使用python调用podofogc文件 批量处理 pdf文件
windows·python·pdf
AI刀刀3 小时前
手机deepseek怎么导出pdf
人工智能·ai·pdf·豆包·deepseek·ds随心转