paddleocr PP-StructureV3 pdf转md 懒人整合包 cpu可用 交互界面调整

前言

本文依旧是懒人包的优化更新

之前最大的问题就是使用fastapi这种偏向编程交互的操作方式

适合api调用,不太适合gui界面可视化操作,现在统一把fastapi改为gradio可视化交互

关于懒人包,目前最多的系列是ocr,其中pdf转md也最为常用

优化

首先第一个优化是fastapi转gradio

可以看到下图

左侧上传图片和PDF等文件,可以预览(可以拖拽和点击选择),是否批量待定

右侧查看输出的md结构,可以复制和下载

底部用于下拉和勾选对应的选项,以及点击交互,可以查看实时进度等以及一些文案提示

问题

之前把一些不必要的功能,没有验证的功能都放上去,容易让人迷惑

现在只保留PDF和PNG等转MD的功能,其他转JSON,HTML,EXCEL等功能都不做,以后如果需要和支持,再添加对应的功能

同样的对于低显存或者CPU也可以处理的AI,我会把它拆分为cpu版本和gpu版本

cpu版本用来简单体验功能和临时使用

gpu版本用来加速和大量使用

目前cpu版本先上,后续再补充gpu版本

懒人包说明

example用于放图片等示例的文件,可以快速方便的查看AI效果

models存放ai的本地模型,离线懒人包不会发起请求,只会读取本地的文件模型

output用于存放ai处理后的文件,比如处理后生成的md文件

python312为离线python环境,含有对应的依赖包

app.py为应用程序和界面,代码逻辑和界面交互都在这个文件

start.bat是win上的启动文件,方便双击一键启动

Tips

点击此处 网盘下载

目前PDF转MD系列的paddleocr PP-StructureV3效果不错,所以先更新它

后面的paddleocr vL1.5等再逐步更新

图中的启动方向分类按钮和启动去扭曲按钮只是占位

目前还没有下载对应的模型,等待后续有空再把功能补充完善

相关推荐
软件工程小施同学20 分钟前
CCF A区块链论文分享-NDSS 2026(2)-CtPhishCapture:揭露针对加密货币钱包的基于凭证窃取的网络钓鱼诈骗(附pdf)
网络·pdf·区块链
2601_9618451524 分钟前
2026法考资料pdf|电子版|资料已整理
开发语言·前端框架·pdf·c#·xhtml·csrf·view design
qq_4221525728 分钟前
PDF 解密工具怎么选?2026 年文档密码移除方案与注意事项
java·前端·pdf
Sour38 分钟前
Word 文档翻译后保留格式的检查清单:标题、表格、图片、目录和批注
pdf·word·办公软件·office·文档翻译
Sour1 小时前
扫描版 PDF 翻译流程:OCR 识别、译文校对和排版保留
pdf·ocr
zyplayer-doc2 小时前
继飞书之后,又一款知识库推出了开源 Agent-Native CLI 工具
人工智能·pdf·编辑器·飞书·开源软件
辣香牛肉面2 小时前
Windows PDF转换工具箱
windows·pdf
qq_4221525713 小时前
PDF 加水印工具怎么选?2026 年文档版权保护方案对比
前端·pdf·github
杨浦老苏21 小时前
PDF文档管理平台PDFManager
docker·pdf·工具·群晖
rickys208021 小时前
腾讯会议截图自动去除黑边转PDF
pdf·腾讯会议