PaddleOCR-VL-1.5 PDF转MD 懒人整合包界面微调

IT大师兄吖2026-04-11 12:04

前言

本期依旧是把fastapi的界面改为gradio界面

原来的fastapi适合api调用，现在的gradio适合界面交互操作

本期的更新为

只保留PDF转MD和图片转MD的功能，其他如json，html，excel都去掉了
只保留GPU版本，无CPU版本，因为VL1.5比较占显存，CPU耗时太长

下图是两个版本对比

懒人包使用

双击start.bat

等待终端启动

启动成功后会自动打开网页

特别注意

输出的md文件在runtime文件夹下的outputs文件夹

Tips

点击此处网盘下载

目前试了几种ocr，只有这个vl1.5 pdf转md识别率和排版都不错

其他的如小红书ocr，不解析图片，paddleocr PP-StructureV3解析正确，但是md的排版会有换行等一些细节问题

vl1.5显存占用高一点，本文测试需要8GB左右的显存

上一篇：ESP32 实现在线动态安装库和自动依赖安装-使用uPyPI包管理平台

下一篇：高效整合长尾关键词以提升网站SEO排名的有效策略

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？082026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元 09AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？