基于rapidocr 的文档解析(pdf转md)工具(已部署)

pdf转md思路

rapidocr paddle版本的报错(onnxruntime解析很慢)

C++ Traceback (most recent call last): No stack trace in paddle, may be caused by external reasons. Error Message Summary: FatalError: Segmentation fault' is detected by the operating system. [Timelnfo: *** Aborted at 1760348604 (unix time) try "date-d @1760348604" if you are using GNU date ***] [Signallnfo: *** SIGSEGV (@0x7fafe0a32000) received by PID 29461 (TID 0x7fb8bbdff700) from PID 18446744073183371264 ***]

C++ 调用栈(按最近调用顺序排列): 在 paddle 中没有出现堆栈跟踪信息,这可能是由外部原因导致的。 错误信息摘要: 致命错误:操作系统检测到"分段错误"。[系统信息:*** 异常终止于 1760348604(UNIX 时间) 请使用 GNU 的 date 命令执行"date -d @1760348604"来查看 ***] [信号信息:*** 发生了 SIGSEGV(0x7fafe0a32000)信号,由进程 ID 29461(线程 ID 0x7fb8bbdff700)从进程 ID 18446744073183371264 发出 ***]

这里是我pdf写md的文件代码的问题,每次调用一页的内存就会增加50MB左右,在top指令可以看到。上升到3G,可能有OOM。

然后针对代码进行了优化。这里的单例复用,每次解析都会调到一次ocr实例,单例复用 的代码进行修改,改为进程池,主进程只负责pdf转图像流,子进程负责将图像进行解析流式写入md,然后就可以了

相关推荐
我要学好英语4 小时前
知网下载的.caj文件怎么转成.pdf文件
pdf
techzhi6 小时前
Apifox CLI + GitLab CI:接口自动化测试实施记录
java·ci/cd·kubernetes·gitlab·yapi·运维开发·fastapi
墨痕诉清风9 小时前
文件上传漏洞(PDF文件)
安全·web安全·pdf
E_ICEBLUE9 小时前
【2026 最新教程】Java 自动化提取 PDF 表格:从文本到 Excel/CSV 的全场景实现
java·pdf·自动化
程序员哈基耄11 小时前
高效便捷的本地PDF处理工具——PDF工具箱全面解析
pdf
m5655bj12 小时前
使用 C# 将 PPT 转换为 PDF
pdf·c#·powerpoint
db_cy_20621 天前
Docker+Kubernetes企业级容器化部署解决方案(阶段一)
docker·容器·kubernetes·云计算·负载均衡·运维开发
爱码猿1 天前
Springboot结合thymeleaf模板生成pdf文件
spring boot·后端·pdf
南风微微吹1 天前
2025年12月英语四级真题及答案解析完整版(第一、二、三套全PDF)
pdf·英语四级真题
我叫汪枫1 天前
Python 实战:把 PDF 表格完整转换成 Excel(小白教程)
python·pdf·excel