基于rapidocr 的文档解析(pdf转md)工具(已部署)

pdf转md思路

rapidocr paddle版本的报错(onnxruntime解析很慢)

C++ Traceback (most recent call last): No stack trace in paddle, may be caused by external reasons. Error Message Summary: FatalError: Segmentation fault' is detected by the operating system. Timelnfo: \*\*\* Aborted at 1760348604 (unix time) try "date-d @1760348604" if you are using GNU date \*\*\* Signallnfo: \*\*\* SIGSEGV (@0x7fafe0a32000) received by PID 29461 (TID 0x7fb8bbdff700) from PID 18446744073183371264 \*\*\*

C++ 调用栈(按最近调用顺序排列): 在 paddle 中没有出现堆栈跟踪信息,这可能是由外部原因导致的。 错误信息摘要: 致命错误:操作系统检测到"分段错误"。系统信息:\*\*\* 异常终止于 1760348604(UNIX 时间) 请使用 GNU 的 date 命令执行"date -d @1760348604"来查看 \*\*\* 信号信息:\*\*\* 发生了 SIGSEGV(0x7fafe0a32000)信号,由进程 ID 29461(线程 ID 0x7fb8bbdff700)从进程 ID 18446744073183371264 发出 \*\*\*

这里是我pdf写md的文件代码的问题,每次调用一页的内存就会增加50MB左右,在top指令可以看到。上升到3G,可能有OOM。

然后针对代码进行了优化。这里的单例复用,每次解析都会调到一次ocr实例,单例复用 的代码进行修改,改为进程池,主进程只负责pdf转图像流,子进程负责将图像进行解析流式写入md,然后就可以了

相关推荐
我命由我1234520 小时前
Excel - Excel 覆盖模式与编辑模式
运维·学习·职场和发展·excel·求职招聘·职场发展·运维开发
2601_9611940221 小时前
2026四六级翻译预测12篇|四级六级汉译英范文PDF
pdf
2601_961194021 天前
2026四六级翻译预测|四级六级汉译英热点+范文PDF
pdf
枕星而眠1 天前
【数据结构】树与二叉树基础知识点总结
数据结构·c++·后端·算法·运维开发
这个DBA有点耶1 天前
死锁排查进阶:从日志到根因的完整分析链
java·开发语言·数据库·sql·运维开发·学习方法·dba
绘梨衣5471 天前
豆包Seed PDF解析企业落地方法论
大数据·python·pdf
这个DBA有点耶1 天前
当时间数据不再只是“曲线”:聊聊时序数据库和融合分析
数据库·sql·程序人生·云原生·运维开发·时序数据库·业界资讯
庖丁AI1 天前
PDF解析工具怎么选?OCR、表格提取和结构化输出有什么区别
人工智能·pdf·ocr
2601_961194021 天前
27考研刘晓艳单词pdf
linux·sql·ubuntu·华为·pdf·.net
AI刀刀1 天前
智谱清言保存 pdf 显示该页的尺寸超出范围,AI 导出鸭智能适配页面尺寸稳定导出 PDF
人工智能·pdf·ai导出鸭