基于rapidocr 的文档解析(pdf转md)工具(已部署)

pdf转md思路

rapidocr paddle版本的报错(onnxruntime解析很慢)

C++ Traceback (most recent call last): No stack trace in paddle, may be caused by external reasons. Error Message Summary: FatalError: Segmentation fault' is detected by the operating system. [Timelnfo: *** Aborted at 1760348604 (unix time) try "date-d @1760348604" if you are using GNU date ***] [Signallnfo: *** SIGSEGV (@0x7fafe0a32000) received by PID 29461 (TID 0x7fb8bbdff700) from PID 18446744073183371264 ***]

C++ 调用栈(按最近调用顺序排列): 在 paddle 中没有出现堆栈跟踪信息,这可能是由外部原因导致的。 错误信息摘要: 致命错误:操作系统检测到"分段错误"。[系统信息:*** 异常终止于 1760348604(UNIX 时间) 请使用 GNU 的 date 命令执行"date -d @1760348604"来查看 ***] [信号信息:*** 发生了 SIGSEGV(0x7fafe0a32000)信号,由进程 ID 29461(线程 ID 0x7fb8bbdff700)从进程 ID 18446744073183371264 发出 ***]

这里是我pdf写md的文件代码的问题,每次调用一页的内存就会增加50MB左右,在top指令可以看到。上升到3G,可能有OOM。

然后针对代码进行了优化。这里的单例复用,每次解析都会调到一次ocr实例,单例复用 的代码进行修改,改为进程池,主进程只负责pdf转图像流,子进程负责将图像进行解析流式写入md,然后就可以了

相关推荐
TextIn智能文档云平台14 小时前
PDF格式转化,哪款软件的准确率更高?
人工智能·pdf
帧栈15 小时前
开发避坑指南(73):itext7 pdf表单字体加粗解决方案
java·pdf
裤裤兔17 小时前
如何搜索多个PDF文件中的关键字?
pdf
TextIn智能文档云平台19 小时前
PDF提取文字全是乱码怎么解决?
pdf
伟贤AI之路21 小时前
原创分享:Markdown 转 Word 工具,一键导出Word/PDF文档
pdf·word·markdown·markdown转
cui178756821 小时前
重构消费模式:消费增值如何让 “花出去的钱” 回头找你?
大数据·人工智能·设计模式·重构·运维开发
yesyesido1 天前
PDF全能管家:3合1智能处理,一键解锁高效文档管理新体验
科技·考研·安全·pdf·生活·交互·改行学it
南风微微吹2 天前
2015-2025年英语四级历年真题及答案解析PDF电子版(可下载)
pdf·英语四级
拓端研究室2 天前
专题:2026年中国消费零售行业新图景报告:消费者行为、品牌增长与AI应用|附540+份报告PDF、数据、可视化模板汇总下载
人工智能·pdf·零售
YongCheng_Liang2 天前
Python实现PDF 转 JPG 批量转换工具
运维·python·pdf