解决RAGFlow(v0.19.0)有部分PDF无法解析成功的问题。

ragflow版本为:v0.19.0

1.解析的时候报错:Internal server error while chunking: Coordinate lower is less than upper。

看报错怀疑是分片的问题,于是把文档的切片方法中的"建议文本块大小"数值(默认512)调小,比如300,发现有些原来不能解析的PDF文档能成功解析了。

2.但是还是有些PDF解析的时候报错如下图:

看报错怀疑是内存不足,实际查看了下CPU的使用情况,发现解析文档的时候CPU已经使用到了99%。但是我使用的启动容器命令是:docker compose -p ragflow -f docker-compose-gpu.yml up -d 。按理说应该使用GPU的,无解。于是想着怎么精简内存,考虑到我们的嵌入模型是自己部署的,于是决定不在使用v0.19.0版本, 遂将docker/.env 文件内的 RAGFLOW_IMAGE 变量改成使用v0.19.0-slim,这样可以减少使用的内存。

重启,发现能成功解析文档。

如果您有其他更好的解决方法,欢迎一起留言讨论。

相关推荐
会飞的小菠菜1 天前
如何将PPT文档转化为PDF
pdf·powerpoint·ppt·批量·格式转换
江湖有缘1 天前
基于华为openEuler系统安装PDF查看器PdfDing
华为·pdf
acaad1 天前
采用libreoffice将word、excel等文件转换为pdf格式
pdf·word·libreoffice
Metaphor6921 天前
Java 将 PDF 转换为 HTML:高效解决方案与实践
java·经验分享·pdf·html
开开心心就好2 天前
PDF清晰度提升工具,让模糊文档变清晰
java·服务器·前端·python·智能手机·pdf·ocr
逆天小北鼻2 天前
ng 映射pdf文件
运维·服务器·pdf
IT北辰2 天前
用Python一键整理文件:自动分类DOCX与PDF,告别文件夹杂乱
开发语言·python·pdf
yswenli3 天前
使用Cyclops.PdfKit根据pdf模板生成pdf文件
docker·pdf·.net8
阿幸软件杂货间11 天前
Office转PDF转换器v1.0.py
开发语言·pdf·c#
reembarkation11 天前
使用pdfjs-dist 预览pdf,并添加文本层的实现
前端·javascript·pdf