解决RAGFlow(v0.19.0)有部分PDF无法解析成功的问题。

ragflow版本为:v0.19.0

1.解析的时候报错:Internal server error while chunking: Coordinate lower is less than upper。

看报错怀疑是分片的问题,于是把文档的切片方法中的"建议文本块大小"数值(默认512)调小,比如300,发现有些原来不能解析的PDF文档能成功解析了。

2.但是还是有些PDF解析的时候报错如下图:

看报错怀疑是内存不足,实际查看了下CPU的使用情况,发现解析文档的时候CPU已经使用到了99%。但是我使用的启动容器命令是:docker compose -p ragflow -f docker-compose-gpu.yml up -d 。按理说应该使用GPU的,无解。于是想着怎么精简内存,考虑到我们的嵌入模型是自己部署的,于是决定不在使用v0.19.0版本, 遂将docker/.env 文件内的 RAGFLOW_IMAGE 变量改成使用v0.19.0-slim,这样可以减少使用的内存。

重启,发现能成功解析文档。

如果您有其他更好的解决方法,欢迎一起留言讨论。

相关推荐
w2018003 小时前
一至六年级下册数学第五单元测试卷(人教版+苏教版)
pdf
w2018005 小时前
人教版小学一至六年级下册语文期中考试试卷PDF可打印
pdf
w2018007 小时前
小学一至六年级下册数学期中考试试卷PDF(人教版+苏教版+冀教版+北师版)
pdf
yivifu8 小时前
使用PyMuPDF基于对PDF文档内容的分析自动识别并删除PDF文件中的水印
python·pdf·pymupdf·去水印
tanis_20778 小时前
PDF 解析后输出什么格式?MinerU 五类下游场景的选型指南
人工智能·pdf·csdn开发云
tanis_207718 小时前
扫描版中文 PDF 怎么提取文字:用 MinerU 做 OCR + 结构化一体处理
人工智能·pdf·ocr
tanis_207720 小时前
MinerU2.5-Pro 中文 PDF 识别准确率全解:OmniDocBench v1.6 权威基准数据
人工智能·python·pdf
小林敲代码77881 天前
基于 PDFBox 的 PDF 水印管理:使用 OCG 层实现精准添加与一键去除
pdf
tanis_20771 天前
学术论文 PDF 的版面自动还原:MinerU 对多栏排版、浮动图表与脚注区域的识别实战
人工智能·pdf·ocr
tanis_20771 天前
从 PDF 中精准提取表格、图片与公式:MinerU 结构化元素抽取的 3 种方案
pdf