解决RAGFlow(v0.19.0)有部分PDF无法解析成功的问题。

ragflow版本为:v0.19.0

1.解析的时候报错:Internal server error while chunking: Coordinate lower is less than upper。

看报错怀疑是分片的问题,于是把文档的切片方法中的"建议文本块大小"数值(默认512)调小,比如300,发现有些原来不能解析的PDF文档能成功解析了。

2.但是还是有些PDF解析的时候报错如下图:

看报错怀疑是内存不足,实际查看了下CPU的使用情况,发现解析文档的时候CPU已经使用到了99%。但是我使用的启动容器命令是:docker compose -p ragflow -f docker-compose-gpu.yml up -d 。按理说应该使用GPU的,无解。于是想着怎么精简内存,考虑到我们的嵌入模型是自己部署的,于是决定不在使用v0.19.0版本, 遂将docker/.env 文件内的 RAGFLOW_IMAGE 变量改成使用v0.19.0-slim,这样可以减少使用的内存。

重启,发现能成功解析文档。

如果您有其他更好的解决方法,欢迎一起留言讨论。

相关推荐
2501_928094651 天前
PDF Reader 编辑阅读工具(Mac中文)
macos·pdf·mac
非凡ghost1 天前
PDF24 Creator:免费的多功能PDF工具
学习·pdf·生活·软件需求
IT周小白1 天前
Apache PDFBox 与 spire.pdf for java 使用记录
java·pdf
CodeCraft Studio1 天前
借助 TX Text Control:在 .NET C# 中使用 PDF/A-3b 创建可信文档容器
大数据·pdf·数字签名·tx text control·pdf/a-3b·pdf文档开发
嘀咕博客1 天前
PDF.AI-与你的PDF文档对话
人工智能·pdf
私人珍藏库1 天前
[Windows] PDF工具箱 PDF24 Creator 11.28.0
windows·pdf
星河顾盼2 天前
【微信小程序预览文件】(PDF、DOC、DOCX、XLS、XLSX、PPT、PPTX)
微信小程序·pdf·powerpoint
猫头虎2 天前
猫头虎AI分享:无需OCR,基于ColQwen2、Qwen2.5和Weaviate对PDF进行多模态RAG的解决方案
microsoft·ai·pdf·aigc·ocr·ai编程·ai-native
Metaphor6922 天前
Java 压缩 PDF 文件大小:告别臃肿,提升效率!
java·经验分享·pdf
bpmh2 天前
.vsdx文件转pdf、word、ppt等文件在线分享(免费版)
pdf