解决RAGFlow(v0.19.0)有部分PDF无法解析成功的问题。

ragflow版本为:v0.19.0

1.解析的时候报错:Internal server error while chunking: Coordinate lower is less than upper。

看报错怀疑是分片的问题,于是把文档的切片方法中的"建议文本块大小"数值(默认512)调小,比如300,发现有些原来不能解析的PDF文档能成功解析了。

2.但是还是有些PDF解析的时候报错如下图:

看报错怀疑是内存不足,实际查看了下CPU的使用情况,发现解析文档的时候CPU已经使用到了99%。但是我使用的启动容器命令是:docker compose -p ragflow -f docker-compose-gpu.yml up -d 。按理说应该使用GPU的,无解。于是想着怎么精简内存,考虑到我们的嵌入模型是自己部署的,于是决定不在使用v0.19.0版本, 遂将docker/.env 文件内的 RAGFLOW_IMAGE 变量改成使用v0.19.0-slim,这样可以减少使用的内存。

重启,发现能成功解析文档。

如果您有其他更好的解决方法,欢迎一起留言讨论。

相关推荐
ComPDFKit18 小时前
ComPDF 与 Aspose:转换 SDK 的全面比较
pdf
优选资源分享19 小时前
PDF 电子签章工具 v5.0:全能处理PDF电子签章
pdf
Arvin_Zhang201619 小时前
使用python实现从PDF格式的control mapping获取gross die数量
python·pdf
徐同保19 小时前
上传文件,在前端用 pdf.js 提取 上传的pdf文件中的图片
前端·javascript·pdf
CodeCraft Studio19 小时前
国产化PDF处理控件Spire.PDF教程:使用Python批量自动化将PDF转换为黑白(灰度)
python·pdf·自动化·spire.pdf·文档自动化·pdf开发组件·国产化文档组件
成旭先生19 小时前
文档(如word、ppt、pdf等)在线预览解决方案:基于HTML转换的技术实践与对比
pdf·word·powerpoint
m5655bj20 小时前
使用 C# 将 RTF 文档转换为 PDF 格式
pdf·c#
开开心心_Every2 天前
免费进销存管理软件:云端本地双部署
java·游戏·微信·eclipse·pdf·excel·语音识别
winfredzhang2 天前
从零构建:手写一个支持“高度定制化排版”的 Chrome 网页摘录插件
chrome·pdf·插件·epub·零碎信息归档
裴嘉靖2 天前
前端获取二进制文件并预览的完整指南
前端·pdf