解决RAGFlow(v0.19.0)有部分PDF无法解析成功的问题。

ragflow版本为:v0.19.0

1.解析的时候报错:Internal server error while chunking: Coordinate lower is less than upper。

看报错怀疑是分片的问题,于是把文档的切片方法中的"建议文本块大小"数值(默认512)调小,比如300,发现有些原来不能解析的PDF文档能成功解析了。

2.但是还是有些PDF解析的时候报错如下图:

看报错怀疑是内存不足,实际查看了下CPU的使用情况,发现解析文档的时候CPU已经使用到了99%。但是我使用的启动容器命令是:docker compose -p ragflow -f docker-compose-gpu.yml up -d 。按理说应该使用GPU的,无解。于是想着怎么精简内存,考虑到我们的嵌入模型是自己部署的,于是决定不在使用v0.19.0版本, 遂将docker/.env 文件内的 RAGFLOW_IMAGE 变量改成使用v0.19.0-slim,这样可以减少使用的内存。

重启,发现能成功解析文档。

如果您有其他更好的解决方法,欢迎一起留言讨论。

相关推荐
喝凉白开都长肉的大胖子1 天前
比较 main.tex 的两个不同版本(例如旧版和新版),并生成一个带有修改标记(如删除线、高亮、修订注释)的 PDF 或文本输出。
pdf·latex
weixin_441003641 天前
2025教资面试真题电子版|科目试讲+结构化真题解析|完整PDF
面试·职场和发展·pdf
小兜全糖(xdqt)1 天前
python ppt转pdf以及图片提取
python·pdf·powerpoint
番石榴AI1 天前
视频转ppt/pdf V2.0版(新增转为可编辑PPT功能)
人工智能·pdf·powerpoint
_深巷的猫1 天前
python爬虫自动库DrissionPage保存网页快照mhtml/pdf/全局截图/打印机另存pdf
pdf
『 时光荏苒 』1 天前
网页变成PDF下载到本地
前端·javascript·pdf·网页下载成
chenchihwen1 天前
AI代码开发宝库系列:PDF文档解析MinerU
人工智能·python·pdf·dashscope
Source.Liu2 天前
【PDF-rs】pdf子项目的lib.rs文件
pdf
学会用脚编程2 天前
word转Pdf,在window正常,放在linux服务器上就转出来中文是空白
pdf·word
机器学习算法与Python实战2 天前
最好的大模型训练、微调教程.pdf
pdf