本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。
昨天又被产品经理催文档,翻了半天服务器找不到最新版本。好不容易找到个 PDF,复制粘贴出来全是乱码。拿 ChatGPT 问点技术细节,它一本正经胡说八道,还不告诉你信息从哪来的。
GitHub 上刷到个项目叫 RAGFlow,看名字就知道又是搞 RAG 的。但这个有点不一样: 它会把回答的依据截图给你看。
就像以前做语文阅读理解,老师让你把答案在原文里划出来证明不是瞎编的。这下总算不用担心 AI 信口开河了。

主要功能
文档格式支持广:什么 PDF、Word、PPT、Excel 都行,连扫描版的图片文档也能识别。表格图片文字,它都能给你提取出来。
处理过程透明:别的工具你不知道它怎么处理文档的,这个可以看到文档被分成了多少段,每段内容是啥,不满意还能改。
回答有根有据:问个问题,它不光给你答案,还把相关的原文截图贴出来,甚至能直接跳到原文档的位置。这下不怕AI瞎编了。
文件类型全覆盖:除了常见的办公文档,网页、图片、数据库文件什么的都能导入。工作中碰到的文件基本都能处理。
后台自动干活:文档扔进去后,建索引、做向量化这些技术活儿都是自动的,你不用管。
多语言没问题:中文英文混在一起的文档也能处理,查的时候也不分语言。

安装指南
部署倒是挺简单,Docker 走起:
1、机器配置别太寒酸(CPU 起码4核,内存16G打底,不然跑不动)
2、代码拉下来:git clone https://github.com/infiniflow/ragflow.git
3、cd 进去找到 docker 目录,敲个命令:docker compose -f docker-compose.yml up -d
4、等个几分钟启动完,浏览器访问就行了

写在最后
老实说,经常搞文档的话这工具确实有用。特别是能看到答案出处这点,比那些黑盒工具靠谱多了。
就是硬件要求有点高,小团队可能要考虑下服务器成本。开源项目嘛,界面什么的肯定没那些收费软件做得精致。
反正我是准备在下个项目里试试,有兴趣的可以看看。
GitHub 项目地址:github.com/infiniflow/...
好了,今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!
学习资源推荐
如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。
本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。