RAG 进阶：一个 ctrl-c 就能拿走的图文检索框架

HuixiangDou 是群聊场景的 LLM 知识助手。群里人多口杂，机器人显然不应该答复所有消息，它的设计规则为：

(觉得好用，欢迎点亮 star)

在上一篇文章中，我们介绍如何用知识图谱提升稠密检索能力，本文分享 HuixiangDou 在图文检索中的软件设计考量。

软件设计

目前 GitHub 上已经有很多知名 RAG 框架：

HuixiangDou 聚焦在群聊场景，除了能提供业务数据上的精度报告外，在实现层面没有历史包袱，因此更简单有效。

不仅仅是 pip install 再调 API，HuixiangDou 假设用户也喜欢直接 copy 走源码。

这样能同时改善双方的体验：

因此 HuixiangDou 源码有三个核心目录：

相对于 langchain ，HuixiangDou 的设计更贴合每个模块原本的功能，例如：

如果用户希望构建自己的 RAG 应用，既不希望引入庞大依赖又不想自己写，ctrl-c 拿走 primitive 目录即可。HuixiangDou 还提供了单元测试和精度报告，保证拿走的都是可靠的。

如果有 10G 显存，HuixiangDou 目前可用 Visualized-BGE 提取图片特征，图片和文字的特征放入同一个 faiss 库中，等待后续检索。

特征库构建过程和纯文本模态完全相同：

复制代码

python3 -m huixiangdou.service.feature_store --config_path config-multimodal.ini

然后用以下命令，运行一个简单的 gradio WebUI：

复制代码

python3 tests/test_query_gradio.py --config_path config-multimodal.ini

提交问题和图片，可以检索图片所属文档，并作答：

运行需注意：

得益于 primitive 的简洁设计，HuixiangDou 在默认情况下，仍然是仅需 1.5G 显存的 BCE 纯文本模型。我们已对齐了实现多模态前后的业务精度。

本文分享了 HuixiangDou 在实现图片混合检索过程中，在设计层面的考量，我们更鼓励用户拿走代码。

在图文检索方面，目前只支持 markdown 文件，还需支持更多格式。