「Datawhale」RAG技术全栈指南 Task 5

项目背景

这个项目挺有意思,基于 GitHub 上的「程序员做饭指南」搭建一个智能食谱问答系统。目标很接地气------解决每天"今天吃什么"的世纪难题。数据是 300 多个 Markdown 格式的菜谱文件,结构统一,非常适合做 RAG。


一、环境配置

bash

复制代码
conda create -n cook-rag-1 python=3.12.7
conda activate cook-rag-1
pip install -r requirements.txt

需要申请 Kimi API Key,注册送 15 元额度够用了。配置好环境变量后直接 python main.py 就能跑。


二、数据准备

这部分的核心思路是小块检索,大块生成

为什么这么做?因为菜谱按标题分块后,用户问"宫保鸡丁怎么做"可能只检索到"操作步骤"那一块,缺了食材信息就没法完整回答。但如果直接用整个文档做检索,又会因为"用量配比"这种细节在整个文档中占比太小而检索不到。

解决方案是父子文档架构:

复制代码
父文档(完整菜谱)
├── 子块1:菜品介绍
├── 子块2:必备原料
├── 子块3:制作步骤
└── ...

检索时用子块精确匹配,生成时把完整的父文档传给 LLM。

另外还做了元数据增强:从文件路径推断菜品分类(荤菜/素菜/汤品),从内容里的星级标记提取难度等级。这些元数据后面可以用来做过滤检索。


三、索引与检索

索引构建

用 BGE-small-zh-v1.5 做嵌入,FAISS 做向量存储。实现了索引缓存机制,首次构建要几分钟,后面再启动几秒钟就行。

混合检索

采用向量检索 + BM25 双路检索,然后用 RRF 算法融合结果。

两种检索各有所长:向量检索理解语义,能把"简单易做的菜"匹配到标记为"简单"的菜谱;BM25 精确匹配关键词,搜"宫保鸡丁"就能直接命中。RRF 综合两边的排名信息,效果比单一方式好。

RRF 公式其实很简单:对每个文档,把它在两个检索结果中的排名取倒数再加起来,最后按总分排序。


四、生成模块

这部分做了三件事:

查询路由:用 LLM 判断用户意图,分成 list(推荐几道菜)、detail(怎么做)、general(一般问题)三类。

查询重写:对模糊查询进行优化。比如用户就说"做菜",系统会重写成"简单易做的家常菜谱",提高检索效果。

多模式生成

  • list 查询:直接返回菜名列表,简洁明了
  • detail 查询:结构化输出,包含食材、步骤、技巧
  • general 查询:常规回答

五、系统整合

最后把所有模块串起来:数据准备 → 索引构建 → 检索优化 → 生成集成。

完整流程是:用户提问 → 查询路由 → 查询重写 → 混合检索 → 获取父文档 → 根据类型生成回答。

支持流式输出,体验更好。


六、实践总结

⚠️在gitspace上运行代码的时候,需要将api_key从os.get_env改成自己设置的string。但是在main.py里面也有相同的检查,所以要注意不仅在generation.py里面改,main里面相关的检查也要改。

小结

这个项目把前面学的 RAG 知识点串了起来:父子文档分块、混合检索、RRF 重排、查询路由和重写。麻雀虽小五脏俱全,是个不错的实战练习。

相关推荐
带娃的IT创业者10 小时前
Python 异步编程完全指南:从入门到精通
服务器·开发语言·python·最佳实践·asyncio·异步编程
朱包林13 小时前
Python基础
linux·开发语言·ide·python·visualstudio·github·visual studio
Eward-an13 小时前
【算法竞赛/大厂面试】盛最多水容器的最大面积解析
python·算法·leetcode·面试·职场和发展
no_work14 小时前
基于python预测含MLP决策树LGBM随机森林XGBoost等
python·决策树·随机森林·cnn
进击的雷神14 小时前
地址语义解析、多语言国家匹配、动态重试机制、混合内容提取——德国FAKUMA展爬虫四大技术难关攻克纪实
爬虫·python
FreakStudio14 小时前
一行命令搞定驱动安装!MicroPython 开发有了自己的 “PyPI”包管理平台!
python·stm32·单片机·嵌入式·arm·电子diy
xier_ran14 小时前
【第二周】 RAG与Agent实战03:OpenAI库的流式输出
自然语言处理·agent·rag
小浪花a14 小时前
计算机二级python-jieba库
开发语言·python
Storynone14 小时前
【Day23】LeetCode:455. 分发饼干,376. 摆动序列,53. 最大子序和
python·算法·leetcode
田里的水稻15 小时前
ubuntu22.04_构建openclaw开发框架
运维·人工智能·python