【文章转载】Lance Martin的关于RAG的笔记

转载自微博@黄建同学

从头开始学习 RAG,看Lance Martin的这篇笔记就行了,包含了十几篇论文和开源实现!


这是一组简短的(5-10 分钟视频)和笔记,解释了我最喜欢的十几篇 RAG 论文。我自己尝试实现每个想法(所有代码都是开源的),并根据图表分组。

代码:github.com/langchain-ai/rag-from-scratch

视频播放列表:youtube.com/playlist?list=PLfaIDFEXuae2LXbO1_PKyVJiQ23ZztA0x

一些亮点: #程序员##ai探索计划#

★RAG 真的死了吗?

RAG 将如何随着长期 LLM 而改变。

视频: youtu.be/SsHUNfhF32s

★自适应RAG 根据复杂程度动态地将查询路由到不同的 RAG 方法。使用Cohere cmd-R 在 LangGraph 中实现。

视频: youtu.be/04ighIjMcAI

代码: github.com/langchain-ai/langgraph/blob/main/examples/rag/langgraph_adaptive_rag_cohere.ipynb

论文:arxiv.org/abs/2403.14403

★矫正-RAG 在循环单元测试中自我纠正检索错误,以确定文档相关性并返回到网络搜索。在 LangGraph 中实现了Mistral AI -7b + Ollama,以便在本地运行。

视频: youtu.be/E2shqsYwxck

代码: github.com/langchain-ai/langgraph/blob/main/examples/rag/langgraph_crag.ipynb

论文:arxiv.org/pdf/2401.15884.pdf

★自身RAG

使用循环单元测试自行纠正 RAG 错误,以检查文档相关性、答案幻觉和答案质量。在 LangGraph 中实现,使用Mistral AI -7b + Ollama进行本地运行。

代码:github.com/langchain-ai/langgraph/blob/main/examples/rag/langgraph_self_rag.ipynb

代码(本地):github.com/langchain-ai/langgraph/blob/main/examples/rag/langgraph_self_rag_local.ipynb

论文:arxiv.org/abs/2310.11511.pdf

★查询路由

将问题引导至正确数据源的各种方法(例如逻辑、语义等)。

视频: youtu.be/pfpIndq7Fi8

代码: github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_10_and_11.ipynb

★查询结构

使用 LLM 将自然语言转换为其中 DSL 是一种与给定数据库(SQL、Cypher 等)交互所需的领域特定语言。

视频: youtu.be/kl6NwWYxvbM

代码: github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_10_and_11.ipynb

博客:

1/ blog.langchain.dev/query-construction/

2/ 深入研究 graphDB:blog.langchain.dev/enhancing-rag-based-applications-accuracy-by-constructing-and-leveraging-knowledge-graphs/

3/ 查询结构文档: python.langchain.com/docs/use_cases/query_analysis/techniques/structuring/

4/ 自查询检索器文档: python.langchain.com/docs/modules/data_connection/retrievers/self_query/

★多表示索引

使用 LLM 生成针对检索进行优化的文档摘要("命题")。嵌入这些摘要以进行相似性搜索,但将完整文档返回给 LLM 进行生成。

视频: youtu.be/gTCU9I6QqCE

代码: github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_12_to_14.ipynb

论文: arxiv.org/pdf/2312.06648.pdf

★PAPROT

将语料库中的文档聚类,并递归地总结相似的文档。将它们全部编入索引,生成较低级别的文档和摘要,可以检索这些文档和摘要来回答从详细到更高级别的问题。

视频: youtu.be/z_6EeA2LDSw

代码: github.com/langchain-ai/langchain/blob/master/cookbook/RAPTOR.ipynb

论文: arxiv.org/pdf/2401.18059.pdf

★ColBERT

使用受上下文影响的嵌入来提高文档和查询中每个标记的嵌入粒度。

视频: youtu.be/cN6S0Ehm7_8

代码: github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_12_to_14.ipynb

论文:arxiv.org/abs/2004.12832

★ 多次查询

从多个角度重写用户问题,为每个重写的问题检索文档,返回所有查询的唯一文档。

视频: youtube.com/watch?v=JChPi0CRnDY

代码: github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_5_to_9.ipynb

论文: arxiv.org/pdf/2305.14283.pdf

★RAG融合

从多个角度重写用户问题,检索每个重写问题的文档,并组合多个搜索结果列表的排名,以使用倒数排名融合 (RRF) 生成单一、统一的排名。

视频: youtube.com/watch?v=77qELPbNgxA

代码: github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_5_to_9.ipynb

项目:github.com/Raudaschl/rag-fusion

★ 分解

将问题分解为一组子问题/问题,可以按顺序解决(使用第一个问题的答案 + 检索来回答第二个问题),也可以并行解决(将每个答案合并为最终答案)。各种工作,如从最少到最多提示和 IR-CoT 提出了可以利用的想法。

视频: youtube.com/watch?v=h0OPWlEOank

代码: github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_5_to_9.ipynb

论文: arxiv.org/pdf/2205.10625.pdf,arxiv.org/pdf/2212.10509.pdf

★ 后退提示

首先提示 LLM 提出一个关于高级概念或原则的通用后退问题,并检索有关它们的相关事实。使用此基础来帮助回答用户问题。

视频: youtube.com/watch?v=xn1jEjRyJ2U

代码:github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_5_to_9.ipynb

论文:arxiv.org/pdf/2310.06117.pdf

★ HyDE

LLM 将问题转换为回答问题的假设文档。使用嵌入的假设文档检索真实文档,前提是 doc-doc 相似性搜索可以产生更多相关匹配。

视频:youtube.com/watch?v=SaDzIVkYqyY

代码:github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_5_to_9.ipynb

论文:arxiv.org/abs/2212.10496

相关推荐
机器人零零壹7 小时前
专访越擎科技创始人: 外骨骼的设计与仿真该如何入门
人工智能·具身智能·机器人仿真·离线编程·irobotcam·人形机器人设计
Cha0DD8 小时前
【由浅入深探究langchain】第二十集-SQL Agent+Human-in-the-loop
人工智能·python·ai·langchain
Cha0DD8 小时前
【由浅入深探究langchain】第十九集-官方的SQL Agent示例
人工智能·python·ai·langchain
2601_949221038 小时前
Splashtop赋能企业级远程办公全场景安全连接成选型优选
运维·人工智能·安全
阿拉斯攀登9 小时前
YOLO 视觉检测全栈核心名词指南:从训练调参到边缘部署,商用落地必懂
人工智能·yolo·计算机视觉·视觉检测·bytetrack
AAAAA92409 小时前
2026年车载机器人行业:技术突破与生态融合加速发展
人工智能·机器人·制造
科研实践课堂(小绿书)9 小时前
机器学习在智能水泥基复合材料中的应用与实践
人工智能·机器学习·复合材料·水泥基·混凝土
AI医影跨模态组学9 小时前
Hepatology(IF=16.8)复旦大学附属中山医院孙惠川、徐彬等团队:基于MRI影像组学动态变化预测HCC免疫治疗后病理完全缓解
人工智能
百万蹄蹄向前冲9 小时前
让TypeScript 再次伟大:愚人节前夜Claude Code意外开源与OpenClaw小龙虾打造 AI 原生开发新纪元
人工智能·typescript·node.js
墨韵流芳9 小时前
CCF-CSP第41次认证第三题——进程通信
c++·人工智能·算法·机器学习·csp·ccf