微软GraphRAG

检索增强生成 (RAG)

通用语言模型通过微调就可以完成几类常见任务,比如分析情绪和识别命名实体。这些任务不需要额外的背景知识就可以完成。

要完成更复杂和知识密集型的任务,可以基于语言模型构建一个系统,访问外部知识源来做到。这样的实现与事实更加一性,生成的答案更可靠,还有助于缓解"幻觉"问题。

Meta AI 的研究人员引入了一种叫做检索增强生成(Retrieval Augmented Generation,RAG)(opens in a new tab)的方法来完成这类知识密集型的任务。RAG 把一个信息检索组件和文本生成模型结合在一起。RAG 可以微调,其内部知识的修改方式很高效,不需要对整个模型进行重新训练。

RAG 会接受输入并检索出一组相关/支撑的文档,并给出文档的来源(例如维基百科)。这些文档作为上下文和输入的原始提示词组合,送给文本生成器得到最终的输出。这样 RAG 更加适应事实会随时间变化的情况。这非常有用,因为 LLM 的参数化知识是静态的。RAG 让语言模型不用重新训练就能够获取最新的信息,基于检索生成产生可靠的输出。

Lewis 等人(2021)提出一个通用的 RAG 微调方法。这种方法使用预训练的 seq2seq 作为参数记忆,用维基百科的密集向量索引作为非参数记忆(使通过神经网络预训练的检索器访问)。这种方法工作原理概况如下:

图片援引自: Lewis et el. (2021)(opens in a new tab)

RAG 在 Natural Questions(opens in a new tab)WebQuestions(opens in a new tab) 和 CuratedTrec 等基准测试中表现抢眼。用 MS-MARCO 和 Jeopardy 问题进行测试时,RAG 生成的答案更符合事实、更具体、更多样。FEVER 事实验证使用 RAG 后也得到了更好的结果。

这说明 RAG 是一种可行的方案,能在知识密集型任务中增强语言模型的输出。

最近,基于检索器的方法越来越流行,经常与 ChatGPT 等流行 LLM 结合使用来提高其能力和事实一致性。

LangChain 文档中可以找到一个使用检索器和 LLM 回答问题并给出知识来源的简单例子(opens in a new tab)

微软GraphRAG

2024 年 4 月,微软发表了一篇论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》。在这篇论文中,微软的研究人员提出了一种从文本构建并增强知识图的方法,来解决 Baseline RAG 系统在全局理解上的缺陷,例如:

  • Baseline RAG 系统在面对需要从多源信息中抽取并综合分析的情况时,会遭遇显著的障碍。具体来说,当回答一个复杂问题涉及到通过识别和利用不同信息片段之间的共享属性,来构建新的、综合性见解时,Baseline RAG 无法有效连接这些"点",导致信息整合上的不足。

  • 在要求 Baseline RAG 对大规模的数据集合或是单篇幅巨大的文档进行全面而深入的理解时,它的表现会显得较为逊色。这通常是因为它在处理大量数据时,难以有效地捕捉和理解那些被浓缩于其中的关键语义概念,从而影响了整体的理解质量。

2024 年 7 月,微软在 Github 开源了基于此种方法构建的 GraphRAG 项目代码,本文将展开介绍此 GraphRAG 项目的构建过程。并且尝试使用 Deepseek-chat 模型和 ZhipuAI 的 embedding 模型构建一个 GraphRAG 系统,使用 Neo4j 图数据库进行数据的可视化。

有兴趣的同学也可以直接访问对应的代码仓库和文档,自己动手试一试。

相关推荐
码界筑梦坊9 小时前
356-基于Python的网易新闻数据分析系统
python·mysql·信息可视化·数据分析·django·vue·毕业设计
喵叔哟11 小时前
9.【.NET10 实战--孢子记账--产品智能化】--SP.MLService Microsoft.ML 升级到 .NET 10
microsoft·.net
2601_9549711312 小时前
2026运营岗想转数据分析怎样快速实现转型?
信息可视化·数据挖掘·数据分析
源码之家12 小时前
计算机毕业设计:Python农产品销售数据可视化分析系统 Django框架 数据分析 可视化 大数据 大模型 机器学习(建议收藏)✅
python·信息可视化·数据分析·django·flask·课程设计
源码之家15 小时前
计算机毕业设计:Python渔业资源数据可视化分析大屏 Flask框架 数据分析 可视化 数据大屏 大数据 机器学习 深度学习(建议收藏)✅
人工智能·python·信息可视化·数据挖掘·数据分析·flask·课程设计
UI设计兰亭妙微16 小时前
兰亭妙微设计|告别千篇一律:从闲鱼、嘀嗒、饿了么案例看UI设计的差异化巧思
信息可视化·高端网站设计
geBR OTTE16 小时前
Python中的简单爬虫
爬虫·python·信息可视化
SarL EMEN16 小时前
Python大数据可视化:基于大数据技术的共享单车数据分析与辅助管理系统_flask+hadoop+spider
大数据·python·信息可视化
源码之家17 小时前
计算机毕业设计:Python降水量分析与预警平台 Flask框架 数据分析 可视化 大数据 AI 大模型 爬虫 数据大屏(建议收藏)✅
人工智能·python·信息可视化·数据分析·django·flask·课程设计
源码之家18 小时前
计算机毕业设计:Python农业与气候数据可视化分析系统 Django框架 数据分析 可视化 爬虫 机器学习 大数据 深度学习(建议收藏)✅
大数据·python·机器学习·信息可视化·数据分析·django·课程设计