华为 MRAG:多模态检索增强生成技术论文阅读GitHub项目链接:https://github.com/PanguIR/MRAGSurvey多模态检索增强生成(MRAG)通过将文本、图像、视频等多模态数据整合到检索与生成过程中,显著提升了多模态大语言模型(MLLM)的性能。传统检索增强生成(RAG)系统主要依赖文本数据,通过动态引入外部知识有效减少了幻觉现象并提高了回答准确性,但其单模态特性限制了系统对多模态数据中丰富上下文信息的利用。MRAG通过扩展RAG框架实现多模态检索与生成,从而能够提供更全面且符合上下文语境的回答。在MRAG框架中,检索阶