Datawhale AI夏令营 - RAG task2方案介绍

蔡大锅2025-08-09 23:55

task2 使用mineru的方案解析文本 1、需要重新下载新的代码：spark_multi_rag 2、使用UV迁移环境 3、将相关文件拷贝放到datas文件下 4、使用mineru进行文件内容的解析 5、配置.env 运行RAG检索代码

数据处理与输入： - 采集、预处理多模态数据，提取文本、图像等特征，统一格式后输入系统，为后续检索和生成奠基。 - 关注数据质量，如文本准确性、图像清晰度，避免噪声干扰。
知识检索环节： - 基于输入特征，从构建的知识图谱、文档库等知识源中检索相关信息，涵盖文本知识匹配、图像语义关联检索，筛选与问题相关的多模态知识片段。 - 优化检索算法，平衡召回率（找全相关知识）和精确率（过滤无关内容），提升检索效率与质量。
生成与融合阶段： - 将检索到的多模态知识，结合大模型进行生成处理，融合文本描述、图像关联信息，构建完整、准确且贴合多模态场景的回答。 - 注重多模态信息融合逻辑，让文本与图像等知识自然协同，提升输出的可读性和实用性。
评估与迭代： - 用准确率、用户满意度等指标，评估生成结果，发现流程漏洞（如检索遗漏、融合生硬）。 - 依据评估反馈，迭代优化数据处理、检索策略、生成模型等环节，持续提升方案性能。