rag-给一篇几百页的pdf，如何从中找到关键信息并汇总出关系图

蒸土豆的技术细节2025-03-24 1:01

小思考

对pdf肯定要做模糊chunk，能用模型切分就用模型切分，不能用模型就用规则，规则要尽可能保存连续文本，特殊数据格式（图、表格）必须完整保存，必须能被捕捉到。这些独立的表格or图数据，也要单独做embedding，以其中的title和行列title信息作embedding材料。也不能忘了传统搜索方法，基于搜索的、基于传统词频的、基于关键字的。。。
假设已经找到了信息所在的目标，如果它是个表格，怎么提取信息呢？首先，不能武断地直接让模型总结出最终关系图，缺少推理的LLM性能很差，所以需要先提取出目标信息中存在的所有与问题相关的单条信息，实现表格+文字->文字的转换，然后总结该文字，做成可解析的图表达，例如以三元组方式重写文字。最后，获得一个粗糙的关系图。
关系图并非完全可用，其中可能涉及实体消歧和同义路径合并的任务，所以还要作后处理。