rag-给一篇几百页的pdf,如何从中找到关键信息并汇总出关系图

小思考

  1. 对pdf肯定要做模糊chunk,能用模型切分就用模型切分,不能用模型就用规则,规则要尽可能保存连续文本,特殊数据格式(图、表格)必须完整保存,必须能被捕捉到。这些独立的表格or图数据,也要单独做embedding,以其中的title和行列title信息作embedding材料。也不能忘了传统搜索方法,基于搜索的、基于传统词频的、基于关键字的。。。
  2. 假设已经找到了信息所在的目标,如果它是个表格,怎么提取信息呢?首先,不能武断地直接让模型总结出最终关系图,缺少推理的LLM性能很差,所以需要先提取出目标信息中存在的所有与问题相关的单条信息,实现表格+文字->文字的转换,然后总结该文字,做成可解析的图表达,例如以三元组方式重写文字。最后,获得一个粗糙的关系图。
  3. 关系图并非完全可用,其中可能涉及实体消歧和同义路径合并的任务,所以还要作后处理。
相关推荐
腾讯云开发者几秒前
TVP首场香港活动重磅启幕,AI出海变革风向如何把握?
人工智能
wasp520几秒前
Spring AI 代码分析(十)--Spring Boot集成
人工智能·spring boot·spring
AI即插即用8 分钟前
即插即用系列 | 2025 MambaNeXt-YOLO 炸裂登场!YOLO 激吻 Mamba,打造实时检测新霸主
人工智能·pytorch·深度学习·yolo·目标检测·计算机视觉·视觉检测
BagMM26 分钟前
DetLH论文阅读
人工智能·计算机视觉·目标跟踪
fundroid38 分钟前
Androidify:谷歌官方 AI + Android 开源示例应用
android·人工智能·开源
居然JuRan1 小时前
大模型瘦身术:量化与蒸馏技术全解析
人工智能
艾莉丝努力练剑1 小时前
【优选算法必刷100题】第031~32题(前缀和算法):连续数组、矩阵区域和
大数据·人工智能·线性代数·算法·矩阵·二维前缀和
不去幼儿园1 小时前
【启发式算法】灰狼优化算法(Grey Wolf Optimizer, GWO)详细介绍(Python)
人工智能·python·算法·机器学习·启发式算法
remaindertime1 小时前
基于Ollama和Spring AI:实现本地大模型对话与 RAG 功能
人工智能·后端·ai编程
y***54881 小时前
Vue语音识别开发
人工智能·语音识别