rag-给一篇几百页的pdf,如何从中找到关键信息并汇总出关系图

小思考

  1. 对pdf肯定要做模糊chunk,能用模型切分就用模型切分,不能用模型就用规则,规则要尽可能保存连续文本,特殊数据格式(图、表格)必须完整保存,必须能被捕捉到。这些独立的表格or图数据,也要单独做embedding,以其中的title和行列title信息作embedding材料。也不能忘了传统搜索方法,基于搜索的、基于传统词频的、基于关键字的。。。
  2. 假设已经找到了信息所在的目标,如果它是个表格,怎么提取信息呢?首先,不能武断地直接让模型总结出最终关系图,缺少推理的LLM性能很差,所以需要先提取出目标信息中存在的所有与问题相关的单条信息,实现表格+文字->文字的转换,然后总结该文字,做成可解析的图表达,例如以三元组方式重写文字。最后,获得一个粗糙的关系图。
  3. 关系图并非完全可用,其中可能涉及实体消歧和同义路径合并的任务,所以还要作后处理。
相关推荐
格林威7 分钟前
液态透镜技术在工业镜头中的应用?
人工智能·数码相机·opencv·计算机视觉·视觉检测·相机·工业镜头
Single19 分钟前
从“端到端”到“人到人”:一种以需求直接满足为核心的新一代人机交互范式
人工智能·物联网·人机交互·具身智能
北京耐用通信31 分钟前
自动化通信谜团:耐达讯自动化Modbus RTU如何变身 Profibus连接触摸屏
人工智能·网络协议·自动化·信息与通信
忆~遂愿37 分钟前
谷歌云+Apache Airflow,数据处理自动化的强力武器
人工智能·python·深度学习·opencv·自动化·apache
sensen_kiss44 分钟前
INT305 Machine Learning 机器学习 Pt.1 导论与 KNN算法
人工智能·算法·机器学习
拉姆哥的小屋2 小时前
VAE-NPN跨域室内定位的实战与思考
人工智能·毕设
IT_陈寒2 小时前
JavaScript性能优化:这7个V8引擎技巧让我的应用速度提升了50%
前端·人工智能·后端
拉姆哥的小屋2 小时前
突破传统!基于SAM架构的双模态图像分割:让AI“看见“红外与可见光的完美融合
人工智能·架构
AI数据皮皮侠4 小时前
中国上市公司数据(2000-2023年)
大数据·人工智能·python·深度学习·机器学习
我爱计算机视觉4 小时前
ICCV 2025 (Highlight) Being-VL:师夷长技,用NLP的BPE算法统一视觉语言模型
人工智能·算法·语言模型·自然语言处理