rag-给一篇几百页的pdf,如何从中找到关键信息并汇总出关系图

小思考

  1. 对pdf肯定要做模糊chunk,能用模型切分就用模型切分,不能用模型就用规则,规则要尽可能保存连续文本,特殊数据格式(图、表格)必须完整保存,必须能被捕捉到。这些独立的表格or图数据,也要单独做embedding,以其中的title和行列title信息作embedding材料。也不能忘了传统搜索方法,基于搜索的、基于传统词频的、基于关键字的。。。
  2. 假设已经找到了信息所在的目标,如果它是个表格,怎么提取信息呢?首先,不能武断地直接让模型总结出最终关系图,缺少推理的LLM性能很差,所以需要先提取出目标信息中存在的所有与问题相关的单条信息,实现表格+文字->文字的转换,然后总结该文字,做成可解析的图表达,例如以三元组方式重写文字。最后,获得一个粗糙的关系图。
  3. 关系图并非完全可用,其中可能涉及实体消歧和同义路径合并的任务,所以还要作后处理。
相关推荐
wei_shuo2 小时前
OB Cloud 云数据库V4.3:SQL +AI全新体验
数据库·人工智能·sql
努力的搬砖人.2 小时前
AI生成视频推荐
人工智能
想要成为计算机高手3 小时前
Helix:一种用于通用人形控制的视觉语言行动模型
人工智能·计算机视觉·自然语言处理·大模型·vla
Mory_Herbert3 小时前
5.1 神经网络: 层和块
人工智能·深度学习·神经网络
Evand J4 小时前
MATLAB程序演示与编程思路,相对导航,四个小车的形式,使用集中式扩展卡尔曼滤波(fullyCN-EKF)
人工智能·算法
知来者逆5 小时前
在与大语言模型交互中的礼貌现象:技术影响、社会行为与文化意义的多维度探讨
人工智能·深度学习·语言模型·自然语言处理·llm
xwz小王子8 小时前
Taccel:一个高性能的GPU加速视触觉机器人模拟平台
人工智能·机器人
深空数字孪生8 小时前
AI时代的数据可视化:未来已来
人工智能·信息可视化
Icoolkj8 小时前
探秘 Canva AI 图像生成器:重塑设计创作新范式
人工智能
魔障阿Q9 小时前
windows使用bat脚本激活conda环境
人工智能·windows·python·深度学习·conda