rag-给一篇几百页的pdf,如何从中找到关键信息并汇总出关系图

小思考

  1. 对pdf肯定要做模糊chunk,能用模型切分就用模型切分,不能用模型就用规则,规则要尽可能保存连续文本,特殊数据格式(图、表格)必须完整保存,必须能被捕捉到。这些独立的表格or图数据,也要单独做embedding,以其中的title和行列title信息作embedding材料。也不能忘了传统搜索方法,基于搜索的、基于传统词频的、基于关键字的。。。
  2. 假设已经找到了信息所在的目标,如果它是个表格,怎么提取信息呢?首先,不能武断地直接让模型总结出最终关系图,缺少推理的LLM性能很差,所以需要先提取出目标信息中存在的所有与问题相关的单条信息,实现表格+文字->文字的转换,然后总结该文字,做成可解析的图表达,例如以三元组方式重写文字。最后,获得一个粗糙的关系图。
  3. 关系图并非完全可用,其中可能涉及实体消歧和同义路径合并的任务,所以还要作后处理。
相关推荐
若天明28 分钟前
深度学习-计算机视觉-微调 Fine-tune
人工智能·python·深度学习·机器学习·计算机视觉·ai·cnn
爱喝奶茶的企鹅29 分钟前
Ethan独立开发新品速递 | 2025-08-19
人工智能
J_bean38 分钟前
Spring AI Alibaba 项目接入兼容 OpenAI API 的大模型
人工智能·spring·大模型·openai·spring ai·ai alibaba
SelectDB1 小时前
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍
数据库·人工智能·数据分析
倔强青铜三1 小时前
苦练Python第39天:海象操作符 := 的入门、实战与避坑指南
人工智能·python·面试
飞哥数智坊1 小时前
GPT-5 初战:我用 Windsurf,体验了“结对编程”式的AI开发
人工智能·windsurf
数据超市1 小时前
香港数据合集:建筑物、手机基站、POI、职住数据、用地类型
大数据·人工智能·智能手机·数据挖掘·数据分析
视觉语言导航2 小时前
哈工深无人机目标导航新基准!UAV-ON:开放世界空中智能体目标导向导航基准测试
人工智能·深度学习·无人机·具身智能
yzx9910132 小时前
AI心理助手开发文档
人工智能·深度学习·机器学习
图灵学术计算机论文辅导2 小时前
论文推荐|迁移学习+多模态特征融合
论文阅读·人工智能·深度学习·计算机网络·算法·计算机视觉·目标跟踪