pdf解析

Nicolas8933 天前
大模型·知识库·pdf解析·ai工具·解析工具·双栏解析·忠诚度
【大模型&算法工程】大模型应用工具化、忠诚度以及知识库场景下PDF双栏解析问题的讨论接触大模型久了,也慢慢探到一些大模型能力表现非常自然和突出的场景,比如AI搜索(依赖大模型的理解总结能力)、AI对话(即chat,依赖大模型的生成能力)、AI工具使用(即智能体,依赖大模型的规划能力),应该说目前主流应用就是围绕这三个点进行的,没有例外。比如近期推出的夸克超级框、manus智能体工具、ima知识库都是如此。
技术狂潮AI10 个月前
人工智能·pdf解析·gpt-4o·rag高级检索
RAG 高级应用:基于 Nougat、HTML 转换与 GPT-4o 解析复杂 PDF 内嵌表格RAG(检索增强生成)应用最具挑战性的方面之一是如何处理复杂文档的内容,例如 PDF 文档中的图像和表格,因为这些内容不像传统文本那样容易解析和检索。前面我们有介绍过如何使用 LlamaIndex 提供的 LlamaParse 技术解析复杂PDF文档(文档中包含图片和表格)LlamaParse 技术整体来看,对于PDF文档常规文本的提取还是比较准确的,但对于表格内容的处理,检索准确率依然还存在比较大的空间,是否还有其它更好的方案来解决呢,今天我们来继续介绍几种与嵌入式表格相关的 RAG 策略,剖析文档解析
风中凌乱的小精灵2 年前
python·pdf解析
工具分享 | PDF文档解析工具PyMuPDF最近工作需要从PDF文档中按照章节解析出对应的文本和图片(后续可能还会有表格),经过调研,找到了一个功能强大的解析工具MuPDF,对应的Python包是PyMuPDF。本篇博客记录使用它来实现具体功能。