技术栈

pdfminer

AI原吾
7 个月前
python·ai·1024程序员节·pdfminer
探索PDFMiner:Python中的PDF解析利器在数字化时代,PDF文件因其便携性和广泛兼容性成为文档交换的标准格式。然而,从PDF中提取有用信息一直是个挑战。PDFMiner库应运而生,专门解决这一问题。它不仅能提取文本,还能获取字体信息、页面布局、表格、图片以及文档元数据。
engchina
10 个月前
pdfminer·unstructured·rect_to_bbox
解析 unstructured pdfminer_utils.py rect_to_bbox 坐标转换函数今天,我们来学习一个有趣的Python函数。这个函数可以帮助我们转换PDF文档中的坐标。虽然听起来很复杂,但是我们可以通过一个简单的例子来理解它。
engchina
10 个月前
开发语言·python·pdfminer
解析 pdfminer layout.py LAParams类及其应用实例在这篇文章中,我们将解析一个叫做 LAParams 的类。这个类主要用于布局分析,帮助我们理解文本的结构。我们将使用简单的语言和示例来解释每个参数的含义和作用。
linmoo1986
10 个月前
embedding·向量数据库·rag·pypdf·文档分块·pdfminer
检索增强生成RAG系列3--RAG优化之文档处理在上一章中罗列了对RAG准确度的几个重要关键点,主要包括2方面,这一章就针对其中一方面,来做详细的讲解以及其解决方案。