技术栈
pdfminer
AI原吾
2 个月前
python
·
ai
·
1024程序员节
·
pdfminer
探索PDFMiner:Python中的PDF解析利器
在数字化时代,PDF文件因其便携性和广泛兼容性成为文档交换的标准格式。然而,从PDF中提取有用信息一直是个挑战。PDFMiner库应运而生,专门解决这一问题。它不仅能提取文本,还能获取字体信息、页面布局、表格、图片以及文档元数据。
engchina
6 个月前
pdfminer
·
unstructured
·
rect_to_bbox
解析 unstructured pdfminer_utils.py rect_to_bbox 坐标转换函数
今天,我们来学习一个有趣的Python函数。这个函数可以帮助我们转换PDF文档中的坐标。虽然听起来很复杂,但是我们可以通过一个简单的例子来理解它。
engchina
6 个月前
开发语言
·
python
·
pdfminer
解析 pdfminer layout.py LAParams类及其应用实例
在这篇文章中,我们将解析一个叫做 LAParams 的类。这个类主要用于布局分析,帮助我们理解文本的结构。我们将使用简单的语言和示例来解释每个参数的含义和作用。
linmoo1986
6 个月前
embedding
·
向量数据库
·
rag
·
pypdf
·
文档分块
·
pdfminer
检索增强生成RAG系列3--RAG优化之文档处理
在上一章中罗列了对RAG准确度的几个重要关键点,主要包括2方面,这一章就针对其中一方面,来做详细的讲解以及其解决方案。