LLM文档对话 —— pdf解析关键问题

一、为什么需要进行pdf解析？

最近在探索ChatPDF和ChatDoc等方案的思路，也就是用LLM实现文档助手。在此记录一些难题和解决方案，首先讲解主要思想，其次以问题+回答的形式展开。

当利用LLMs实现用户与文档对话时，首要工作就是对文档中内容进行解析。

由于pdf是最通用，也是最复杂的文档形式，所以对pdf进行解析变成利用LLM实现用户与文档对话的重中之重工作。

如何精确地回答用户关于文档的问题，不重也不漏？笔者认为非常重要的一点是文档内容解析。如果内容都不能很好地组织起来，LLM只能瞎编。

pdf的解析大体上有两条路，一条是基于规则，一条是基于AI。

pdf转text这块存在一定的偏差，尤其是paper中包含了大量的figure和table，以及一些特殊的字符，直接调用langchain官方给的pdf解析工具，有一些信息甚至是错误的。

这里，一方面可以用arxiv的tex源码直接抽取内容，另一方面，可以尝试用各种ocr工具来提升表现。

对于长文档（书籍），如何获取其中关键信息，并构建索引：

方法一：分块索引法
- 介绍：直接对长文档（书籍）进行分块，然后构建索引入库。后期问答，只需要从库中召回和用户query相关的内容块进行拼接成文章，输入到LLMs生成回复；
- 存在问题：
  1. 将文章分块，会破坏文章语义信息；
  2. 对于长文章，会被分割成很多块，并构建很多索引，这严重影响知识库存储空间；
  3. 如果内容都不能很好地组织起来，LLM只能瞎编；
方法二：文本摘要法
- 介绍：直接利用文本摘要模型对每一篇长文档（书籍）做文本摘要，然后对文本摘要内容构建索引入库。后期问答，只需要从库中召回和用户query相关的摘要内容，输入到LLMs生成回复；
- 存在问题：
  1. 由于每篇长文档（书籍）内容比较多，直接利用文本摘要模型对其做文本摘要，需要比较大算力成本和时间成本；
  2. 生成的文本摘要存在部分内容丢失问题，不能很好的概括整篇文章；
方法三：多级标题构建文本摘要法：
- 介绍：把多级标题提取出来，然后适当做语义扩充，或者去向量库检索相关片段，最后用LLM整合即可。

没有处理过LLM文档对话的朋友可能不明白为什么要提取标题甚至是多级标题，因此我先来阐述提取标题对于LLM阅读理解的重要性有多大。

举个栗子：假如用户就想知道3.2节是从哪些方面讨论的（标准答案就是3个方面），如果我们没有将标题信息告诉LLM，而是把所有信息全部扔给LLM，那它大概率不会知道是3个方面（要么会少，要么会多。做过的朋友秒懂）

利用上述工具，可以得到了一个list，存储所有检测出来的标题

第三步：标题级别判断。利用标题区块的高度（也就是字号）来判断哪些是一级标题，哪些是二级、三级、...N级标题。这个时候我们发现一些目标检测模型提取的区块并不是严格按照文字的边去切，导致这个idea不能实施，那怎么办呢？unstructured的fast模式就是按照文字的边去切的，同一级标题的区块高度误差在0.001之间。因此我们只需要用unstructured拿到标题的高度值即可（虽然繁琐，但是不耗时，unstructured处理也在毫秒之间）。

我们来看看提取效果，按照标题级别输出：

动机：很多目标检测模型识别区块之后并不是顺序返回的，因此我们需要根据坐标重新组织顺序。单栏的很好办，直接按照中心点纵坐标排序即可。双栏pdf就很棘手了，有的朋友可能不知道pdf还有双栏形式

双栏论文示例

问题一：首先如何区分单双栏论文？
- 方法：得到所有区块的中心点的横坐标，用这一组横坐标的极差来判断即可，双栏论文的极差远远大于单栏论文，因此可以设定一个极差阈值。
问题二：双栏论文如何确定区块的先后顺序？
- 方法：先找到中线，将左右栏的区块分开，中线横坐标可以借助上述求极差的两个横坐标x1和x2来求，也就是(x1+x2)/2。分为左右栏区块后，对于每一栏区块按照纵坐标排序即可，最后将右栏拼接到左栏后边。

思路仍然是目标检测和OCR。无论是layoutparser还是PaddleOCR都有识别表格和图片的目标检测模型，而表格的数据可以直接OCR导出为excel形式数据，非常方便。

Layout parser效果示例

PP structure效果示例

提取出表格之后喂给LLM，LLM还是可以看懂的，可以设计prompt做一些指导。关于这一块两部分demo代码都很清楚明白，这里不再赘述。

笔者建议按照不同类型的pdf做特定处理，例如论文、图书、财务报表、PPT都可以根据特点做一些小的专有设计。

没有GPU的话目标检测模型建议用PaddlePaddle提供的，速度很快。Layout parser只是一个框架，目标检测模型和OCR工具可以自有切换。