合合信息：TextIn文档解析技术与高精度文本向量化模型再加速

文章目录

前言
现有大模型文档解析问题
诉求
文档解析技术
文本向量化模型
结语

前言

随着人工智能技术的持续演进，大语言模型在我们日常生活中正逐渐占据举足轻重的地位。大模型语言通常需要庞大的知识库来支持其生成和理解自然语言的能力。文档解析技术可以帮助从各种来源（如学术论文、技术文档、新闻报道等）中提取和整合信息，构建出全面且准确的知识库。这些知识库是模型进行语言理解和生成的基础。

那么什么是文档解析技术呢？文档解析技术是指对文档进行深入分解、分析和理解的过程，目的是从中提取和整合有用的信息。这个过程通常涉及对文档的标题、段落、段落关系以及文档中的其他关键元素进行详细的分析。通过文档解析，我们可以更好地理解文档的结构、内容和主题，从而更有效地利用这些信息。

现有大模型文档解析问题

既然文档解析这么重要，那他的发展应该引起大家足够的重视，我们先来看一下目前市场上的现有大模型在文档解析领域都出现了哪些问题呢？

表格无法解析

如上图所示，我们将一篇文档输入给ChatGPT4，并让它根据文件来回答一下"精氨酸在40度的水中，溶解度是多少"。右图明确指出该答案是"31.9"，而ChatGPT4却给出了错误答案，这就意味着ChatGPT4并没有对提供的文档进行准确地解析。

无法按照阅读顺序解析

无法按照阅读顺序解析通常指的是在文档解析或内容呈现过程中，系统无法按照人类阅读的自然顺序（如从左到右、从上到下）来正确解析或展示文档内容。来看个例子

我们依旧给ChatGPT4提供了一篇文章，并让它根据文档内容回答一下本书致谢环节提到的致谢对象，它给出的结果依旧不理想。

文档编码错误

如下图所示，ChatGPT4在解析文档的过程中出现了文档编码错误，这表明在大模型训练或者应用过程中仍然存在文档编码问题。

诉求

当然出现以上问题都是我们所不能忍受的，毕竟我们不仅仅需要大模型帮我们提高工作的效率，更重要的是我们需要让他对准确度负责，因为准确性是使用他的前提。如果连准确度都不能做保证的话，那一切都将没有任何意义。

我认为我们对高效获取高质量数据的要求是希望在大模型训练和应用的部分，可以将PDF、Word、扫描件的阅读顺序还原准确、识别速度快、支持论文等多种排版文档、元素识别准确，尤其是表格、段落、公式、标题等多个方面。

说到这儿，我就不得不提一下合合信息推出的TextIn 平台了，如下图所示，TextIn不仅包含文档解析技术，还包括文本向量化模型技术。接下来阿Q将对他们依次进行介绍。

文档解析技术

在了解TextIn文档解析技术之前我们先来说一下他的大模型在训练和应用过程中都对哪些文档进行了分析吧！据我所知，他的大模型训练所使用的文档种类比较丰富，比如：合同、书籍、论文、产品说明书、公文函、财报等。

技术难点

要想将以上多种文档进行准确无误的识别并且解析，在大模型的训练和应用过程中需要克服和解决各种各样的技术难点：

版面检测：元素遮盖重叠、元素本身有多样性、复杂版式（双栏、跨页、三栏）；
阅读顺序还原困难：多栏的影响、多栏和插入表格的影响；
表格还原：无线表格识别、合并单元格识别；
公式识别：单行公式与行内公式、表格内公式；

技术架构

为了克服以上提到的种种技术难点，合合信息设计出了以下TextIn文档解析技术架构。

该技术架构底层是基于测评工具链和数据工具链的基建层，算法层分为文档解析引擎、检测引擎和图像识别引擎，算法层主要用来完成一个文档将多页拆分成单页，同时将其中的每一个元素进行检测和图像识别。

至于应用层的话，可以分为以下三步走：

第一步：将多页文档进行拆分，并且将其中的电子档和扫描档经过不同的解析引擎进行解析，并最终形成了文档表征的基础特征。
第二步：将基础的文档的表征，比如表格、页眉、页脚、目录、文字、图形等做版面分析、跨页合并、图层分离、处理多节点关系，最终的目的是将一个多元的不同格式的文档输出为大模型可以理解的顺序的文档
第三步：文档的重建，输出成一个markdown文件。

接入层的话为应用的最终形态，用于对外提供API、SDK、私有化镜像以及web端的产品。

关键技术

Layout-engine版面分析框架：将电子档和扫描档经过不同的物理和逻辑版面分析，拿到文档中所有的元素：段落、公式、目录、页眉、页脚等，在整合成可以被大模型顺利阅读的有顺序性的内容。

Catelog-engine文档树提取技术：

通过输入整份文档的段落内容，以序列化形式传入模型。
文档树引擎提取当前段落的embedding值，预测每个段落和上一个段落的关系，分为子标题、子段落、合并、旁系、主标题、表格标题等。如果是旁系类型，则再往上找父节点，并判断其层级关系，直到找到最终的父节点。
最后基于每个段落的情况，构造该文档的文档树，并按 JSON 结构输出。

回根溯源

有了以上技术的加持之后，我们再来对ChatGPT4来进行下测验，此时我们不再上传PDF格式的文件，而是将被TextIn技术处理后得到的markdown文件整理成txt文件进行上传，通过下图我们可以看出ChatGPT4已经可以完全回答正确了。

至于其他两个问题，咱们直接上图，不做太多解释，就是这么自信。

文本向量化模型

近期，合合信息发布了文本向量化模型acge_text_embedding（简称"acge模型"），获得MTEB中文榜单（C-MTEB）第一的成绩，相关成果将有助于大模型更快速地在行业中产生应用价值。

结语

合合信息是一家深耕人工智能与大数据领域的科技企业，凭借独特的智能文字识别与商业大数据核心技术，为全球的个人用户（C端）和各行各业的企业客户（B端）提供前沿的数字化、智能化解决方案。

TextIn是合合信息推出的智能文档处理产品，旨在为全球用户提供智能图像处理、文字表格识别、文档内容提取产品。希望所有对技术充满热情的朋友们，前往TextIn的官方网站来亲身体验图像处理的智能化、文字与表格识别的精准度，以及文档内容的高效提取。更多精彩功能等待您的探索，快来开启您的智能化体验之旅吧！