何必先OCR再LLM?视觉语言模型直接读图,让百页长文档信息不丢失

视觉语言模型是功能强大的模型,它以图像而非传统大语言模型(LLM)所用的文本作为输入。这带来了许多可能性------我们可以直接处理文档内容,而不必先通过OCR提取文本,再把文本输入LLM。

在这篇文章中,我将讨论如何将视觉语言模型应用于长文本文档理解任务。这意味着将VLM用于处理超过100页的超长文档,或包含大量信息(如图纸)的高密度文档。我会介绍使用VLM时需要考虑的因素,以及可以用它们完成哪些任务。

为什么我们需要VLM?

我在之前的文章里多次讨论过VLM,并解释了为什么理解某些文档内容时VLM至关重要。主要原因是,文档中的许多信息需要通过视觉输入才能理解。

VLM的替代方案是使用OCR提取文本,然后交给LLM处理。但这样做的问题是,你只提取了文档中的文字,却忽略了视觉信息,例如:

  • 不同文本之间的相对位置关系
  • 非文本信息(即所有非字母内容,如图形、符号)
  • 文本与其他信息之间的相对位置

这些信息对于真正理解文档通常非常关键,因此往往直接使用VLM效果更好------直接输入图像,从而也能解读视觉信息。

对于长文档,使用VLM是一项挑战,因为表示视觉信息需要大量tokens。处理上百页文档因此是个大难题。不过,随着近期VLM技术的许多进步,模型在将视觉信息压缩到合理上下文长度方面做得越来越好,使得在长文档理解任务中应用VLM变得可行且实用。

使用VLM进行OCR

处理长文档并同时包含视觉信息的一个好方法是使用VLM来执行OCR。像Tesseract这样的传统OCR只能提取文档中的文字及其边界框。然而,VLM也经过训练可以执行OCR,并能进行更高级的文本提取,例如:

  • 提取Markdown格式文本
  • 解释纯视觉信息(例如,如果有绘图,用文字描述绘图)
  • 补充缺失信息(例如,如果有一个写着"日期"的框和后面的空白字段,可以指示OCR输出"日期 <空>")

最近,Deepseek发布了一款强大的基于VLM的OCR模型,引起了广泛关注,使得VLM用于OCR变得越来越流行。

  • Markdown

Markdown非常强大,因为它能提取带格式的文本。这使得模型可以:

  • 提供标题和子标题
  • 准确呈现表格
  • 标记粗体文本

这样,模型就能提取更具代表性的文本,更准确地描述文档的文本内容。如果此时再将LLM应用于此文本,LLM的表现将远优于应用于传统OCR提取的纯文本。

LLM在Markdown这类格式化文本上的表现,优于在传统OCR提取的纯文本上的表现。

  • 解释视觉信息

VLM OCR的另一个用途是解释视觉信息。例如,如果有一张没有任何文字的绘图,传统OCR不会提取任何信息,因为它只训练来提取文字字符。但你可以使用VLM来描述图像中的视觉内容。假设你有以下文档:

xml 复制代码
这是文档的介绍文本<显示埃菲尔铁塔的图片>这是文档的结论

如果应用像Tesseract这样的传统OCR,你会得到:

复制代码
这是文档的介绍文本这是文档的结论

这显然有问题,因为你没有包含关于埃菲尔铁塔图片的信息。相反,你应该使用VLM,它会输出类似这样的内容:

xml 复制代码
这是文档的介绍文本<图片>此图片描绘了白天的埃菲尔铁塔</图片>这是文档的结论

如果你在第一个文本上使用LLM,它当然不会知道文档包含埃菲尔铁塔的图片。但是,如果你在第二个由VLM提取的文本上使用LLM,那么LLM在回答关于文档的问题时自然会表现得更好。

  • 补充缺失信息

你还可以提示VLM在信息缺失时输出相应内容。要理解这个概念,请看下图:

如果你对此图像应用传统OCR,会得到:

复制代码
地址 1号路日期公司 谷歌

但是,如果使用VLM(并给予相应指示),它可能会输出:

xml 复制代码
地址 1号路日期 <空>公司 谷歌

这样更具信息性,因为我们告知了下游模型日期字段是空的。如果不提供这个信息,以后将无法知道日期是缺失了、OCR未能提取,还是出于其他原因。

然而,使用VLM进行OCR仍然存在一些传统OCR所面临的问题,因为它不是直接处理视觉信息。你可能听过"一图胜千言"的说法,这在处理文档中的视觉信息时往往成立。是的,你可以用VLM作为OCR来提供绘图的文字描述,但这个文字描述永远不如绘图本身那样具有描述性。因此,我认为在很多情况下,直接使用VLM处理文档是更好的选择,我将在接下来的部分讨论这一点。

  • 开源模型与闭源模型

目前有很多可用的VLM。我关注HuggingFace的VLM排行榜,以了解任何新的高性能模型。根据这个排行榜,如果你想通过API使用闭源模型,应该选择Gemini 2.5 Pro或GPT-5。根据我的经验,这些是处理长文档理解和复杂文档的很好选择,效果不错。

但是,出于隐私、成本考虑,或者想对自己的应用有更多控制,你可能也想使用开源模型。在这种情况下,SenseNova-V6--5-Pro位居榜首。我个人没有尝试过这个模型,但我经常使用Qwen 3 VL,它给我的体验很好。Qwen还发布了一个专门针对长文档理解的指南。

  • 处理能力考量

如果你运行的是开源模型,主要考虑之一是你能运行多大的模型以及所需时间。你至少需要访问一块较大的GPU,在大多数情况下至少是A100。幸运的是,这已经广泛可用且相对便宜(通常每小时成本在1.5-2美元左右,很多云服务商现在都提供)。但是,你还必须考虑可接受的延迟。运行VLM需要大量处理能力,你需要考虑以下因素:

  • 处理一个请求可以接受多长时间?
  • 需要多高的图像分辨率?
  • 需要处理多少页?

例如,如果你有一个实时聊天,就需要快速处理;然而,如果你只是进行后台处理,则可以允许更长的处理时间。

图像分辨率也是一个重要的考虑因素。如果需要能够阅读文档中的文字,你需要高分辨率的图像,通常超过2048×2048,当然这具体取决于文档。例如,带有小文字的详细图纸将需要更高的分辨率。提高分辨率会大大增加处理时间,这是一个重要的考量点。你应该力求使用能够完成所有任务的最低分辨率。此外,页数也是一个类似的考虑因素。增加页数通常是为了获取文档中的所有信息。然而,通常最重要的信息包含在文档的前部分,所以你可能只需要处理前10页。

对于研究者和开发者来说,获取、部署和测试这些不同的开源VLM模型本身就是一个挑战。如果你对于OCR模型或更广泛的视觉语言模型感兴趣,并希望快速进行实验、评估或应用开发,可以进入Coovally平台。它提供了一个集成的AI算法平台,能够方便地访问、管理和部署包括各类前沿VLM在内的开源模型,大幅降低了从模型选择到实际应用的门槛。

处理长文档和高分辨率图像对算力要求极高,自行搭建和维护这样的GPU环境涉及复杂的资源配置与优化。Coovally平台不仅提供模型资源,还可以帮助你提供AI解决方案,可以扫描二维码,我们来给你提供解决方案!!

点击阅读原文,即可体验Coovally平台!

  • 答案依赖型处理

为了降低所需的处理能力,你可以尝试从简单开始,只有在没有得到想要的答案时才进行更复杂的处理。

例如,你可以先只查看前10页,看看是否能妥善完成任务,比如从文档中提取一条信息。只有当我们无法提取该信息时,才开始查看更多页面。你可以对图像分辨率应用相同的概念,从较低分辨率开始,然后根据需要提高到所需的高分辨率。

这种分层处理可以减少所需的处理能力,因为大多数任务可能只需要查看前10页或使用较低分辨率图像就能解决。然后,只有在必要时,我们才继续处理更多图像或更高分辨率的图像。

  • 成本

使用VLM时,成本是一个重要的考虑因素。我处理过很多文档,通常发现使用图像(VLM)比使用文本(LLM)时token数量会增加大约10倍。由于在长文档任务中,输入tokens通常是成本的主要驱动因素,使用VLM通常会显著增加成本。请注意,对于OCR,关于输出tokens比输入tokens多的这一点不适用,因为OCR在输出图像中的所有文本时自然会生成大量输出tokens。

因此,在使用VLM时,最大限度地利用缓存的tokens非常重要。

结论

在本文中,我讨论了如何将视觉语言模型应用于长文档,以处理复杂的文档理解任务。我阐述了VLM为何如此重要,以及在长文档上使用VLM的方法。例如,你可以使用VLM进行更复杂的OCR,或者直接将VLM应用于长文档,但需要注意所需的处理能力、成本和延迟。我认为VLM正变得越来越重要,Deepseek OCR的近期发布就凸显了这一点。因此,我认为你应该涉足VLM用于文档理解这个领域,并学习如何在文档处理应用中使用VLM。

相关推荐
CoovallyAIHub2 小时前
NAN-DETR:集中式噪声机制如何让检测更“团结”?
深度学习·算法·计算机视觉
CoovallyAIHub2 小时前
火箭工程大学多模态遥感检测新框架MROD-YOLO:如何将小目标检测精度提升至77.9%?
深度学习·算法·计算机视觉
CoovallyAIHub2 小时前
未来物体检测趋势:需要关注的 7 个关键问题
深度学习·算法·计算机视觉
业精于勤的牙2 小时前
小张刷题计划(二)
数据结构·算法
谈笑也风生2 小时前
期望个数统计(二)
算法
hans汉斯2 小时前
【人工智能与机器人研究】人工智能算法伦理风险的适应性治理研究——基于浙江实践与欧美经验的整合框架
大数据·人工智能·算法·机器人·数据安全·算法伦理·制度保障
CoderYanger2 小时前
动态规划算法-两个数组的dp(含字符串数组):42.不相交的线
java·算法·leetcode·动态规划·1024程序员节
白日做梦Q3 小时前
Transformer 能否取代 CNN?图像去噪中的新范式探索
深度学习·cnn·transformer
南极星10053 小时前
OPENCV(python)--初学之路(十四)哈里斯角检测
人工智能·opencv·计算机视觉