拍照扫描 - 拍照扫描技术,学习,经验文章

知来者逆

3 年前

多模态——旷视大模型Vary更细粒度的视觉感知实现文档级OCR或图表理解现代大型视觉语言模型（LVLMs），例如CLIP，使用一个共同的视觉词汇，以适应多样的视觉任务。然而，在处理一些需要更精细和密集视觉感知的特殊任务时，例如文档级OCR或图表理解，尤其是在非英语环境中，CLIP风格的视觉词汇表可能导致在标记化视觉知识方面效率较低，甚至可能导致词汇缺失的问题。