技术栈
拍照扫描
知来者逆
10 个月前
深度学习
·
计算机视觉
·
ocr
·
多模态
·
clip
·
拍照扫描
·
扫描王
多模态——旷视大模型Vary更细粒度的视觉感知实现文档级OCR或图表理解
现代大型视觉语言模型(LVLMs),例如CLIP,使用一个共同的视觉词汇,以适应多样的视觉任务。然而,在处理一些需要更精细和密集视觉感知的特殊任务时,例如文档级OCR或图表理解,尤其是在非英语环境中,CLIP风格的视觉词汇表可能导致在标记化视觉知识方面效率较低,甚至可能导致词汇缺失的问题。