技术栈

拍照扫描

知来者逆
1 年前
深度学习·计算机视觉·ocr·多模态·clip·拍照扫描·扫描王
多模态——旷视大模型Vary更细粒度的视觉感知实现文档级OCR或图表理解现代大型视觉语言模型(LVLMs),例如CLIP,使用一个共同的视觉词汇,以适应多样的视觉任务。然而,在处理一些需要更精细和密集视觉感知的特殊任务时,例如文档级OCR或图表理解,尤其是在非英语环境中,CLIP风格的视觉词汇表可能导致在标记化视觉知识方面效率较低,甚至可能导致词汇缺失的问题。