技术栈
multimodal
泡泡茶壶_ovo
4 天前
llms
·
multimodal
RETHINKING VISUAL INFORMATION PROCESSING IN MULTIMODAL LLMS
研究方向:Image Captioning本文提出了LLaViT,一种扩展的视觉Transformer,它通过三个关键修改使LLM能够同时充当视觉编码器:
我是有底线的