技术栈

multimodal

泡泡茶壶_ovo
4 天前
llms·multimodal
RETHINKING VISUAL INFORMATION PROCESSING IN MULTIMODAL LLMS研究方向:Image Captioning本文提出了LLaViT,一种扩展的视觉Transformer,它通过三个关键修改使LLM能够同时充当视觉编码器:
我是有底线的