技术栈

multimodal

泡泡茶壶_ovo
21 天前
人工智能·深度学习·计算机视觉·imagecaptioning·multimodal
Zero-Shot Image Captioning with Multi-type Entity Representations(AAAI 2025)研究方向:Image Captioning传统方法通常需要大量的图像-文本对数据进行训练,这在数据获取方面提出了挑战;
泡泡茶壶_ovo
1 个月前
llms·multimodal
RETHINKING VISUAL INFORMATION PROCESSING IN MULTIMODAL LLMS研究方向:Image Captioning本文提出了LLaViT,一种扩展的视觉Transformer,它通过三个关键修改使LLM能够同时充当视觉编码器:
我是有底线的