multimodal - multimodal技术,学习,经验文章

泡泡茶壶_ovo

7 个月前

Zero-Shot Image Captioning with Multi-type Entity Representations（AAAI 2025）研究方向：Image Captioning传统方法通常需要大量的图像-文本对数据进行训练，这在数据获取方面提出了挑战；