视觉语言模型

小小帅AIGC15 天前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.05-2024.06.10标题:TRINS:建立能够阅读的多模态语言模型author:Ruiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu, Changyou Chen, Tong Sun
小小帅AIGC19 天前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.01-2024.06.05标题:CountCLIP – [Re] 教 CLIP 数到十author:Harshvardhan Mestha, Tejas Agarwal, Karan Bania, Shreyas V, Yash Bhisikar
小小帅AIGC1 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.10-2024.05.20标题:Diff-BGM:视频背景音乐生成的扩散模型author:Sizhe Li, Yiming Qin, Minghang Zheng, Xin Jin, Yang Liu
小小帅AIGC1 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.15-2024.04.25标题:AutoGluon-Multimodal (AutoMM):用基础模型增强多模态 AutoMLauthor:Zhiqiang Tang, Haoyang Fang, Su Zhou, Taojiannan Yang, Zihan Zhong, Tony Hu, Katrin Kirchhoff, George Karypis
小小帅AIGC1 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.25-2024.05.01标题:用于领域泛化的软提示生成author:Shuanghao Bai, Yuedi Zhang, Wanqi Zhou, Zhirong Luan, Badong Chen
大数据AI人工智能培训专家培训讲师叶梓1 个月前
人工智能·计算机视觉·语言模型·自然语言处理·大模型·遥感·视觉语言模型
H2RSVLM:引领遥感视觉语言模型的革命随着人工智能技术的飞速发展,遥感图像理解在环境监测、气候变化、粮食安全和灾害预警等多个领域扮演着越来越重要的角色。然而,现有的通用视觉语言模型(VLMs)在处理遥感图像时仍面临挑战,主要因为遥感图像的独特性和当前VLMs相对有限的空间感知能力。为了克服这些限制,研究者们提出了H2RSVLM,即“Helpful and Honest Remote Sensing Vision Language Model”,这是一个专为遥感领域设计的新型视觉语言模型。本文将详细介绍H2RSVLM模型的创新之处,包括其用于R
HuggingFace2 个月前
视觉语言模型
PaliGemma 正式发布 — Google 最新发布的前沿开放视觉语言模型PaliGemma 是 Google 推出的新一代视觉语言模型家族,能够接收图像与文本输入并生成文本输出。
HuggingFace2 个月前
视觉语言模型
视觉语言模型详解视觉语言模型可以同时从图像和文本中学习,因此可用于视觉问答、图像描述等多种任务。本文,我们将带大家一览视觉语言模型领域: 作个概述、了解其工作原理、搞清楚如何找到真命天“模”、如何对其进行推理以及如何使用最新版的 trl 轻松对其进行微调。
小小帅AIGC3 个月前
人工智能·计算机视觉·语言模型·多模态·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.10-2024.04.15标题:利用受控视觉语言模型在野外进行逼真图像修复author:Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön
小小帅AIGC3 个月前
人工智能·深度学习·计算机视觉·大模型·多模态·视觉语言模型·vlm
多模态之ALBEF—先对齐后融合,利用动量蒸馏学习视觉语言模型表征,学习细节理解与论文详细阅读:Align before FuseAlign before Fuse: Vision and Language Representation Learning with Momentum Distillation (ALBEF)在融合之前对齐:利用动量蒸馏进行视觉与语言表示学习
小小帅AIGC3 个月前
人工智能·计算机视觉·语言模型·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.05-2024.04.10标题:BRAVE:拓宽视觉语言模型的视觉编码author:Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari
小小帅AIGC3 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.31-2024.04.05标题:了解你的邻居:通过空间视觉语言推理改进单视图重构author:Rui Li, Tobias Fischer, Mattia Segu, Marc Pollefeys, Luc Van Gool, Federico Tombari
小小帅AIGC3 个月前
人工智能·计算机视觉·语言模型·大模型·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.25-2024.03.31标题:无法解决的问题检测:评估视觉语言模型的可信度author:Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa
小小帅AIGC3 个月前
人工智能·深度学习·计算机视觉·语言模型·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.20-2024.03.25标题:极乐世界通过 MLLM 探索视频中的物体级感知author:Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang
小小帅AIGC4 个月前
人工智能·深度学习·计算机视觉·语言模型·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.05-2024.03.10标题:RESTORE:实现视觉语言提示学习的特征转移author:Yuncheng Yang, Chuyan Zhang, Zuopeng Yang, Yuting Gao, Yulei Qin, Ke Li, Xing Sun, Jie Yang, Yun Gu
小小帅AIGC4 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.01-2024.01.10标题:机器人融合:通过 SAM 实现稳健的多模态 3D 物体检测author:Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang
小小帅AIGC4 个月前
图像处理·人工智能·语言模型·llm·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.15-2024.02.20标题:你的视觉语言模型本身就是一个强大的过滤器:利用数据选择实现高质量的指令调整author:Ruibo Chen, Yihan Wu, Lichang Chen, Guodong Liu, Qi He, Tianyi Xiong, Chenxi Liu, Junfeng Guo, Heng Huang
小小帅AIGC4 个月前
人工智能·深度学习·计算机视觉·语言模型·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.01-2024.02.05标题:通过大型语言模型的帮助实现可通用的实体基础author:Lu Qi, Yi-Wen Chen, Lehan Yang, Tiancheng Shen, Xiangtai Li, Weidong Guo, Yu Xu, Ming-Hsuan Yang
小小帅AIGC4 个月前
图像处理·人工智能·语言模型·llm·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.20-2024.02.25标题:在大型视觉语言模型中表示在线手写识别author:Anastasiia Fadeeva, Philippe Schlattner, Andrii Maksai, Mark Collier, Efi Kokiopoulou, Jesse Berent, Claudiu Musat
小小帅AIGC4 个月前
人工智能·深度学习·计算机视觉·语言模型·llm·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.10-2024.02.15标题:文本到图像模型能否帮助多模态学习进行视觉模态缺失的视觉识别?author:Tiantian Feng, Daniel Yang, Digbalay Bose, Shrikanth Narayanan