vlm

loong_XL13 天前
大模型·aigc·视频·vlm
AI在线免费视频工具2:视频配声音;图片说话hedrahttps://deepmind.google/discover/blog/generating-audio-for-video/ https://www.videotosoundeffects.com/ (免费在线使用)
小小帅AIGC15 天前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.05-2024.06.10标题:TRINS:建立能够阅读的多模态语言模型author:Ruiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu, Changyou Chen, Tong Sun
小小帅AIGC18 天前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.01-2024.06.05标题:CountCLIP – [Re] 教 CLIP 数到十author:Harshvardhan Mestha, Tejas Agarwal, Karan Bania, Shreyas V, Yash Bhisikar
小小帅AIGC1 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.10-2024.05.20标题:Diff-BGM:视频背景音乐生成的扩散模型author:Sizhe Li, Yiming Qin, Minghang Zheng, Xin Jin, Yang Liu
小小帅AIGC1 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.15-2024.04.25标题:AutoGluon-Multimodal (AutoMM):用基础模型增强多模态 AutoMLauthor:Zhiqiang Tang, Haoyang Fang, Su Zhou, Taojiannan Yang, Zihan Zhong, Tony Hu, Katrin Kirchhoff, George Karypis
小小帅AIGC1 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.25-2024.05.01标题:用于领域泛化的软提示生成author:Shuanghao Bai, Yuedi Zhang, Wanqi Zhou, Zhirong Luan, Badong Chen
小小帅AIGC1 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态大模型·vlm·视觉语言大模型
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.20-2024.05.25标题:LM4LV:用于低级视觉任务的冻结大型语言模型author:Boyang Zheng, Jinjin Gu, Shijun Li, Chao Dong
熊猫小伙2 个月前
llm·rag·vlm
【第3节】“茴香豆“:搭建你的 RAG 智能助理【资源汇总】文档 | 视频 | 论文:Retrieval-Augmented Generation for Large Language Models: A Survey
小小帅AIGC3 个月前
人工智能·计算机视觉·语言模型·多模态·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.10-2024.04.15标题:利用受控视觉语言模型在野外进行逼真图像修复author:Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön
小小帅AIGC3 个月前
人工智能·深度学习·计算机视觉·大模型·多模态·视觉语言模型·vlm
多模态之ALBEF—先对齐后融合,利用动量蒸馏学习视觉语言模型表征,学习细节理解与论文详细阅读:Align before FuseAlign before Fuse: Vision and Language Representation Learning with Momentum Distillation (ALBEF)在融合之前对齐:利用动量蒸馏进行视觉与语言表示学习
小小帅AIGC3 个月前
人工智能·计算机视觉·语言模型·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.05-2024.04.10标题:BRAVE:拓宽视觉语言模型的视觉编码author:Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari
小小帅AIGC3 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.31-2024.04.05标题:了解你的邻居:通过空间视觉语言推理改进单视图重构author:Rui Li, Tobias Fischer, Mattia Segu, Marc Pollefeys, Luc Van Gool, Federico Tombari
小小帅AIGC3 个月前
人工智能·计算机视觉·语言模型·大模型·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.25-2024.03.31标题:无法解决的问题检测:评估视觉语言模型的可信度author:Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa
小小帅AIGC3 个月前
人工智能·深度学习·计算机视觉·语言模型·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.20-2024.03.25标题:极乐世界通过 MLLM 探索视频中的物体级感知author:Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang
小小帅AIGC4 个月前
人工智能·深度学习·计算机视觉·语言模型·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.05-2024.03.10标题:RESTORE:实现视觉语言提示学习的特征转移author:Yuncheng Yang, Chuyan Zhang, Zuopeng Yang, Yuting Gao, Yulei Qin, Ke Li, Xing Sun, Jie Yang, Yun Gu
小小帅AIGC4 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.01-2024.01.10标题:机器人融合:通过 SAM 实现稳健的多模态 3D 物体检测author:Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang
小小帅AIGC4 个月前
图像处理·人工智能·语言模型·llm·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.15-2024.02.20标题:你的视觉语言模型本身就是一个强大的过滤器:利用数据选择实现高质量的指令调整author:Ruibo Chen, Yihan Wu, Lichang Chen, Guodong Liu, Qi He, Tianyi Xiong, Chenxi Liu, Junfeng Guo, Heng Huang
小小帅AIGC4 个月前
人工智能·计算机视觉·语言模型·自然语言处理·llm·vlm·视觉语言大模型
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.15-2024.01.20标题:RAD-DINO:探索文本监督之外的可扩展医学图像编码器author:Fernando Pérez-García, Harshita Sharma, Sam Bond-Taylor, Kenza Bouzid, Valentina Salvatelli, Maximilian Ilse, Shruthi Bannur, Daniel C. Castro, Anton Schwaighofer, Matthew P. Lungren, Maria Wetscherek, Noel Codella, S
小小帅AIGC4 个月前
人工智能·深度学习·计算机视觉·语言模型·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.01-2024.02.05标题:通过大型语言模型的帮助实现可通用的实体基础author:Lu Qi, Yi-Wen Chen, Lehan Yang, Tiancheng Shen, Xiangtai Li, Weidong Guo, Yu Xu, Ming-Hsuan Yang
小小帅AIGC4 个月前
图像处理·人工智能·语言模型·llm·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.20-2024.02.25标题:在大型视觉语言模型中表示在线手写识别author:Anastasiia Fadeeva, Philippe Schlattner, Andrii Maksai, Mark Collier, Efi Kokiopoulou, Jesse Berent, Claudiu Musat