vlm

带电的小王2 天前
llm·llama.cpp·vlm·mobilevlm·图生文
llama.cpp:PC端测试 MobileVLM -- 电脑端部署图生文大模型以下是经实验验证可行的环境参考,也可尝试其他版本。(1)PC:Ubuntu 22.04.4(2)软件环境:如下表所示
v_JULY_v2 个月前
多模态大模型·gemma·vlm·paligemma·siglip
多模态PaliGemma——Google推出的基于SigLIP和Gemma的视觉语言模型本文怎么来的呢?其实很简单,源于上一篇文章《π0——用于通用机器人控制的流匹配VLA模型:一套框架控制7种机械臂(改造了PaliGemma和ACT的3B模型)》中的π0用到了PaliGemma
小小帅AIGC3 个月前
人工智能·深度学习·计算机视觉·语言模型·llm·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.10-2024.09.15标题:通过 "f$-发散最小化 "推广 "文本到图像 "偏好生成的对齐范式author:Haoyuan Sun, Bo Xia, Yongzhe Chang, Xueqian Wang
强哥之神4 个月前
人工智能·深度学习·机器学习·语言模型·自然语言处理·llm·vlm
视觉语言模型(VLMs)知多少?最近这几年,自然语言处理和计算机视觉这两大领域真是突飞猛进,让机器不仅能看懂文字,还能理解图片。这两个领域的结合,催生了视觉语言模型,也就是Vision language models (VLMs) ,它们能同时处理视觉信息和文字数据。
ViatorSun4 个月前
windows·python·ubuntu·llm·nvidia·vlm·nvitop
「bug」nvitop ERROR: Failed to initialize cursesnvitop 作为一个优秀个 Nvidia显卡查询库,简单易用且显示信息十分丰富,相比 Nvidia-smi 更方便,简直是每个 开发人员必备的库,安装也十分方便,直接采用 pip install nvitop 即可,调用的时候也是直接在 Terminal 中输入 nvitop 即可,按 Q 键即可退出 nvitop
HuggingFace5 个月前
trl·dpo·vlm·视觉语言多模态模型
为视觉语言多模态模型进行偏好优化训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本,因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种替代选项,通常可以简化这一过程,并产出更准确的结果。通过对候选回答的对比和排序,而不是赋予固定的标签,偏好优化使得模型能更高效地捕捉人类偏好中的细微差别。
小小帅AIGC5 个月前
人工智能·计算机视觉·语言模型·自然语言处理·大语言模型·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.01-2024.07.05标题:InternLM-XComposer-2.5:支持长语境输入和输出的多功能大型视觉语言模型author:Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li
loong_XL6 个月前
大模型·aigc·视频·vlm
AI在线免费视频工具2:视频配声音;图片说话hedrahttps://deepmind.google/discover/blog/generating-audio-for-video/ https://www.videotosoundeffects.com/ (免费在线使用)
小小帅AIGC6 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.05-2024.06.10标题:TRINS:建立能够阅读的多模态语言模型author:Ruiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu, Changyou Chen, Tong Sun
小小帅AIGC6 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.01-2024.06.05标题:CountCLIP – [Re] 教 CLIP 数到十author:Harshvardhan Mestha, Tejas Agarwal, Karan Bania, Shreyas V, Yash Bhisikar
小小帅AIGC7 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.10-2024.05.20标题:Diff-BGM:视频背景音乐生成的扩散模型author:Sizhe Li, Yiming Qin, Minghang Zheng, Xin Jin, Yang Liu
小小帅AIGC7 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.15-2024.04.25标题:AutoGluon-Multimodal (AutoMM):用基础模型增强多模态 AutoMLauthor:Zhiqiang Tang, Haoyang Fang, Su Zhou, Taojiannan Yang, Zihan Zhong, Tony Hu, Katrin Kirchhoff, George Karypis
小小帅AIGC7 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.25-2024.05.01标题:用于领域泛化的软提示生成author:Shuanghao Bai, Yuedi Zhang, Wanqi Zhou, Zhirong Luan, Badong Chen
小小帅AIGC7 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态大模型·vlm·视觉语言大模型
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.20-2024.05.25标题:LM4LV:用于低级视觉任务的冻结大型语言模型author:Boyang Zheng, Jinjin Gu, Shijun Li, Chao Dong
熊猫小伙8 个月前
llm·rag·vlm
【第3节】“茴香豆“:搭建你的 RAG 智能助理【资源汇总】文档 | 视频 | 论文:Retrieval-Augmented Generation for Large Language Models: A Survey
小小帅AIGC8 个月前
人工智能·计算机视觉·语言模型·多模态·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.10-2024.04.15标题:利用受控视觉语言模型在野外进行逼真图像修复author:Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön
小小帅AIGC8 个月前
人工智能·深度学习·计算机视觉·大模型·多模态·视觉语言模型·vlm
多模态之ALBEF—先对齐后融合,利用动量蒸馏学习视觉语言模型表征,学习细节理解与论文详细阅读:Align before FuseAlign before Fuse: Vision and Language Representation Learning with Momentum Distillation (ALBEF)在融合之前对齐:利用动量蒸馏进行视觉与语言表示学习
小小帅AIGC8 个月前
人工智能·计算机视觉·语言模型·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.05-2024.04.10标题:BRAVE:拓宽视觉语言模型的视觉编码author:Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari
小小帅AIGC8 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.31-2024.04.05标题:了解你的邻居:通过空间视觉语言推理改进单视图重构author:Rui Li, Tobias Fischer, Mattia Segu, Marc Pollefeys, Luc Van Gool, Federico Tombari
小小帅AIGC9 个月前
人工智能·计算机视觉·语言模型·大模型·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.25-2024.03.31标题:无法解决的问题检测:评估视觉语言模型的可信度author:Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa