vlm

征途黯然.9 天前
ocr·vlm·olmocr
olmOCR模型论文解读论文标题:olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models
白云千载尽1 个月前
论文阅读·笔记·学习·自动驾驶·carla·vlm
大语言加持的闭环端到端自动驾驶模型 学习笔记纯干货LMDrive:大语言模型辅助闭环端到端自动驾驶行驶过程中要从起点到终点,避免碰撞,防止违反交通法规 端到端与模块化设计之分——端到端已成主流 闭环与开环——在线数据与 驾驶模拟器——使用了carla 交通场景 设计了两种工况,有一些特殊交互场景,来检验模型对特殊情况的处理。 之前的工作 现有问题: 1现代自动驾驶方法在遇到长尾的、难以预见的事件以及复杂的城市场景时,表现不佳,容易引发严重事故。 2并且以往的自动驾驶方法倾向于依赖有限格式的输入,比如传感器数据和导航航点,这限制了车辆对语言信息的理解能力以
datamonday2 个月前
扩散模型·具身智能·vla·vlm·diffusionvla
[EAI-028] Diffusion-VLA,能够进行多模态推理和机器人动作预测的VLA模型论文标题:Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者:Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng 论文链接:https://arxiv
datamonday2 个月前
tokenizer·具身智能·vla·vlm·pi0
[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models论文标题:FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者:Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接:https://arxiv.org/abs/2501.09747 论文出处:/ 论文被引:/ 项
带电的小王3 个月前
llm·llama.cpp·vlm·mobilevlm·图生文
llama.cpp:PC端测试 MobileVLM -- 电脑端部署图生文大模型以下是经实验验证可行的环境参考,也可尝试其他版本。(1)PC:Ubuntu 22.04.4(2)软件环境:如下表所示
v_JULY_v5 个月前
多模态大模型·gemma·vlm·paligemma·siglip
多模态PaliGemma——Google推出的基于SigLIP和Gemma的视觉语言模型本文怎么来的呢?其实很简单,源于上一篇文章《π0——用于通用机器人控制的流匹配VLA模型:一套框架控制7种机械臂(改造了PaliGemma和ACT的3B模型)》中的π0用到了PaliGemma
小小帅AIGC6 个月前
人工智能·深度学习·计算机视觉·语言模型·llm·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.10-2024.09.15标题:通过 "f$-发散最小化 "推广 "文本到图像 "偏好生成的对齐范式author:Haoyuan Sun, Bo Xia, Yongzhe Chang, Xueqian Wang
强哥之神7 个月前
人工智能·深度学习·机器学习·语言模型·自然语言处理·llm·vlm
视觉语言模型(VLMs)知多少?最近这几年,自然语言处理和计算机视觉这两大领域真是突飞猛进,让机器不仅能看懂文字,还能理解图片。这两个领域的结合,催生了视觉语言模型,也就是Vision language models (VLMs) ,它们能同时处理视觉信息和文字数据。
ViatorSun7 个月前
windows·python·ubuntu·llm·nvidia·vlm·nvitop
「bug」nvitop ERROR: Failed to initialize cursesnvitop 作为一个优秀个 Nvidia显卡查询库,简单易用且显示信息十分丰富,相比 Nvidia-smi 更方便,简直是每个 开发人员必备的库,安装也十分方便,直接采用 pip install nvitop 即可,调用的时候也是直接在 Terminal 中输入 nvitop 即可,按 Q 键即可退出 nvitop
HuggingFace9 个月前
trl·dpo·vlm·视觉语言多模态模型
为视觉语言多模态模型进行偏好优化训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本,因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种替代选项,通常可以简化这一过程,并产出更准确的结果。通过对候选回答的对比和排序,而不是赋予固定的标签,偏好优化使得模型能更高效地捕捉人类偏好中的细微差别。
小小帅AIGC9 个月前
人工智能·计算机视觉·语言模型·自然语言处理·大语言模型·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.01-2024.07.05标题:InternLM-XComposer-2.5:支持长语境输入和输出的多功能大型视觉语言模型author:Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li
loong_XL9 个月前
大模型·aigc·视频·vlm
AI在线免费视频工具2:视频配声音;图片说话hedrahttps://deepmind.google/discover/blog/generating-audio-for-video/ https://www.videotosoundeffects.com/ (免费在线使用)
小小帅AIGC9 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.05-2024.06.10标题:TRINS:建立能够阅读的多模态语言模型author:Ruiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu, Changyou Chen, Tong Sun
小小帅AIGC9 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.01-2024.06.05标题:CountCLIP – [Re] 教 CLIP 数到十author:Harshvardhan Mestha, Tejas Agarwal, Karan Bania, Shreyas V, Yash Bhisikar
小小帅AIGC10 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.10-2024.05.20标题:Diff-BGM:视频背景音乐生成的扩散模型author:Sizhe Li, Yiming Qin, Minghang Zheng, Xin Jin, Yang Liu
小小帅AIGC10 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.15-2024.04.25标题:AutoGluon-Multimodal (AutoMM):用基础模型增强多模态 AutoMLauthor:Zhiqiang Tang, Haoyang Fang, Su Zhou, Taojiannan Yang, Zihan Zhong, Tony Hu, Katrin Kirchhoff, George Karypis
小小帅AIGC10 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.25-2024.05.01标题:用于领域泛化的软提示生成author:Shuanghao Bai, Yuedi Zhang, Wanqi Zhou, Zhirong Luan, Badong Chen
小小帅AIGC10 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态大模型·vlm·视觉语言大模型
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.20-2024.05.25标题:LM4LV:用于低级视觉任务的冻结大型语言模型author:Boyang Zheng, Jinjin Gu, Shijun Li, Chao Dong
熊猫小伙1 年前
llm·rag·vlm
【第3节】“茴香豆“:搭建你的 RAG 智能助理【资源汇总】文档 | 视频 | 论文:Retrieval-Augmented Generation for Large Language Models: A Survey
小小帅AIGC1 年前
人工智能·计算机视觉·语言模型·多模态·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.10-2024.04.15标题:利用受控视觉语言模型在野外进行逼真图像修复author:Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön