vlm

贾全13 天前
人工智能·ai·语言模型·自然语言处理·vlm
零基础完全理解视觉语言模型(VLM):从理论到代码实践本文是《从LLM到VLM:视觉语言模型的核心技术与Python实现》的姊妹篇,主要面向零基础的读者,希望用更通俗易懂的语言带领大家入门VLM。本教程的完整代码可以在GitHub上找到,如果你有任何问题或建议,欢迎交流讨论。
贾全13 天前
人工智能·python·ai·机器人·视觉语言模型·vlm
从LLM到VLM:视觉语言模型的核心技术与Python实现本教程的完整代码可以在GitHub上找到,如果你有任何问题或建议,欢迎交流讨论。当我们与ChatGPT对话时,它能够理解复杂的文字描述,生成流畅的回答。但如果我们给它一张图片,问"这张图片里有什么?",传统的LLM就无能为力了。这个局限揭示了一个重要问题:人类的认知不仅仅依赖文字,视觉信息同样重要。
lovep113 天前
llm·位置编码·基础模型·vlm·rope·mllm·sinusoidal编码
详解大模型的位置编码-positional encodingTransformer模型在处理序列数据时,自注意力机制通过计算输入序列中每个元素与其他元素之间的关系来提取信息。然而,它本质上是对输入序列中元素的位置不敏感的。也就是说自注意力机制只关注元素之间的关系,而忽略了元素在序列中的位置顺序。
Shuai@17 天前
vlm
Finetune LLaVA on Custom DatasetsDataset FormatConvert your data to a JSON file of a List of all samples. Sample metadata should contain id (a unique identifier), image (the path to the image), and conversations (the conversation data between human and AI).
s1ckrain21 天前
论文阅读·强化学习·多模态大模型·vlm
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning原文摘要研究背景现状:VLMs 已展现出强大的多模态理解和推理能力局限:当前主要受限于基于文本的推理过程
s1ckrain2 个月前
论文阅读·多模态大模型·vlm
【论文阅读】KIMI-VL TECHNICAL REPORT原文摘要核心模型:Kimi-VL模型架构:基于 MoE 设计,仅激活语言解码器的 2.8B 参数(Kimi-VL-A3B),在保持高效计算的同时实现高性能。
PLUS_WAVE3 个月前
学习·语言模型·大模型·cot·vlm·推理模型·reasoning
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning 学习笔记当前 VLMs 通过对齐视觉输入和语言输出训练,虽然整体表现好,但在需要细致视觉推理的任务上容易出错,比如无法正确识别图片中的细节内容。这是因为现有模型习惯直接给出结论,而缺乏中间推理步骤。
kaaokou3 个月前
深度学习·计算机视觉·vlm
论文笔记——KIMI-VL:具有增强推理能力的有效开源视觉语言模型原文地址:https://arxiv.org/pdf/2504.07491v1开源地址:https://github.com/MoonshotAI/Kimi-VL
征途黯然.4 个月前
ocr·vlm·olmocr
olmOCR模型论文解读论文标题:olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models
白云千载尽5 个月前
论文阅读·笔记·学习·自动驾驶·carla·vlm
大语言加持的闭环端到端自动驾驶模型 学习笔记纯干货LMDrive:大语言模型辅助闭环端到端自动驾驶行驶过程中要从起点到终点,避免碰撞,防止违反交通法规 端到端与模块化设计之分——端到端已成主流 闭环与开环——在线数据与 驾驶模拟器——使用了carla 交通场景 设计了两种工况,有一些特殊交互场景,来检验模型对特殊情况的处理。 之前的工作 现有问题: 1现代自动驾驶方法在遇到长尾的、难以预见的事件以及复杂的城市场景时,表现不佳,容易引发严重事故。 2并且以往的自动驾驶方法倾向于依赖有限格式的输入,比如传感器数据和导航航点,这限制了车辆对语言信息的理解能力以
datamonday6 个月前
扩散模型·具身智能·vla·vlm·diffusionvla
[EAI-028] Diffusion-VLA,能够进行多模态推理和机器人动作预测的VLA模型论文标题:Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者:Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng 论文链接:https://arxiv
datamonday6 个月前
tokenizer·具身智能·vla·vlm·pi0
[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models论文标题:FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者:Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接:https://arxiv.org/abs/2501.09747 论文出处:/ 论文被引:/ 项
带电的小王7 个月前
llm·llama.cpp·vlm·mobilevlm·图生文
llama.cpp:PC端测试 MobileVLM -- 电脑端部署图生文大模型以下是经实验验证可行的环境参考,也可尝试其他版本。(1)PC:Ubuntu 22.04.4(2)软件环境:如下表所示
v_JULY_v9 个月前
多模态大模型·gemma·vlm·paligemma·siglip
多模态PaliGemma——Google推出的基于SigLIP和Gemma的视觉语言模型本文怎么来的呢?其实很简单,源于上一篇文章《π0——用于通用机器人控制的流匹配VLA模型:一套框架控制7种机械臂(改造了PaliGemma和ACT的3B模型)》中的π0用到了PaliGemma
小小帅AIGC10 个月前
人工智能·深度学习·计算机视觉·语言模型·llm·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.10-2024.09.15标题:通过 "f$-发散最小化 "推广 "文本到图像 "偏好生成的对齐范式author:Haoyuan Sun, Bo Xia, Yongzhe Chang, Xueqian Wang
强哥之神1 年前
人工智能·深度学习·机器学习·语言模型·自然语言处理·llm·vlm
视觉语言模型(VLMs)知多少?最近这几年,自然语言处理和计算机视觉这两大领域真是突飞猛进,让机器不仅能看懂文字,还能理解图片。这两个领域的结合,催生了视觉语言模型,也就是Vision language models (VLMs) ,它们能同时处理视觉信息和文字数据。
ViatorSun1 年前
windows·python·ubuntu·llm·nvidia·vlm·nvitop
「bug」nvitop ERROR: Failed to initialize cursesnvitop 作为一个优秀个 Nvidia显卡查询库,简单易用且显示信息十分丰富,相比 Nvidia-smi 更方便,简直是每个 开发人员必备的库,安装也十分方便,直接采用 pip install nvitop 即可,调用的时候也是直接在 Terminal 中输入 nvitop 即可,按 Q 键即可退出 nvitop
HuggingFace1 年前
trl·dpo·vlm·视觉语言多模态模型
为视觉语言多模态模型进行偏好优化训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本,因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种替代选项,通常可以简化这一过程,并产出更准确的结果。通过对候选回答的对比和排序,而不是赋予固定的标签,偏好优化使得模型能更高效地捕捉人类偏好中的细微差别。
小小帅AIGC1 年前
人工智能·计算机视觉·语言模型·自然语言处理·大语言模型·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.01-2024.07.05标题:InternLM-XComposer-2.5:支持长语境输入和输出的多功能大型视觉语言模型author:Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li
loong_XL1 年前
大模型·aigc·视频·vlm
AI在线免费视频工具2:视频配声音;图片说话hedrahttps://deepmind.google/discover/blog/generating-audio-for-video/ https://www.videotosoundeffects.com/ (免费在线使用)