VCoder:大语言模型的眼睛

简介

VCoder的一个视觉编码器,能够帮助MLLM更好地理解和分析图像内容。提高模型在识别图像中的对象、理解图像场景方面的能力。

它可以帮助模型显示图片中不同物体的轮廓或深度图(显示物体距离相机的远近)。还能更准确的理解图片中的物体是什么,甚至能数出图片中有多少人。

功能介绍

1、增强视觉感知能力:VCoder通过提供额外的视觉编码器,帮助MLLM更好地理解和分析图像内容。

2、处理特殊类型的图像:VCoder能够处理分割图和深度图等特殊类型的图像。分割图可以帮助模型识别和理解图像中不同物体的边界和形状,而深度图则提供了物体距离相机远近的信息。

3、改善对象感知任务:VCoder通过提供额外的感知模态输入(如分割图或深度图)显著提高了MLLMs的对象感知能力。这包括更准确地识别和计数图像中的对象。

实验结果

VCoder与开源的多模态LLMs(如MiniGPT-4、InstructBLIP、LLaVA-1.5和CogVLM)进行了比较,并在COST验证集上进行了测试。

VCoder在对象识别任务中表现最佳,特别是在对象计数和识别方面优于基线模型。

在处理复杂场景中的对象计数和识别任务时,VCoder展示了更高的准确性,尤其是在场景中有许多实体时。

对比GPT-4V:实验表明,GPT-4V在所有对象识别任务中的表现一致,但在与VCoder的比较中,GPT-4V在对象级感知方面落后于VCoder。

项目及演示:https://praeclarumjj3.github.io/vcoder/

论文:https://arxiv.org/abs/2312.14233

GitHub:https://github.com/SHI-Labs/VCoder

在线演示:https://huggingface.co/spaces/shi-labs/VCoder

相关推荐
xier_ran9 分钟前
深度学习:从零开始手搓一个深层神经网络
人工智能·深度学习·神经网络
却道天凉_好个秋11 分钟前
OpenCV(二十六):高斯滤波
人工智能·opencv·计算机视觉
汗流浃背了吧,老弟!19 分钟前
语言模型(Language Model)介绍
人工智能·语言模型·自然语言处理
沫儿笙19 分钟前
IGM焊接机器人节气设备
人工智能·机器人
Vadaski27 分钟前
为什么每个团队都需要一套私有 Context 工程
人工智能
人工智能训练44 分钟前
Docker中容器的备份方法和步骤
linux·运维·人工智能·ubuntu·docker·容器·nvidia
高洁011 小时前
具身智能-8家国内外典型具身智能VLA模型深度解析
深度学习·神经网络·aigc·transformer·知识图谱
渡我白衣1 小时前
深入 Linux 内核启动:从按下电源到用户登录的全景解剖
java·linux·运维·服务器·开发语言·c++·人工智能
程序员X小鹿1 小时前
用了这个更厉害的P图AI,我把PS卸了!文字也能无痕修改!1秒救废图(附保姆级教程)
aigc
甄心爱学习1 小时前
数据挖掘11-分类的高级方法
人工智能·算法·分类·数据挖掘