开源的自动驾驶视觉语言模型标注数据集
收集了一些关于vlm的开源数据集,供参考
开源项目列表
项目名称 | 描述 | 链接 |
---|---|---|
VLM-R1 | 基于Qwen2.5-VL和R1强化学习技术的开源视觉语言模型,支持图像和文本的联合处理 | GitHub - VLM-R1 |
VLMEvalKit | 大型视觉语言模型的开源评估工具包,支持多种评估任务 | GitHub - VLMEvalKit |
SmolVLM | 小巧、快速、内存高效的开源视觉语言模型,包含模型检查点、数据集和训练工具 | Hugging Face - SmolVLM |
Molmo VLM | 开源视觉语言模型家族,适用于指向、计数、视觉问答等任务 | Learn OpenCV - Molmo VLM |
VisionArena-Battle | 包含30K真实世界图像对话和偏好投票的标注数据集 | Hugging Face - VisionArena-Battle |
LlavaGuard | 基于VLM的视觉保护框架,包含高质量人工标注的多模态安全数据集 | arXiv - LlavaGuard |
VLFeedback | 开源的GPT-4V标注视觉语言偏好数据集,包含80K指令和多个大型视觉语言模型的响应 | VLFeedback |
Touch-Vision-Language Dataset | 结合触觉、视觉和语言的多模态对齐数据集,包含43,741个图像-触觉对 | Touch-Vision-Language Dataset |
Prometheus-Vision | 用于细粒度评估的视觉语言模型,模拟人类评估者和GPT-4V的反馈 | Prometheus-Vision |
SAIL-VL | 通过高质量数据管理实现可扩展训练的开源视觉语言模型系列 | arXiv - SAIL-VL |
以上是关于自动驾驶视觉语言模型标注数据集的开源项目列表,每个项目都提供了不同的功能和数据集,适用于不同的研究和应用场景。