【2025.5.12】视觉语言模型 (更好、更快、更强)

【2025.5.12】Vision Language Models (Better, Faster, Stronger): https://huggingface.co/blog/vlms-2025

【2024.4.11】Vision Language Models Explained【先了解视觉语言模型是什么】: https://huggingface.co/blog/vlms

nanoVLM: https://github.com/huggingface/nanoVLM

nanoVLM 是最简单的存储库,用于训练/微调小型视觉语言模型,在纯 PyTorch 中具有轻量级实现。代码本身非常可读且易于理解,该模型由视觉主干(模型/vision_transformer.py ~150 行)、语言解码器(模型/language_model.py ~250 行)、模态投影(模型/modality_projection.py ~50 行)和 VLM 本身( models/vision_language_model.py ~100 行)和一个简单的训练循环(train.py ~200 行)组成。
与 Andrej Karpathy 的 nanoGPT 类似,我们希望为社区配备一个非常简单的视觉语言模型的实现和训练脚本。我们并不声称这是一个新的 SOTA 模型,而是一项教育工作,如果您拥有合适的硬件,它会带来相当大的冲击力!您应该能够立即调整和调整代码。

相关推荐
九章云极AladdinEdu37 分钟前
GPU与NPU异构计算任务划分算法研究:基于强化学习的Transformer负载均衡实践
java·开发语言·人工智能·深度学习·测试工具·负载均衡·transformer
量子-Alex39 分钟前
【目标检测】RT-DETR
人工智能·目标检测·计算机视觉
2201_7549184140 分钟前
OpenCV 图像透视变换详解
人工智能·opencv·计算机视觉
羽星_s1 小时前
文本分类任务Qwen3-0.6B与Bert:实验见解
人工智能·bert·文本分类·ai大模型·qwen3
jerry6091 小时前
LLM笔记(六)线性代数
笔记·学习·线性代数·自然语言处理
摸鱼仙人~1 小时前
TensorFlow/Keras实现知识蒸馏案例
人工智能·tensorflow·keras
浊酒南街1 小时前
TensorFlow之微分求导
人工智能·python·tensorflow
羽凌寒1 小时前
曝光融合(Exposure Fusion)
图像处理·人工智能·计算机视觉
lucky_lyovo1 小时前
机器学习-特征工程
人工智能·机器学习
alpszero1 小时前
YOLO11解决方案之对象裁剪探索
人工智能·python·计算机视觉·yolo11