【2025.5.12】视觉语言模型 (更好、更快、更强)

【2025.5.12】Vision Language Models (Better, Faster, Stronger): https://huggingface.co/blog/vlms-2025

【2024.4.11】Vision Language Models Explained【先了解视觉语言模型是什么】: https://huggingface.co/blog/vlms

nanoVLM: https://github.com/huggingface/nanoVLM

nanoVLM 是最简单的存储库,用于训练/微调小型视觉语言模型,在纯 PyTorch 中具有轻量级实现。代码本身非常可读且易于理解,该模型由视觉主干(模型/vision_transformer.py ~150 行)、语言解码器(模型/language_model.py ~250 行)、模态投影(模型/modality_projection.py ~50 行)和 VLM 本身( models/vision_language_model.py ~100 行)和一个简单的训练循环(train.py ~200 行)组成。
与 Andrej Karpathy 的 nanoGPT 类似,我们希望为社区配备一个非常简单的视觉语言模型的实现和训练脚本。我们并不声称这是一个新的 SOTA 模型,而是一项教育工作,如果您拥有合适的硬件,它会带来相当大的冲击力!您应该能够立即调整和调整代码。

相关推荐
初学小刘10 小时前
深度学习:从图片数据到模型训练(十分类)
人工智能·深度学习
递归不收敛11 小时前
大语言模型(LLM)入门笔记:嵌入向量与位置信息
人工智能·笔记·语言模型
之墨_12 小时前
【大语言模型】—— 自注意力机制及其变体(交叉注意力、因果注意力、多头注意力)的代码实现
人工智能·语言模型·自然语言处理
从孑开始12 小时前
ManySpeech.MoonshineAsr 使用指南
人工智能·ai·c#·.net·私有化部署·语音识别·onnx·asr·moonshine
涛涛讲AI12 小时前
一段音频多段字幕,让音频能够流畅自然对应字幕 AI生成视频,扣子生成剪映视频草稿
人工智能·音视频·语音识别
可触的未来,发芽的智生12 小时前
新奇特:黑猫警长的纳米世界,忆阻器与神经网络的智慧
javascript·人工智能·python·神经网络·架构
WWZZ202513 小时前
快速上手大模型:机器学习2(一元线性回归、代价函数、梯度下降法)
人工智能·算法·机器学习·计算机视觉·机器人·大模型·slam
AKAMAI13 小时前
数据孤岛破局之战 :跨业务分析的难题攻坚
运维·人工智能·云计算
Chicheng_MA13 小时前
算能 CV184 智能相机整体方案介绍
人工智能·数码相机·算能
Element_南笙13 小时前
吴恩达新课程:Agentic AI(笔记2)
数据库·人工智能·笔记·python·深度学习·ui·自然语言处理