【2025.5.12】视觉语言模型 (更好、更快、更强)

【2025.5.12】Vision Language Models (Better, Faster, Stronger): https://huggingface.co/blog/vlms-2025

【2024.4.11】Vision Language Models Explained【先了解视觉语言模型是什么】: https://huggingface.co/blog/vlms

nanoVLM: https://github.com/huggingface/nanoVLM

nanoVLM 是最简单的存储库,用于训练/微调小型视觉语言模型,在纯 PyTorch 中具有轻量级实现。代码本身非常可读且易于理解,该模型由视觉主干(模型/vision_transformer.py ~150 行)、语言解码器(模型/language_model.py ~250 行)、模态投影(模型/modality_projection.py ~50 行)和 VLM 本身( models/vision_language_model.py ~100 行)和一个简单的训练循环(train.py ~200 行)组成。
与 Andrej Karpathy 的 nanoGPT 类似,我们希望为社区配备一个非常简单的视觉语言模型的实现和训练脚本。我们并不声称这是一个新的 SOTA 模型,而是一项教育工作,如果您拥有合适的硬件,它会带来相当大的冲击力!您应该能够立即调整和调整代码。

相关推荐
h64648564h9 分钟前
CANN 性能剖析与调优全指南:从 Profiling 到 Kernel 级优化
人工智能·深度学习
数据与后端架构提升之路11 分钟前
论系统安全架构设计及其应用(基于AI大模型项目)
人工智能·安全·系统安全
忆~遂愿15 分钟前
ops-cv 算子库深度解析:面向视觉任务的硬件优化与数据布局(NCHW/NHWC)策略
java·大数据·linux·人工智能
Liue6123123119 分钟前
YOLO11-C3k2-MBRConv3改进提升金属表面缺陷检测与分类性能_焊接裂纹气孔飞溅物焊接线识别
人工智能·分类·数据挖掘
一切尽在,你来27 分钟前
第二章 预告内容
人工智能·langchain·ai编程
23遇见31 分钟前
基于 CANN 框架的 AI 加速:ops-nn 仓库的关键技术解读
人工智能
Codebee40 分钟前
OoderAgent 企业版 2.0 发布的意义:一次生态战略的全面升级
人工智能
光泽雨1 小时前
检测阈值 匹配阈值分析 金字塔
图像处理·人工智能·计算机视觉·机器视觉·smart3
Σίσυφος19001 小时前
PCL 法向量估计-PCA邻域点(经典 kNN 协方差)的协方差矩阵
人工智能·线性代数·矩阵
小鸡吃米…2 小时前
机器学习的商业化变现
人工智能·机器学习