vlm

njsgcs5 天前
人工智能·python·yolo·ocr·vlm
基于vlm+ocr+yolo的一键ai从模之屋下载模型https://www.bilibili.com/video/BV1fYvZBUET8还是得给他帮亿把 ,7步尚且如此,做个mod几十步,我不敢想
njsgcs6 天前
ocr·vlm
ai自己制作mod2 ocr vlm识别 模型页面点击打开模型页面ai自己制作mod2 ocr vlm识别 模型页面点击打开模型页面_哔哩哔哩_bilibiliocr识别不了点赞图标,不然点赞收藏一气喝成就能下载模型了
ASS-ASH17 天前
人工智能·python·llm·多模态·qwen·视觉语言模型·vlm
视觉语言大模型Qwen3-VL-8B-Instruct概述通义千问3-VL-8B-Instruct是阿里巴巴通义千问团队于2025年10月15日发布的开源视觉语言模型,参数规模为80亿 [6] 。该模型基于Dense架构设计,通过三项核心技术创新实现了视觉与语言能力的平衡发展:交错MRoPE多维位置编码、DeepStack特征融合技术和文本-时间戳对齐机制 [5] 。在32项核心评测指标中,该模型超越了Gemini 2.5 Pro和GPT-5等闭源模型,同时性能接近前代超大规模模型Qwen2.5-VL-72B [3] ,标志着多模态AI从”参数竞赛”向”效率优先
程序员miki1 个月前
人工智能·python·llm·多模态·vlm
多模态模型演变仅供学习参考监督学习:输入+模型+求损失(预测值,标签)自监督学习:输入+模型+求损失(预测值,输入中找标签)
m0_650108242 个月前
论文阅读·人工智能·视觉语言模型·deepmind·vlm·通用智能·通用小样本适配
Flamingo:打破模态壁垒的少样本视觉语言模型在多模态机器学习领域,如何让模型仅通过少量标注样本就快速适配新任务,是长期以来的核心挑战。DeepMind 于 2022 年提出的 Flamingo 系列视觉语言模型(VLM),通过创新性的架构设计和训练策略,成功实现了这一目标。
温柔哥`2 个月前
vad·视频异常检测·vlm·异常定位·异常理解·异常推理·推理门控
一种面向整体零样本视频异常分析的统一推理框架A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis NIPS’25 北京交通大学 信息科学研究所;英国 伯明翰大学 MIx 课题组
一颗小树x2 个月前
量化·vlm·qwen3-vl·lora监督微调
『大模型量化』Qwen3-VL + Lora监督微调 + 8bit量化 + 实践推理本文记录分享Qwen3-VL使用Lora完成监督微调后,进行8bit量化的过程;目录一、对Qwen3-VL进行Lora 监督微调
oliveray2 个月前
人工智能·prompt·vlm
ATPrompt:基于属性的视觉提示提示学习:已有的文本模版提示具有两个问题:(1) 传统的固定的文本提示往往不是最优,(2) 针对性设计的文本模板费时费力,且不同数据集之间无法泛化通用。CoOp首先提出了将多个可学习词元(learnable soft token)与类别词元(class token)级联的形式,以此让模型自己学出适合的文本提示。
nenchoumi31192 个月前
人工智能·计算机视觉·llm·ocr·vlm·deepseek
LLM 论文精读(十二)DeepSeek-OCR: Contexts Optical Compression这篇论文是 DeepSeek 又一篇巨作,发表于 2025年10月21日,距离博客成文时间 2025年10月23日约 2 天时间,总算赶上热乎的了。作者也开源了模型权重和使用方式。全文总结下来就一句话:DeepSeek 开发了一个全新的编解码器,实现了用极少量的 vision tokens 达到高精度的 OCR 解析,同时作者认为由于这个模型对 tokens 的需求极少,未来可以扩展到超长文本的应用上。
贾全4 个月前
人工智能·ai·vlm·多模态ai·vlm环境配置
准备篇:搭建你的AI“炼丹炉“摘要:在上一篇文章中,我们为"CSwiftVLM"绘制了宏伟的蓝图。现在,是时候将理论转化为实践了。本文将手把手指导你搭建一个完整的开发环境,从Python环境配置到GPU驱动安装,从预训练模型下载到数据集准备。我们将确保每一个步骤都清晰可执行,让你能够顺利地为"CSwiftVLM"的诞生准备好一切必要条件。
Uzuki4 个月前
深度学习·机器学习·llm·vlm
LLM 指标 | PPL vs. BLEU vs. ROUGE-L vs. METEOR vs. CIDErPPL的意义非常明了,用于测量模型对生成文本的不确定程度,不确定程度越低,模型的表现就越好。其计算方法是计算句子每个token的平均对数似然,再过一个指数函数。
Struart_R5 个月前
计算机视觉·语言模型·transformer·大语言模型·vlm·视觉理解·空间推理
SpatialVLM和SpatialRGPT论文解读目录一、SpatialVLM1、概述2、方法3、实验二、SpatialRGPT1、概述2、方法3、训练方法
贾全6 个月前
人工智能·ai·语言模型·自然语言处理·vlm
零基础完全理解视觉语言模型(VLM):从理论到代码实践本文是《从LLM到VLM:视觉语言模型的核心技术与Python实现》的姊妹篇,主要面向零基础的读者,希望用更通俗易懂的语言带领大家入门VLM。本教程的完整代码可以在GitHub上找到,如果你有任何问题或建议,欢迎交流讨论。
贾全6 个月前
人工智能·python·ai·机器人·视觉语言模型·vlm
从LLM到VLM:视觉语言模型的核心技术与Python实现本教程的完整代码可以在GitHub上找到,如果你有任何问题或建议,欢迎交流讨论。当我们与ChatGPT对话时,它能够理解复杂的文字描述,生成流畅的回答。但如果我们给它一张图片,问"这张图片里有什么?",传统的LLM就无能为力了。这个局限揭示了一个重要问题:人类的认知不仅仅依赖文字,视觉信息同样重要。
lovep16 个月前
llm·位置编码·基础模型·vlm·rope·mllm·sinusoidal编码
详解大模型的位置编码-positional encodingTransformer模型在处理序列数据时,自注意力机制通过计算输入序列中每个元素与其他元素之间的关系来提取信息。然而,它本质上是对输入序列中元素的位置不敏感的。也就是说自注意力机制只关注元素之间的关系,而忽略了元素在序列中的位置顺序。
Shuai@6 个月前
vlm
Finetune LLaVA on Custom DatasetsDataset FormatConvert your data to a JSON file of a List of all samples. Sample metadata should contain id (a unique identifier), image (the path to the image), and conversations (the conversation data between human and AI).
s1ckrain6 个月前
论文阅读·强化学习·多模态大模型·vlm
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning原文摘要研究背景现状:VLMs 已展现出强大的多模态理解和推理能力局限:当前主要受限于基于文本的推理过程
s1ckrain7 个月前
论文阅读·多模态大模型·vlm
【论文阅读】KIMI-VL TECHNICAL REPORT原文摘要核心模型:Kimi-VL模型架构:基于 MoE 设计,仅激活语言解码器的 2.8B 参数(Kimi-VL-A3B),在保持高效计算的同时实现高性能。
PLUS_WAVE8 个月前
学习·语言模型·大模型·cot·vlm·推理模型·reasoning
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning 学习笔记当前 VLMs 通过对齐视觉输入和语言输出训练,虽然整体表现好,但在需要细致视觉推理的任务上容易出错,比如无法正确识别图片中的细节内容。这是因为现有模型习惯直接给出结论,而缺乏中间推理步骤。
kaaokou9 个月前
深度学习·计算机视觉·vlm
论文笔记——KIMI-VL:具有增强推理能力的有效开源视觉语言模型原文地址:https://arxiv.org/pdf/2504.07491v1开源地址:https://github.com/MoonshotAI/Kimi-VL