vlm

ASS-ASH1 天前
数据库·人工智能·python·llm·embedding·向量数据库·vlm
AI时代之向量数据库概览向量数据库作为AI时代的新型基础设施,正迅速成为处理非结构化数据的核心工具。随着大模型技术的普及,企业越来越依赖向量数据库实现语义检索、知识库增强(RAG)、智能推荐等应用。本文将全面解析主流向量数据库产品,包括其开发商背景、适用场景、优缺点分析及收费模式,帮助企业或开发者根据自身需求选择最合适的向量数据库解决方案。
一个处女座的程序猿5 天前
llm·ocr·cv·vlm
CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读
leo03085 天前
vla·vlm
深入解析 π₀ 与 π₀.5:Physical Intelligence 的机器人基础模型演进本文详细对比分析 Physical Intelligence 公司发布的两代视觉-语言-动作(VLA)模型:π₀ 和 π₀.5,从设计目标、模型架构、训练方法、数据策略等多个维度进行深入解读。
国家一级假勤奋大学生7 天前
大模型·llm·vlm·mllm·internvl·调研笔记
InternVL系列 technical report 解析论文链接: [2312.14238] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
具身智能之心7 天前
具身智能·vlm·iclr 2026
ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键?在具身智能(Embodied AI)的浪潮中,研究界致力于将强大的视觉-语言模型(VLM)转化为具备机器人操控能力的 Vision-Language-Action (VLA) 模型 。然而,这一转化过程面临着一道巨大的“鸿沟”:上游 VLM 通常依托海量互联网数据预训练,拥有卓越的通用推理能力;而下游 VLA 却需要在具体的物理环境中实现精准的动作控制 。
一颗小树x7 天前
人工智能·深度学习·机器人·vlm·vlaser
《VLA 系列》从 VLM 到 VLA 机器人控制,关键的多模态数据和能力是什么?| Vlaser | ICLR 2026Vlaser 是一款基于 InternVL3 构建的视觉-语言-行动(VLA)模型,核心亮点是集成协同具身推理与端到端机器人控制能力。
安如衫8 天前
人工智能·ocr·agent·cv·rag·vlm
从 OCR 到多模态 VLM Agentic AI:智能文档问答的范式转移全解传统的 OCR 正在沦为历史。本文将带你深度复盘智能文档处理技术的演进:从 Tesseract 到 PaddleOCR,从布局检测再到基于 VLM 智能体的端到端解析,更附带了基于 AWS Serverless 与 LandingAI ADE API 的生产级代码实现。
hjs_deeplearning10 天前
开发语言·人工智能·机器学习·swift·vlm
认知篇#15:ms-swift微调中gradient_accumulation_steps和warmup_ratio等参数的意义与设置MS-SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是由ModelScope(魔搭)社区推出的一个开源框架,专为大模型和多模态大模型提供全流程的轻量化微调、部署与评估解决方案。它集成了LoRA、QLoRA等高效的训练技术,支持对超过500种大模型和200多种多模态模型(如Qwen、DeepSeek、GLM系列)进行训练、量化与推理,并兼容从消费级显卡到专业服务器等多种硬件。通过命令行、Python API或图形界面,用户可以快速实现对模
一颗小树x11 天前
目标检测·vlm·模型推理·vllm加速·标注数据
Qwen3-VL 目标检测 | 生成训练标签 | LabelMe格式 | COCO格式用Qwen3-VL模型实现端到端检测,无需额外训练检测器,通过自然语言提示词约束模型输出。文章详细介绍了transformers和vLLM两种实现版本,包括模型初始化、图像处理、推理流程、结果清理和格式转换等关键环节。
山顶夕景20 天前
大模型·llm·ocr·多模态·文档智能·vlm
【VLM】Format Decoupled Reinforcement Learning for Document OCR【文档智能进展】讲的故事是格式化文本(公式、表格等)比纯文本熵值高一个数量级,导致模型输出不确定性大、解析准确率低,所以搞了个应对思路。工作在:Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR,https://arxiv.org/pdf/2601.08834,
songyuc21 天前
vlm
【Qwen3-VL】请你用易懂且简洁的语言来介绍一下Qwen3VL的图像预处理在传统的 VLM(如 LLaVA v1.5)中,图像处理简单粗暴:无论原图什么样,一律强行拉伸/填充成 336×336336 \times 336336×336 的正方形。这种做法既破坏了长宽比,又浪费了计算量(大量 padding)。
njsgcs1 个月前
人工智能·python·yolo·ocr·vlm
基于vlm+ocr+yolo的一键ai从模之屋下载模型https://www.bilibili.com/video/BV1fYvZBUET8还是得给他帮亿把 ,7步尚且如此,做个mod几十步,我不敢想
njsgcs1 个月前
ocr·vlm
ai自己制作mod2 ocr vlm识别 模型页面点击打开模型页面ai自己制作mod2 ocr vlm识别 模型页面点击打开模型页面_哔哩哔哩_bilibiliocr识别不了点赞图标,不然点赞收藏一气喝成就能下载模型了
ASS-ASH2 个月前
人工智能·python·llm·多模态·qwen·视觉语言模型·vlm
视觉语言大模型Qwen3-VL-8B-Instruct概述通义千问3-VL-8B-Instruct是阿里巴巴通义千问团队于2025年10月15日发布的开源视觉语言模型,参数规模为80亿 [6] 。该模型基于Dense架构设计,通过三项核心技术创新实现了视觉与语言能力的平衡发展:交错MRoPE多维位置编码、DeepStack特征融合技术和文本-时间戳对齐机制 [5] 。在32项核心评测指标中,该模型超越了Gemini 2.5 Pro和GPT-5等闭源模型,同时性能接近前代超大规模模型Qwen2.5-VL-72B [3] ,标志着多模态AI从”参数竞赛”向”效率优先
程序员miki2 个月前
人工智能·python·llm·多模态·vlm
多模态模型演变仅供学习参考监督学习:输入+模型+求损失(预测值,标签)自监督学习:输入+模型+求损失(预测值,输入中找标签)
m0_650108243 个月前
论文阅读·人工智能·视觉语言模型·deepmind·vlm·通用智能·通用小样本适配
Flamingo:打破模态壁垒的少样本视觉语言模型在多模态机器学习领域,如何让模型仅通过少量标注样本就快速适配新任务,是长期以来的核心挑战。DeepMind 于 2022 年提出的 Flamingo 系列视觉语言模型(VLM),通过创新性的架构设计和训练策略,成功实现了这一目标。
温柔哥`3 个月前
vad·视频异常检测·vlm·异常定位·异常理解·异常推理·推理门控
一种面向整体零样本视频异常分析的统一推理框架A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis NIPS’25 北京交通大学 信息科学研究所;英国 伯明翰大学 MIx 课题组
一颗小树x3 个月前
量化·vlm·qwen3-vl·lora监督微调
『大模型量化』Qwen3-VL + Lora监督微调 + 8bit量化 + 实践推理本文记录分享Qwen3-VL使用Lora完成监督微调后,进行8bit量化的过程;目录一、对Qwen3-VL进行Lora 监督微调
oliveray3 个月前
人工智能·prompt·vlm
ATPrompt:基于属性的视觉提示提示学习:已有的文本模版提示具有两个问题:(1) 传统的固定的文本提示往往不是最优,(2) 针对性设计的文本模板费时费力,且不同数据集之间无法泛化通用。CoOp首先提出了将多个可学习词元(learnable soft token)与类别词元(class token)级联的形式,以此让模型自己学出适合的文本提示。
nenchoumi31193 个月前
人工智能·计算机视觉·llm·ocr·vlm·deepseek
LLM 论文精读(十二)DeepSeek-OCR: Contexts Optical Compression这篇论文是 DeepSeek 又一篇巨作,发表于 2025年10月21日,距离博客成文时间 2025年10月23日约 2 天时间,总算赶上热乎的了。作者也开源了模型权重和使用方式。全文总结下来就一句话:DeepSeek 开发了一个全新的编解码器,实现了用极少量的 vision tokens 达到高精度的 OCR 解析,同时作者认为由于这个模型对 tokens 的需求极少,未来可以扩展到超长文本的应用上。