vlm

山顶夕景3 天前
python·大模型·llm·agent·多模态·vlm
【VLM】结合Python沙箱的以图思辨S1-VL模型【多模态推理大模型进展】基于Qwen3-VL-32B-Thinking做的面向数学、物理、化学、天文、地理、生物六大学科的科学多模态推理模型,主要特点是Python 沙箱执行图像裁剪、缩放、标注等代码,多轮迭代推理。S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images,https://arxiv.org/pdf/2604.21409,https://huggingface.co/ScienceOne-AI,https:
一颗小树x23 天前
机器人·开源数据集·人形机器人·vlm
《VLA 系列》Humanoid Everyday | 人形机器人 | 开源数据集Humanoid Everyday 是首个面向开放世界的人形机器人,大规模多模态数据集,涵盖260个真实场景任务、超1万条演示轨迹与300万帧30Hz高频数据,覆盖基础操作、移动操作、人机交互等七大技能类别,
bryant_meng1 个月前
人工智能·深度学习·rl·vla·世界模型·vlm
【VLA】Vision Language Action世界模型 是智能体(Agent)内部对环境动态(dynamics)的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作,环境会如何变化”。
一颗小树x1 个月前
格式转换·vlm·lora微调·空间理解·siti 数据集
空间理解 SITI 数据集 | 格式转换 | Lora微调 | VLM 大模型本文分析使用空间理解 SITI 数据集,进行VLM的Lora微调微调,包括 数据格式转换、多图像VQA微调、视频VQA微调。
山顶夕景1 个月前
大模型·llm·cot·vlm·视觉模型
【VLM】HopChain视觉语言推理多跳数据合成框架这篇论文提出了HopChain,一个可扩展的框架,用于合成多跳视觉语言推理数据,以改进VLMs的可验证奖励强化学习(RLVR)训练。具体来说:
山顶夕景2 个月前
llm·多模态大模型·vlm
【VLM】Qwen3-VL-SFT微调简要流程1. alpaca-gpt4-data-zh (中文指令数据)2. la_te_x_ocr (LaTeX公式OCR)
山顶夕景2 个月前
大模型·llm·多模态·vlm
【VLM】Qwen3-VL模型架构和训练流程链接:https://arxiv.org/pdf/2511.21631模型家族包含密集型(2B/4B/8B/32B)与混合专家(Mixture-of-Experts, MoE)两种架构(30B-A3B/235B-A22B),以适应不同延迟-质量权衡需求。
ASS-ASH3 个月前
数据库·人工智能·python·llm·embedding·向量数据库·vlm
AI时代之向量数据库概览向量数据库作为AI时代的新型基础设施,正迅速成为处理非结构化数据的核心工具。随着大模型技术的普及,企业越来越依赖向量数据库实现语义检索、知识库增强(RAG)、智能推荐等应用。本文将全面解析主流向量数据库产品,包括其开发商背景、适用场景、优缺点分析及收费模式,帮助企业或开发者根据自身需求选择最合适的向量数据库解决方案。
一个处女座的程序猿3 个月前
llm·ocr·cv·vlm
CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读
leo03083 个月前
vla·vlm
深入解析 π₀ 与 π₀.5:Physical Intelligence 的机器人基础模型演进本文详细对比分析 Physical Intelligence 公司发布的两代视觉-语言-动作(VLA)模型:π₀ 和 π₀.5,从设计目标、模型架构、训练方法、数据策略等多个维度进行深入解读。
国家一级假勤奋大学生3 个月前
大模型·llm·vlm·mllm·internvl·调研笔记
InternVL系列 technical report 解析论文链接: [2312.14238] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
具身智能之心3 个月前
具身智能·vlm·iclr 2026
ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键?在具身智能(Embodied AI)的浪潮中,研究界致力于将强大的视觉-语言模型(VLM)转化为具备机器人操控能力的 Vision-Language-Action (VLA) 模型 。然而,这一转化过程面临着一道巨大的“鸿沟”:上游 VLM 通常依托海量互联网数据预训练,拥有卓越的通用推理能力;而下游 VLA 却需要在具体的物理环境中实现精准的动作控制 。
一颗小树x3 个月前
人工智能·深度学习·机器人·vlm·vlaser
《VLA 系列》从 VLM 到 VLA 机器人控制,关键的多模态数据和能力是什么?| Vlaser | ICLR 2026Vlaser 是一款基于 InternVL3 构建的视觉-语言-行动(VLA)模型,核心亮点是集成协同具身推理与端到端机器人控制能力。
安如衫3 个月前
人工智能·ocr·agent·cv·rag·vlm
从 OCR 到多模态 VLM Agentic AI:智能文档问答的范式转移全解传统的 OCR 正在沦为历史。本文将带你深度复盘智能文档处理技术的演进:从 Tesseract 到 PaddleOCR,从布局检测再到基于 VLM 智能体的端到端解析,更附带了基于 AWS Serverless 与 LandingAI ADE API 的生产级代码实现。
hjs_deeplearning3 个月前
开发语言·人工智能·机器学习·swift·vlm
认知篇#15:ms-swift微调中gradient_accumulation_steps和warmup_ratio等参数的意义与设置MS-SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是由ModelScope(魔搭)社区推出的一个开源框架,专为大模型和多模态大模型提供全流程的轻量化微调、部署与评估解决方案。它集成了LoRA、QLoRA等高效的训练技术,支持对超过500种大模型和200多种多模态模型(如Qwen、DeepSeek、GLM系列)进行训练、量化与推理,并兼容从消费级显卡到专业服务器等多种硬件。通过命令行、Python API或图形界面,用户可以快速实现对模
一颗小树x3 个月前
目标检测·vlm·模型推理·vllm加速·标注数据
Qwen3-VL 目标检测 | 生成训练标签 | LabelMe格式 | COCO格式用Qwen3-VL模型实现端到端检测,无需额外训练检测器,通过自然语言提示词约束模型输出。文章详细介绍了transformers和vLLM两种实现版本,包括模型初始化、图像处理、推理流程、结果清理和格式转换等关键环节。
山顶夕景3 个月前
大模型·llm·ocr·多模态·文档智能·vlm
【VLM】Format Decoupled Reinforcement Learning for Document OCR【文档智能进展】讲的故事是格式化文本(公式、表格等)比纯文本熵值高一个数量级,导致模型输出不确定性大、解析准确率低,所以搞了个应对思路。工作在:Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR,https://arxiv.org/pdf/2601.08834,
songyuc3 个月前
vlm
【Qwen3-VL】请你用易懂且简洁的语言来介绍一下Qwen3VL的图像预处理在传统的 VLM(如 LLaVA v1.5)中,图像处理简单粗暴:无论原图什么样,一律强行拉伸/填充成 336×336336 \times 336336×336 的正方形。这种做法既破坏了长宽比,又浪费了计算量(大量 padding)。
njsgcs4 个月前
人工智能·python·yolo·ocr·vlm
基于vlm+ocr+yolo的一键ai从模之屋下载模型https://www.bilibili.com/video/BV1fYvZBUET8还是得给他帮亿把 ,7步尚且如此,做个mod几十步,我不敢想
njsgcs4 个月前
ocr·vlm
ai自己制作mod2 ocr vlm识别 模型页面点击打开模型页面ai自己制作mod2 ocr vlm识别 模型页面点击打开模型页面_哔哩哔哩_bilibiliocr识别不了点赞图标,不然点赞收藏一气喝成就能下载模型了