vlm

超人也会哭️呀1 天前
人工智能·ai·llm·ocr·vlm·视觉模型·dots.ocr
视觉模型中的坐标漂移之前提过,我们搞了个企业级知识库系统,结果文档解析时总出幺蛾子——时不时就报错"解析失败"。我这人对 Bug 的容忍度基本为零,决定死磕到底。
_张一凡1 天前
llm·aigc·vlm·前沿资讯
【AIGC行业前沿】2026年5月AIGC行业前沿模型发布动态(5月25-5月31)1、SpaceXAI 完成 Grok V9-Medium 模型训练并公布开源规划 2、OpenBMB 推出开源小模型 MiniCPM5-1B,登顶2B以下模型榜单 3、快手Kwai-Keye开源Keye-VL-2.0-30B-A3B超长视频理解多模态模型 4、PrismML 发布轻量化图像生成模型Bonsai Image 4B,适配本地终端设备 5、微软推出MAI-Image-2.5文生图模型,登顶行业榜单前三 6、OpenMOSS 发布语音与音效双模型,升级多语种合成与高保真音效生成能力 7、NVIDI
feasibility.9 天前
人工智能·机器人·ros·仿真·具身智能·vla·vlm
ROS2+Gazebo+VLM服务:纯仿真环境下的具身智能闭环系统| 大脑-小脑分离控制上一篇创建环境和代码框架基础可以见《ROS2+Gazebo+VLA占位服务:纯仿真环境下的具身智能闭环实现》(https://blog.csdn.net/weixin_55221858/article/details/156659624),本次把占位服务替换为VLM服务,读者有能力的话也可以自己训练能直接输出动作的VLA模型,实现真正的VLA端到端服务。
feasibility.16 天前
人工智能·深度学习·计算机视觉·llm·图像分割·多模态·vlm
Qwen3-VL-Seg 深度解读:当多模态大模型学会“像素级精准手术“论文: Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
feasibility.1 个月前
人工智能·llm·多模态·量化·llama.cpp·vlm·llama-factory
多模态模型Qwen-3.5在Llama-Factory使用+llama.cpp量化导出+部署流程(含报错处理)可以去huggingface或hf-mirror镜像站等下载Qwen3.5的模型,比如https://huggingface.co/Qwen/Qwen3.5-0.8B/tree/main 或https://hf-mirror.com/Qwen/Qwen3.5-0.8B/tree/main下载模型相关文件,保存到合适路径,比如/Users/Zhuanz/Desktop/work/Qwen3.5/model
山顶夕景1 个月前
python·大模型·llm·agent·多模态·vlm
【VLM】结合Python沙箱的以图思辨S1-VL模型【多模态推理大模型进展】基于Qwen3-VL-32B-Thinking做的面向数学、物理、化学、天文、地理、生物六大学科的科学多模态推理模型,主要特点是Python 沙箱执行图像裁剪、缩放、标注等代码,多轮迭代推理。S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images,https://arxiv.org/pdf/2604.21409,https://huggingface.co/ScienceOne-AI,https:
一颗小树x2 个月前
机器人·开源数据集·人形机器人·vlm
《VLA 系列》Humanoid Everyday | 人形机器人 | 开源数据集Humanoid Everyday 是首个面向开放世界的人形机器人,大规模多模态数据集,涵盖260个真实场景任务、超1万条演示轨迹与300万帧30Hz高频数据,覆盖基础操作、移动操作、人机交互等七大技能类别,
bryant_meng2 个月前
人工智能·深度学习·rl·vla·世界模型·vlm
【VLA】Vision Language Action世界模型 是智能体(Agent)内部对环境动态(dynamics)的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作,环境会如何变化”。
一颗小树x2 个月前
格式转换·vlm·lora微调·空间理解·siti 数据集
空间理解 SITI 数据集 | 格式转换 | Lora微调 | VLM 大模型本文分析使用空间理解 SITI 数据集,进行VLM的Lora微调微调,包括 数据格式转换、多图像VQA微调、视频VQA微调。
山顶夕景3 个月前
大模型·llm·cot·vlm·视觉模型
【VLM】HopChain视觉语言推理多跳数据合成框架这篇论文提出了HopChain,一个可扩展的框架,用于合成多跳视觉语言推理数据,以改进VLMs的可验证奖励强化学习(RLVR)训练。具体来说:
山顶夕景4 个月前
llm·多模态大模型·vlm
【VLM】Qwen3-VL-SFT微调简要流程1. alpaca-gpt4-data-zh (中文指令数据)2. la_te_x_ocr (LaTeX公式OCR)
山顶夕景4 个月前
大模型·llm·多模态·vlm
【VLM】Qwen3-VL模型架构和训练流程链接:https://arxiv.org/pdf/2511.21631模型家族包含密集型(2B/4B/8B/32B)与混合专家(Mixture-of-Experts, MoE)两种架构(30B-A3B/235B-A22B),以适应不同延迟-质量权衡需求。
ASS-ASH4 个月前
数据库·人工智能·python·llm·embedding·向量数据库·vlm
AI时代之向量数据库概览向量数据库作为AI时代的新型基础设施,正迅速成为处理非结构化数据的核心工具。随着大模型技术的普及,企业越来越依赖向量数据库实现语义检索、知识库增强(RAG)、智能推荐等应用。本文将全面解析主流向量数据库产品,包括其开发商背景、适用场景、优缺点分析及收费模式,帮助企业或开发者根据自身需求选择最合适的向量数据库解决方案。
一个处女座的程序猿4 个月前
llm·ocr·cv·vlm
CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读
leo03084 个月前
vla·vlm
深入解析 π₀ 与 π₀.5:Physical Intelligence 的机器人基础模型演进本文详细对比分析 Physical Intelligence 公司发布的两代视觉-语言-动作(VLA)模型:π₀ 和 π₀.5,从设计目标、模型架构、训练方法、数据策略等多个维度进行深入解读。
国家一级假勤奋大学生4 个月前
大模型·llm·vlm·mllm·internvl·调研笔记
InternVL系列 technical report 解析论文链接: [2312.14238] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
具身智能之心4 个月前
具身智能·vlm·iclr 2026
ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键?在具身智能(Embodied AI)的浪潮中,研究界致力于将强大的视觉-语言模型(VLM)转化为具备机器人操控能力的 Vision-Language-Action (VLA) 模型 。然而,这一转化过程面临着一道巨大的“鸿沟”:上游 VLM 通常依托海量互联网数据预训练,拥有卓越的通用推理能力;而下游 VLA 却需要在具体的物理环境中实现精准的动作控制 。
一颗小树x4 个月前
人工智能·深度学习·机器人·vlm·vlaser
《VLA 系列》从 VLM 到 VLA 机器人控制,关键的多模态数据和能力是什么?| Vlaser | ICLR 2026Vlaser 是一款基于 InternVL3 构建的视觉-语言-行动(VLA)模型,核心亮点是集成协同具身推理与端到端机器人控制能力。
安如衫4 个月前
人工智能·ocr·agent·cv·rag·vlm
从 OCR 到多模态 VLM Agentic AI:智能文档问答的范式转移全解传统的 OCR 正在沦为历史。本文将带你深度复盘智能文档处理技术的演进:从 Tesseract 到 PaddleOCR,从布局检测再到基于 VLM 智能体的端到端解析,更附带了基于 AWS Serverless 与 LandingAI ADE API 的生产级代码实现。
hjs_deeplearning4 个月前
开发语言·人工智能·机器学习·swift·vlm
认知篇#15:ms-swift微调中gradient_accumulation_steps和warmup_ratio等参数的意义与设置MS-SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是由ModelScope(魔搭)社区推出的一个开源框架,专为大模型和多模态大模型提供全流程的轻量化微调、部署与评估解决方案。它集成了LoRA、QLoRA等高效的训练技术,支持对超过500种大模型和200多种多模态模型(如Qwen、DeepSeek、GLM系列)进行训练、量化与推理,并兼容从消费级显卡到专业服务器等多种硬件。通过命令行、Python API或图形界面,用户可以快速实现对模