vlm

_张一凡14 天前
llm·aigc·vlm·aigc前沿资讯·前沿资讯
【AIGC行业前沿】2026年6月AIGC行业前沿模型发布动态(6月8日-6月14日)目录:1、剪映首发 Seedance 2.0 系列新模型剪映通过官方小红书账号官宣,将于15日首发上线Seedance 2.0新模型。官方表示该模型相较前代生成速度更快、使用成本更低,首发期间将同步推出折扣优惠,目前官方正通过社交平台发起互动,邀请用户猜测具体折扣力度。 参考链接:https://www.xiaohongshu.com/user/profile/5cc0829f000000001100e8e0
mex_wayne16 天前
vlm
VLM (1): VLM 一般知识点总结 + VLM重点梳理我们可以看到有如下关系 LLM: text tokens → text tokens VLM: image tokens + text tokens → text tokens VLA: image tokens + text tokens + robot state/history → action tokens / continuous actions 笔者 在 看 很多vla 的 论文时, 看到 VLM 是 很多 机器人和自驾的核心. 所以 接下来会深入vlm 进行学习
超人也会哭️呀21 天前
人工智能·ai·llm·ocr·vlm·视觉模型·dots.ocr
视觉模型中的坐标漂移之前提过,我们搞了个企业级知识库系统,结果文档解析时总出幺蛾子——时不时就报错"解析失败"。我这人对 Bug 的容忍度基本为零,决定死磕到底。
_张一凡21 天前
llm·aigc·vlm·前沿资讯
【AIGC行业前沿】2026年5月AIGC行业前沿模型发布动态(5月25-5月31)1、SpaceXAI 完成 Grok V9-Medium 模型训练并公布开源规划 2、OpenBMB 推出开源小模型 MiniCPM5-1B,登顶2B以下模型榜单 3、快手Kwai-Keye开源Keye-VL-2.0-30B-A3B超长视频理解多模态模型 4、PrismML 发布轻量化图像生成模型Bonsai Image 4B,适配本地终端设备 5、微软推出MAI-Image-2.5文生图模型,登顶行业榜单前三 6、OpenMOSS 发布语音与音效双模型,升级多语种合成与高保真音效生成能力 7、NVIDI
feasibility.1 个月前
人工智能·机器人·ros·仿真·具身智能·vla·vlm
ROS2+Gazebo+VLM服务:纯仿真环境下的具身智能闭环系统| 大脑-小脑分离控制上一篇创建环境和代码框架基础可以见《ROS2+Gazebo+VLA占位服务:纯仿真环境下的具身智能闭环实现》(https://blog.csdn.net/weixin_55221858/article/details/156659624),本次把占位服务替换为VLM服务,读者有能力的话也可以自己训练能直接输出动作的VLA模型,实现真正的VLA端到端服务。
feasibility.1 个月前
人工智能·深度学习·计算机视觉·llm·图像分割·多模态·vlm
Qwen3-VL-Seg 深度解读:当多模态大模型学会“像素级精准手术“论文: Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
feasibility.2 个月前
人工智能·llm·多模态·量化·llama.cpp·vlm·llama-factory
多模态模型Qwen-3.5在Llama-Factory使用+llama.cpp量化导出+部署流程(含报错处理)可以去huggingface或hf-mirror镜像站等下载Qwen3.5的模型,比如https://huggingface.co/Qwen/Qwen3.5-0.8B/tree/main 或https://hf-mirror.com/Qwen/Qwen3.5-0.8B/tree/main下载模型相关文件,保存到合适路径,比如/Users/Zhuanz/Desktop/work/Qwen3.5/model
山顶夕景2 个月前
python·大模型·llm·agent·多模态·vlm
【VLM】结合Python沙箱的以图思辨S1-VL模型【多模态推理大模型进展】基于Qwen3-VL-32B-Thinking做的面向数学、物理、化学、天文、地理、生物六大学科的科学多模态推理模型,主要特点是Python 沙箱执行图像裁剪、缩放、标注等代码,多轮迭代推理。S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images,https://arxiv.org/pdf/2604.21409,https://huggingface.co/ScienceOne-AI,https:
一颗小树x3 个月前
机器人·开源数据集·人形机器人·vlm
《VLA 系列》Humanoid Everyday | 人形机器人 | 开源数据集Humanoid Everyday 是首个面向开放世界的人形机器人,大规模多模态数据集,涵盖260个真实场景任务、超1万条演示轨迹与300万帧30Hz高频数据,覆盖基础操作、移动操作、人机交互等七大技能类别,
bryant_meng3 个月前
人工智能·深度学习·rl·vla·世界模型·vlm
【VLA】Vision Language Action世界模型 是智能体(Agent)内部对环境动态(dynamics)的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作,环境会如何变化”。
一颗小树x3 个月前
格式转换·vlm·lora微调·空间理解·siti 数据集
空间理解 SITI 数据集 | 格式转换 | Lora微调 | VLM 大模型本文分析使用空间理解 SITI 数据集,进行VLM的Lora微调微调,包括 数据格式转换、多图像VQA微调、视频VQA微调。
山顶夕景3 个月前
大模型·llm·cot·vlm·视觉模型
【VLM】HopChain视觉语言推理多跳数据合成框架这篇论文提出了HopChain,一个可扩展的框架,用于合成多跳视觉语言推理数据,以改进VLMs的可验证奖励强化学习(RLVR)训练。具体来说:
山顶夕景4 个月前
llm·多模态大模型·vlm
【VLM】Qwen3-VL-SFT微调简要流程1. alpaca-gpt4-data-zh (中文指令数据)2. la_te_x_ocr (LaTeX公式OCR)
山顶夕景4 个月前
大模型·llm·多模态·vlm
【VLM】Qwen3-VL模型架构和训练流程链接:https://arxiv.org/pdf/2511.21631模型家族包含密集型(2B/4B/8B/32B)与混合专家(Mixture-of-Experts, MoE)两种架构(30B-A3B/235B-A22B),以适应不同延迟-质量权衡需求。
ASS-ASH5 个月前
数据库·人工智能·python·llm·embedding·向量数据库·vlm
AI时代之向量数据库概览向量数据库作为AI时代的新型基础设施,正迅速成为处理非结构化数据的核心工具。随着大模型技术的普及,企业越来越依赖向量数据库实现语义检索、知识库增强(RAG)、智能推荐等应用。本文将全面解析主流向量数据库产品,包括其开发商背景、适用场景、优缺点分析及收费模式,帮助企业或开发者根据自身需求选择最合适的向量数据库解决方案。
一个处女座的程序猿5 个月前
llm·ocr·cv·vlm
CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读
leo03085 个月前
vla·vlm
深入解析 π₀ 与 π₀.5:Physical Intelligence 的机器人基础模型演进本文详细对比分析 Physical Intelligence 公司发布的两代视觉-语言-动作(VLA)模型:π₀ 和 π₀.5,从设计目标、模型架构、训练方法、数据策略等多个维度进行深入解读。
国家一级假勤奋大学生5 个月前
大模型·llm·vlm·mllm·internvl·调研笔记
InternVL系列 technical report 解析论文链接: [2312.14238] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
具身智能之心5 个月前
具身智能·vlm·iclr 2026
ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键?在具身智能(Embodied AI)的浪潮中,研究界致力于将强大的视觉-语言模型(VLM)转化为具备机器人操控能力的 Vision-Language-Action (VLA) 模型 。然而,这一转化过程面临着一道巨大的“鸿沟”:上游 VLM 通常依托海量互联网数据预训练,拥有卓越的通用推理能力;而下游 VLA 却需要在具体的物理环境中实现精准的动作控制 。
一颗小树x5 个月前
人工智能·深度学习·机器人·vlm·vlaser
《VLA 系列》从 VLM 到 VLA 机器人控制,关键的多模态数据和能力是什么?| Vlaser | ICLR 2026Vlaser 是一款基于 InternVL3 构建的视觉-语言-行动(VLA)模型,核心亮点是集成协同具身推理与端到端机器人控制能力。