技术栈

视觉语言导航

v_JULY_v
15 天前
yolo11·视觉语言导航·vln·lovon
LOVON——面向足式Open-Vocabulary的物体导航:LLM做任务分解、YOLO11做目标检测,最后L2MM将指令和视觉映射为动作(且解决动态模糊)因为项目需要(比如我们在做的两个展厅讲解订单),近期我一直在研究VLN相关,有些工作哪怕暂时还没开源(将来可能会开源),但也依然会解读,比如好处之一是构建完整的VLN知识体系,本文便是其中一例
v_JULY_v
20 天前
视觉语言导航·vln·navid·vln-ce·mp3d
NaVid——基于视频的VLM规划「视觉语言导航VLN」的下一步:含VLN-CE、MP3D的详解因为我司准备于25年7月底复现下NaVILA,而在研究NaVILA的过程中,注意到了这个NaVid故成此文
伪_装
7 个月前
无人机·uav·视觉语言导航
中科院空天院无人机视觉语言导航新基准!AeroVerse:模拟、预训练、微调和评估空中无人机具身世界模型的测试基准该问题的研究难点包括:该问题的研究相关工作包括:论文介绍了无人机智能体在航空航天领域中实现闭环训练的五个下游任务,并对每个任务的概念进行了清晰的定义,对输入输出格式进行标准化: