具身智能

视觉语言导航1 天前
人工智能·深度学习·机器人·具身智能
ICPR-2025 | 让机器人在未知环境中 “听懂” 指令精准导航!VLTNet:基于视觉语言推理的零样本目标导航作者:Congcong Wen, Yisiyuan Huang, Hao Huang ,Yanjia Huang, Shuaihang Yuan, YuHao, HuiLin and Yi Fang
视觉语言导航6 天前
人工智能·深度学习·具身智能
IJCV-2025 | 深圳大学记忆增强的具身导航!ESceme:基于情景记忆的视觉语言导航论文首次提出Episodic Scene Memory(ESceme)场景记忆机制,通过记忆过去的访问场景来平衡泛化能力和效率。
寻丶幽风8 天前
论文阅读·笔记·机器人·dp·具身智能
论文阅读笔记——Reactive Diffusion PolicyRDP 论文ACT、 π 0 \pi_0 π0 采取了动作分块,在动作分块执行期间处于开环状态,无法及时响应环境变化,缺乏触觉输入,无法适应高精度(力控制)任务和及时响应。现有的触觉输入是侧重于观察方面,利用触觉输入提供视觉遮挡或接触状态判断等信息。在数据上,MTDP(Mixed-Teleoperation Demonstration Policy)通过增强现实(AR)技术实现了两大突破性改进:1)异构机器人兼容性 - 克服了传统ALOHA双边控制系统必须使用同构机器人的限制;2)成本优化 - 相比基于专
视觉语言导航10 天前
人工智能·机器人·具身智能
ICRA-2025 | 视觉预测助力机器人自主导航!NavigateDiff:视觉引导的零样本导航助理论文主要解决的问题是家庭机器人在导航不熟悉环境时面临的挑战,特别是如何在不进行大量地图绘制和探索的情况下,实现零样本导航。
BFT白芙堂11 天前
人工智能·算法·机器学习·具身智能·franka机器人·科研机器人·机器人解决方案
Franka 机器人x Dexterity Gen引领遥操作精细任务新时代教授机器人工具灵活操作难题在教授机器人灵活使用工具方面,目前主要有两种策略:一是人类遥控(用于模仿学习),二是模拟到现实的强化学习。然而,这两种方法均存在明显的局限性。
视觉语言导航12 天前
人工智能·机器人·具身智能
基于视觉语言模型的机器人实时探索系统!ClipRover:移动机器人零样本视觉语言探索和目标发现该问题的研究难点包括:此外,决策模块还包括两个附加功能:为了增强管道中位置信息的嵌入,原始相机帧在输入视觉语言模型之前被分割成更小的tiles。
视觉语言导航15 天前
人工智能·深度学习·机器人·无人机·具身智能
华东师范地面机器人融合空中无人机视角的具身导航!KiteRunner:语言驱动的户外环境合作式局部-全局导航策略该问题的研究难点包括:视觉-语言整合的语义导航:扩散模型用于局部路径规划:基于俯视图的全局规划:VLP负责从自然语言指令中提取语义地标,并将其与存储在拓扑图中的视觉地标进行匹配,以生成最优路径。具体步骤包括:
寻丶幽风15 天前
论文阅读·笔记·扩散模型·具身智能·双壁机器人
论文阅读笔记——RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATIONRDT-1B 论文 模型表达与泛化能力:由于双臂操作中动作空间维度是单臂空间的两倍,传统方法难以建模其多模态分布。 数据:双臂数据少且不同机器人的物理结构和动作空间差异(如关节数、运动范围)导致数据分布不一致,直接合并训练可能引发负迁移(negative transfer)。
视觉语言导航25 天前
人工智能·深度学习·具身智能
ICASSP-2025 | 国防科大具身导航高效记忆与推理!GAR:基于图感知推理与双向选择的视觉语言导航作者: DongmingZhou, JinshengDeng, ZhengbinPang, WeiLi
一点人工一点智能1 个月前
机器人·具身智能·模仿学习
让机器人学会“读心术“:FABG如何实现情感零延迟交互?编辑:陈萍萍的公主@一点人工一点智能让机器人学会"读心术":FABG如何实现情感零延迟交互?【机器人秒变读脸专家!】VR眼动追踪+58组表情传感器,连你挑眉的0.1秒微表情都能实时克隆!独家预测算法预判人类情绪,25自由度机械脸竟比人类反应更快…https://mp.weixin.qq.com/s/sTXIxFy585XoAMo6wneHaw
ModestCoder_1 个月前
强化学习·具身智能
Ubuntu20.04系统安装IsaacSim4.5与IsaacLab环境今天用自己的Ubuntu20.04系统安装最新更新的IsaacSim 4.5 与 最新版的IsaacLab遇到了问题,且这个问题组里师兄之前也遇到了,我的解决方法是从头来过,所及记录一下。
一点人工一点智能1 个月前
机器人·具身智能·足式机器人
HOVER:人形机器人的多功能神经网络全身控制器编辑:陈萍萍的公主@一点人工一点智能HOVER:人形机器人的多功能神经网络全身控制器HOVER通过策略蒸馏和统一命令空间设计,为人形机器人提供了通用、高效的全身控制框架。https://mp.weixin.qq.com/s/R1cw47I4BOi2UfF_m-KzWg
视觉语言导航1 个月前
人工智能·机器人·具身智能
中科院自动化所人形机器人研究进展:全面综述与展望作者:Yuchuang Tong, Haotian Liu, and Zhengtao Zhang单位:中国科学院自动化研究所,中国科学院大学人工智能学院
紫雾凌寒1 个月前
人工智能·计算机视觉·cnn·transformer·具身智能·ei
计算机视觉|首次写入政府工作报告!这个科技新词“具身智能”到底是什么?具身智能(Embodied Intelligence) 是人工智能领域的关键研究方向,强调智能体通过物理实体与环境交互实现认知和智能行为。与传统人工智能基于静态数据和符号推理不同,具身智能依赖动态感知与动作的协同作用。智能体通过传感器(如摄像头、激光雷达、触觉传感器)采集环境信息,经过内部决策生成动作,并在执行中实时调整,形成 “感知-思考-行动” 的闭环。例如,人形机器人在室内导航时,利用摄像头捕捉墙壁和家具布局,结合激光雷达测量距离,决策移动方向并避开障碍物。这一过程模拟了人类通过视觉、听觉和肢体协作
视觉语言导航1 个月前
人工智能·深度学习·具身智能
清华大学城市空间具身连续视觉感知问答基准测试!UrbanVideo-Bench:首个针对多模态大模型的运动认知评估数据集作者:Baining Zhao, Jianjie Fang, Zichao Dai, Ziyou Wang, Jirong Zha, Weichen Zhang, Chen Gao, Yue Wang, Jinqiang Cui, Xinlei Chen, Yong Li
视觉语言导航1 个月前
人工智能·深度学习·具身智能
RAG助力机器人场景理解与具身操作!EmbodiedRAG:基于动态三维场景图检索的机器人任务规划随着机器人环境规模的扩大和场景图信息复杂性的增加,直接将3D场景图(3DSGs)提供给基于大模型(LLMs)的规划器变得不可行,主要由于输入token数量限制和LLMs中的注意力偏差。
视觉语言导航2 个月前
人工智能·深度学习·具身智能
微软具身智能感知交互多面手!Magma:基于基础模型的多模态AI智能体作者: Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, MuCai, SeonghyeonYe, JoelJang, Yuquan Deng, Lars Liden, Jianfeng Gao
一点人工一点智能2 个月前
机器人·视觉语言模型·具身智能·人形机器人
Harmon:从语言描述中生成人形机器人的全身动作编辑:陈萍萍的公主@一点人工一点智能Harmon | 从语言描述中生成人形机器人的全身动作这篇论文介绍了一种名为“HARMON”的方法,用于从自然语言描述中生成人形机器人的全身运动。https://mp.weixin.qq.com/s/AYwufIE_cABB1e3jTTHeQQ
视觉语言导航2 个月前
人工智能·具身智能
NeurIPS-2024 | 具身智能如何理解空间关系?SpatialRGPT:视觉语言模型中的具象空间推理作者:An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang, Jan Kautz, Xiaolong Wang, Sifei Liu
视觉语言导航2 个月前
人工智能·机器人·具身智能
ICML-2024 | 具身智能如何数据自由?RoboGen:基于生成式模拟实现全自动无限数据机器人学习作者:Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Katerina Fragkiadaki, Zackory Erickson, David Held, Chuang Gan