具身智能

视觉语言导航5 天前
人工智能·深度学习·具身智能
ICCV-2025 | 复杂场景的精准可控生成新突破!基于场景图的可控 3D 户外场景生成3D 场景生成因其构建真实、物理一致三维场景的潜力而受到广泛关注。这类模型为理解和模拟复杂的三维世界提供了一种有效方式。在众多三维场景生成方法中,概率生成模型近年来展现出巨大潜力。然而,这类模型的随机性也带来了控制精度不足的问题,因此一个可编辑、可控的生成过程显得尤为重要。
Mr.Winter`5 天前
c++·人工智能·机器人·自动驾驶·ros·ros2·具身智能
轨迹优化 | 基于激光雷达的欧氏距离场ESDF地图构建(附ROS C++仿真)在机器人路径规划与自主导航领域,欧氏符号距离场(Euclidean Signed Distance Field, ESDF)是一种用于高效表示环境几何信息的关键数据结构。它通过量化空间中每个点到最近障碍物的有符号欧氏距离,将复杂的障碍物分布转化为连续的数值场,为轨迹优化、碰撞检测等任务提供了强大的数学工具。本文将从数学定义出发,结合轨迹优化的具体场景,阐述ESDF的核心思想与应用
视觉语言导航7 天前
人工智能·深度学习·机器人·具身智能
RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航!VR-Robo:面向视觉机器人导航与运动的现实-模拟-现实框架作者: Shaoting Zhu, Linzhan Mou, Derun Li, Baijun Ye, Runhan Huang, Hang Zhao
Mr.Winter`8 天前
人工智能·机器人·自动驾驶·ros·具身智能·环境感知
障碍感知 | 基于3D激光雷达的三维膨胀栅格地图构建(附ROS C++仿真)在机器人环境感知领域,传统2D激光雷达通过单层扫描平面提供高效的二维轮廓信息,在室内导航、仓库AGV等结构化环境中表现出色。其优势在于数据量小(通常每秒数千个点)、处理简单,且成本相对低廉。然而,这种"切片式"感知存在根本性局限:当遇到多层货架、悬空障碍物或复杂地形时,单平面扫描会丢失关键的三维信息。更严重的是在物体遮挡场景中——例如机器人前方的低矮障碍物被较高物体部分遮挡时,2D雷达只能返回最近物体的距离数据,无法区分垂直方向上的空间关系,导致"盲区效应"。
Shannon@1 个月前
深度学习·机器人·llm·transformer·具身智能·gato·rt-1
(下)通用智能体与机器人Transformer:Gato和RT-1技术解析及与LLM Transformer的异同接上篇《(上)通用智能体与机器人Transformer:Gato和RT-1技术解析及与LLM Transformer的异同 》
视觉语言导航1 个月前
人工智能·机器人·具身智能
社交机器人具身导航新范式!AutoSpatial:通过高效空间推理学习实现机器人视觉语言推理和社交导航作者:Yangzhe Kong, Daeun Song, Jing Liang, Dinesh Manocha, Ziyu Yao, and Xuesu Xiao
一点人工一点智能1 个月前
机器人·具身智能·智能决策
未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?编辑:陈萍萍的公主@一点人工一点智能未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战,在不依赖领域特定归纳偏见的条件下实现了卓越的预测准确性和鲁棒性。https://mp.weixin.qq.com/s/JztOQLpMRD1OueApQgISWg论文提出了名为RWM(Robotic World Model)的新型世界模型框架,通过双自回归机制和自我监督训练,解决了机器人控制中长期预测、误差累积和部分可观测性等核心挑战。文
视觉语言导航1 个月前
人工智能·深度学习·无人机·具身智能
中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试BEDI基准测试平台结合了真实世界的数据和虚拟环境的优势,以提供一个全面的测试平台。为了评估UAV-EAs的感知和决策能力,论文构建了一个基于真实无人机图像的测试数据集。该数据集涵盖了多种场景,包括火灾救援、交通监控、城市巡逻和野外探索等,以确保测试环境的多样性和真实性。
视觉语言导航1 个月前
人工智能·深度学习·无人机·具身智能
低空城市场景下的多无人机任务规划与动态协调!CoordField:无人机任务分配的智能协调场
视觉语言导航1 个月前
人工智能·深度学习·机器人·人机交互·具身智能
HRI-2025 | 大模型驱动的个性化可解释机器人人机交互研究
视觉语言导航1 个月前
人工智能·深度学习·无人机·具身智能
俄罗斯无人机自主任务规划!UAV-CodeAgents:基于多智能体ReAct和视觉语言推理的可扩展无人机任务规划UAV-CodeAgents是一个模块化和可扩展的框架,由以下核心组件构成:系统基于 smolagents 框架构建,支持多智能体协调。智能体通过简单的消息传递接口通信,定期报告其状态(位置、图像、语义注释),支持容错和异步操作。
华清远见IT开放实验室1 个月前
物联网·嵌入式·硬件·具身智能·虚拟仿真·ai人工智能
华清远见亮相第63届高博会,展示AI/嵌入式/物联网/具身智能全栈教学解决方案2025年5月23日-25日,第63届高等教育博览会(高博会)在长春圆满落下帷幕。本届高博会以“融合·创新·引领:服务高等教育强国建设”为主题,吸引千余所高校及科研机构、800余家科技企业参加,高校书记校长、行业专家学者、企业界精英齐聚盛会。
PNP机器人1 个月前
机器人·具身智能·franka·开源机器人数据集
麻省理工新突破:家庭场景下机器人实现精准控制,real-to-sim-to-real学习助力麻省理工学院电气工程与计算机科学系Pulkit Agrawal教授,介绍了一种新方法,可以让机器人在扫描的家庭环境模拟中接受训练,为任何人都可以实现定制的家庭自动化铺平了道路。
cnbestec1 个月前
人工智能·具身智能·hellorobot·移动操作机器人·stretch 3
开源即战力!从科研到商用:Hello Robot 移动操作机器人Stretch 3多模态传感融合(RGB-D/激光/力矩)控制方案科研领域对机器人技术的需求日益增长,Hello Robot的移动操作机器人Stretch 3凭借其灵活性和性能满足了这一需求。其模块化设计、开源架构和高精度传感控制能力,使科研人员能够顺利开展实验。Stretch 3以其独特的移动操作能力,为科研探索提供了支持。
视觉语言导航1 个月前
人工智能·深度学习·无人机·智慧城市·具身智能
中山大学无人机具身导航新突破!FlightGPT:迈向通用性和可解释性的无人机视觉语言导航论文聚焦于无人机视觉-语言导航(UAV VLN)任务,该任务要求无人机在三维环境中根据自然语言描述和视觉感知到达指定目标。具体来说,每个任务可以形式化为一个三元组 ( I , D , E ) (I, D, E) (I,D,E),其中:
视觉语言导航2 个月前
人工智能·深度学习·无人机·具身智能
印度语言指令驱动的无人机导航!UAV-VLN:端到端视觉语言导航助力无人机自主飞行实验在四个不同场景中进行,每个场景包含15个不同的导航任务:
视觉语言导航2 个月前
人工智能·深度学习·无人机·智慧城市·具身智能
清华大学无人机城市空间导航探索!CityNavAgent:基于层次语义规划与全局记忆的空中视觉语言导航视觉语言导航(VLN)是一项基础任务,要求智能体根据语言指令导航到指定的地标或位置。随着无人机的普及,空中VLN受到更多关注,它使无人机能够在复杂的大规模户外环境中导航,降低人机交互成本,并在救援、运输和城市检查等领域具有显著优势。
视觉语言导航2 个月前
人工智能·深度学习·无人机·具身智能
中科院自动化研究所通用空中任务无人机!基于大模型的通用任务执行与自主飞行作者: Ji Zhao and Xiao Lin单位:中科院自动化研究所论文标题:General-Purpose Aerial Intelligent Agents Empowered by Large Language Models
视觉语言导航2 个月前
人工智能·深度学习·无人机·具身智能
南航无人机大规模户外环境视觉导航框架!SM-CERL:基于语义地图与认知逃逸强化学习的无人机户外视觉导航导航行为分析:
视觉语言导航2 个月前
人工智能·无人机·具身智能
兼顾长、短视频任务的无人机具身理解!AirVista-II:面向动态场景语义理解的无人机具身智能体系统AirVista-II系统由规划模块和执行模块组成。根据输入场景的时间长度,将动态场景分为三种类型:即时场景(单帧图像)、短视频(小于60秒)和长视频(大于等于60秒),分别对应不同的任务形式和执行策略。