具身智能

Sherlock Ma2 天前
人工智能·计算机视觉·语言模型·机器人·大模型·aigc·具身智能
字节跳动GR-3:可泛化、支持长序列复杂操作任务的机器人操作大模型(技术报告解读)GR-3 是一个大规模的视觉 - 语言 - 动作(VLA)模型。它对新物体、新环境以及含抽象概念的新指令展现出较好的泛化能力。此外,GR-3 支持少量人类轨迹数据的高效微调,可快速且经济地适应新任务。GR-3 在处理长周期和灵巧性任务(包括需要双手操作和底盘移动的任务)上也展现出稳健且可靠的性能。
想要成为计算机高手8 天前
数码相机·机器人·ros·仿真·具身智能·vla·isaacsim
10. isaacsim4.2教程-RTX Lidar 传感器Isaac Sim的RTX或光线追踪Lidar支持通过JSON配置文件设置固态和旋转Lidar配置。每个RTX传感器必须附加到自己的视口或渲染产品,以确保正确模拟。
笑稀了的野生俊9 天前
manipulation·具身智能·stacking
论文笔记 | Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes论文地址:Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes
视觉语言导航9 天前
人工智能·深度学习·无人机·具身智能
低成本、高泛化能力的无人机自主飞行!VLM-Nav:基于单目视觉与视觉语言模型的无地图无人机导航
视觉语言导航9 天前
人工智能·无人机·具身智能
南洋理工空中导航零样本迁移与泛化!VLFly:基于开放词汇目标理解的无人机视觉语言导航实验设置:实验结果:
视觉语言导航13 天前
人工智能·机器人·无人机·具身智能
慕尼黑工业大学具身机器人实时环境探索!FindAnything:基于开放词汇对象中心映射的机器人任意环境认知与导航作者: Sebastian Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Stefan Leutenegger
想要成为计算机高手14 天前
人工智能·机器人·ros·仿真·具身智能·isaacsim
9. isaacsim4.2教程-ROS加相机/CLOCK在本示例中,我们将学习如何:向场景中添加额外的相机并将其安装在机器人上添加相机发布器(Camera Publishers)
墨绿色的摆渡人18 天前
人工智能·vae·具身智能
具身智能零碎知识点(五):VAE中对使用KL散度的理解VAE,全称是变分自编码器。要理解它,我们得先从自编码器 (AutoEncoder, AE) 说起。想象你有一张照片(比如一张猫的图片),你想把它压缩成一个很小的数据包,然后再从这个数据包里把照片还原出来。
视觉语言导航25 天前
人工智能·深度学习·具身智能
ICCV-2025 | 复杂场景的精准可控生成新突破!基于场景图的可控 3D 户外场景生成3D 场景生成因其构建真实、物理一致三维场景的潜力而受到广泛关注。这类模型为理解和模拟复杂的三维世界提供了一种有效方式。在众多三维场景生成方法中,概率生成模型近年来展现出巨大潜力。然而,这类模型的随机性也带来了控制精度不足的问题,因此一个可编辑、可控的生成过程显得尤为重要。
Mr.Winter`25 天前
c++·人工智能·机器人·自动驾驶·ros·ros2·具身智能
轨迹优化 | 基于激光雷达的欧氏距离场ESDF地图构建(附ROS C++仿真)在机器人路径规划与自主导航领域,欧氏符号距离场(Euclidean Signed Distance Field, ESDF)是一种用于高效表示环境几何信息的关键数据结构。它通过量化空间中每个点到最近障碍物的有符号欧氏距离,将复杂的障碍物分布转化为连续的数值场,为轨迹优化、碰撞检测等任务提供了强大的数学工具。本文将从数学定义出发,结合轨迹优化的具体场景,阐述ESDF的核心思想与应用
视觉语言导航1 个月前
人工智能·深度学习·机器人·具身智能
RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航!VR-Robo:面向视觉机器人导航与运动的现实-模拟-现实框架作者: Shaoting Zhu, Linzhan Mou, Derun Li, Baijun Ye, Runhan Huang, Hang Zhao
Mr.Winter`1 个月前
人工智能·机器人·自动驾驶·ros·具身智能·环境感知
障碍感知 | 基于3D激光雷达的三维膨胀栅格地图构建(附ROS C++仿真)在机器人环境感知领域,传统2D激光雷达通过单层扫描平面提供高效的二维轮廓信息,在室内导航、仓库AGV等结构化环境中表现出色。其优势在于数据量小(通常每秒数千个点)、处理简单,且成本相对低廉。然而,这种"切片式"感知存在根本性局限:当遇到多层货架、悬空障碍物或复杂地形时,单平面扫描会丢失关键的三维信息。更严重的是在物体遮挡场景中——例如机器人前方的低矮障碍物被较高物体部分遮挡时,2D雷达只能返回最近物体的距离数据,无法区分垂直方向上的空间关系,导致"盲区效应"。
Shannon@2 个月前
深度学习·机器人·llm·transformer·具身智能·gato·rt-1
(下)通用智能体与机器人Transformer:Gato和RT-1技术解析及与LLM Transformer的异同接上篇《(上)通用智能体与机器人Transformer:Gato和RT-1技术解析及与LLM Transformer的异同 》
视觉语言导航2 个月前
人工智能·机器人·具身智能
社交机器人具身导航新范式!AutoSpatial:通过高效空间推理学习实现机器人视觉语言推理和社交导航作者:Yangzhe Kong, Daeun Song, Jing Liang, Dinesh Manocha, Ziyu Yao, and Xuesu Xiao
一点人工一点智能2 个月前
机器人·具身智能·智能决策
未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?编辑:陈萍萍的公主@一点人工一点智能未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战,在不依赖领域特定归纳偏见的条件下实现了卓越的预测准确性和鲁棒性。https://mp.weixin.qq.com/s/JztOQLpMRD1OueApQgISWg论文提出了名为RWM(Robotic World Model)的新型世界模型框架,通过双自回归机制和自我监督训练,解决了机器人控制中长期预测、误差累积和部分可观测性等核心挑战。文
视觉语言导航2 个月前
人工智能·深度学习·无人机·具身智能
中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试BEDI基准测试平台结合了真实世界的数据和虚拟环境的优势,以提供一个全面的测试平台。为了评估UAV-EAs的感知和决策能力,论文构建了一个基于真实无人机图像的测试数据集。该数据集涵盖了多种场景,包括火灾救援、交通监控、城市巡逻和野外探索等,以确保测试环境的多样性和真实性。
视觉语言导航2 个月前
人工智能·深度学习·无人机·具身智能
低空城市场景下的多无人机任务规划与动态协调!CoordField:无人机任务分配的智能协调场
视觉语言导航2 个月前
人工智能·深度学习·机器人·人机交互·具身智能
HRI-2025 | 大模型驱动的个性化可解释机器人人机交互研究
视觉语言导航2 个月前
人工智能·深度学习·无人机·具身智能
俄罗斯无人机自主任务规划!UAV-CodeAgents:基于多智能体ReAct和视觉语言推理的可扩展无人机任务规划UAV-CodeAgents是一个模块化和可扩展的框架,由以下核心组件构成:系统基于 smolagents 框架构建,支持多智能体协调。智能体通过简单的消息传递接口通信,定期报告其状态(位置、图像、语义注释),支持容错和异步操作。
华清远见IT开放实验室2 个月前
物联网·嵌入式·硬件·具身智能·虚拟仿真·ai人工智能
华清远见亮相第63届高博会,展示AI/嵌入式/物联网/具身智能全栈教学解决方案2025年5月23日-25日,第63届高等教育博览会(高博会)在长春圆满落下帷幕。本届高博会以“融合·创新·引领:服务高等教育强国建设”为主题,吸引千余所高校及科研机构、800余家科技企业参加,高校书记校长、行业专家学者、企业界精英齐聚盛会。