具身智能

视觉语言导航2 天前
人工智能·机器人·具身智能
ICML-2024 | 具身智能如何数据自由?RoboGen:基于生成式模拟实现全自动无限数据机器人学习作者:Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Katerina Fragkiadaki, Zackory Erickson, David Held, Chuang Gan
天机️灵韵7 天前
人工智能·机器人·具身智能
主动视觉可能就是你所需要的:在双臂机器人操作中探索主动视觉AV-ALOHA 系统使用用于 AV 的 VR 耳机实现直观的数据收集,并且 用于作的 VR 控制器或引线臂。这有助于捕捉全身和头部 远程作我们的真实和模拟系统的运动,记录来自 6 个的视频 不同的摄像头,并为我们的 AV 仿制学习策略提供训练数据。
天机️灵韵8 天前
人工智能·物联网·具身智能
天神之眼vs华为智驾“天神之眼”和“华为智驾”分别是比亚迪和华为在智能驾驶领域推出的技术方案,两者均代表了国内顶尖的自动驾驶技术水平,但在技术路线、功能侧重和生态布局上存在差异。以下是两者的对比分析:
视觉语言导航9 天前
人工智能·深度学习·机器人·具身智能
具身导航、一环通达!RING:机器人室内导航通用策略现有的导航策略大多是特定于某个机器人配置的,无法很好地泛化到其他机器人上,即使是小的身体尺寸或相机视角的变化也可能导致失败。
Big David20 天前
机器人·具身智能
机器人基础&&深度学习基础参考: (1)【具身抓取课程-1】机器人基础 (2)【具身抓取课程-2】深度学习基础从平面二连杆理解机器人学
datamonday20 天前
扩散模型·具身智能·rdt·vla·dit
[EAI-027] RDT-1B,目前最大的用于机器人双臂操作的机器人基础模型论文标题:RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文作者:Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu 论文链接:https://arxiv.org/abs/2410.07864v1 项目主页:https://rdt-robotics.github.io/rdt-
视觉语言导航20 天前
人工智能·深度学习·具身智能
构建具身智能体的时空宇宙!GRUtopia:畅想城市规模下通用机器人的生活图景作者: Hanqing Wang, Jiahe Chen, Wensi Huang, Qingwei Ben, Tai Wang, Boyu Mi, Tao Huang, Siheng Zhao, Yilun Chen, Sizhe Yang, Peizhou Cao, Wenye Yu, Zichao Ye, Jialun Li, Junfeng Long, Zirui Wang, Huiling Wang, Ying Zhao, Zhongying Tu, Yu Qiao, Dahua Lin, Ji
datamonday21 天前
扩散模型·具身智能·vla·vlm·diffusionvla
[EAI-028] Diffusion-VLA,能够进行多模态推理和机器人动作预测的VLA模型论文标题:Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者:Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng 论文链接:https://arxiv
Big David23 天前
算法·机器人·具身智能
机器人抓取与操作经典规划算法(深蓝)——2位姿估计:(1)相机系位姿 (2)机器人系位姿 抓取位姿:(1)抓取位姿计算 (2)抓取评估和优化 路径规划:(1)笛卡尔空间点 (2)IK求解 (3)关节空间插值 任务规划:(1)装配任务 (2)派件任务(TSP问题,VRP问题)
v_JULY_v24 天前
具身智能·robovlm·通用机器人策略·vla设计哲学·vlm fot robot·视觉语言动作模型
RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据本博客内解读不少VLA模型了,包括π0等,且如此文的开头所说前两天又重点看了下openvla,和cogact,发现
datamonday24 天前
tokenizer·具身智能·vla·vlm·pi0
[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models论文标题:FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者:Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接:https://arxiv.org/abs/2501.09747 论文出处:/ 论文被引:/ 项
存内计算开发者1 个月前
深度学习·神经网络·机器学习·计算机视觉·机器人·视觉检测·具身智能
机器人奇点:从宇树科技看2025具身智能发展近年来,随着人工智能和机器人技术的飞速发展,具身智能(Embodied Intelligence)逐渐成为科技领域的热门话题。具身智能不仅赋予了机器人感知、决策和执行的能力,还通过与物理世界的交互,推动了人工智能从“离身”到“具身”的转变。根据2025年具身智能技术应用发展报告,具身智能正在成为推动新质生产力的重要引擎,尤其是在工业制造、服务机器人等领域展现出巨大的应用潜力。
视觉语言导航1 个月前
人工智能·深度学习·具身智能
IJCAI-2024 | 具身导航的花样Prompts!VLN-MP:利用多模态Prompts增强视觉语言导航能力作者: Haodong Hong1,2 , Sen Wang1∗ , Zi Huang1 , Qi Wu3 and Jiajun Liu2,1
视觉语言导航1 个月前
人工智能·深度学习·机器人·具身智能
具身导航如何利用取之不尽的网络视频资源!RoomTour3D:基于几何感知的视频-指令训练调优作者:Mingfei Han, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev
视觉语言导航1 个月前
人工智能·深度学习·机器人·具身智能
无限世界中的具身导航与交互!InfiniteWorld:通用视觉语言机器人交互的统一仿真框架作者:Pengzhen Ren, Min Li, Zhen Luo, Xinshuai Song, Ziwei Chen, Weijia Liufu, Yixuan Yang, Hao Zheng, Rongtao Xu, Zitong Huang, Tongsheng Ding, Luyang Xie, Kaidong Zhang, Changfei Fu, Yang Liu, Liang Lin, Feng Zheng, Xiaodan Liang
大象机器人1 个月前
人工智能·科技·机器人·具身智能
通过可穿戴外骨骼,以更灵活的方式操作你的机器人。今天,我们将介绍一款专为控制 Mercury X1 和 Mercury B1 机械臂而设计的创新外骨骼。这种外骨骼以人类手臂的结构为蓝本,可实现直观和精确的控制。
视觉语言导航1 个月前
人工智能·深度学习·无人机·具身智能
北航现实场景无人机VLN新基准! OpenUAV:面向真实环境的无人机视觉语言导航,平台、基准与方法作者:Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu1, Hongsheng Li, Yue Liao, Si Liu
铮铭1 个月前
python·深度学习·机器学习·具身智能·vla
DINOv2+Qwen2.5-VL-2B+LoRA实现image caption的微调本文的打算是一步步的实现Diffusion VLA的论文思路,之前用ResNet50提取图像特征,现在换成了DINOv2。
视觉语言导航2 个月前
人工智能·docker·具身智能
技术实践︱利用Docker快速体验Matterport3DSimulator!让视觉语言导航(VLN)任务入门再无门槛!Matterport3DSimulator 是一个专门用于视觉语言导航(Visual Language Navigation, VLN)任务研究的仿真平台,它提供了丰富的三维场景和物理交互功能。然而,由于其安装过程的复杂性以及所需数据集的庞大,这为初学者设置了较高的使用门槛。
视觉语言导航2 个月前
人工智能·具身智能
AAAI-2024 | 大语言模型赋能导航决策!NavGPT:基于大模型显式推理的视觉语言导航作者:Gengze Zhou, Yicong Hong, Qi Wu单位:阿德莱德大学,澳大利亚国立大学