具身智能

视觉语言导航2 天前
人工智能·深度学习·无人机·具身智能
俄罗斯无人机自主任务规划!UAV-CodeAgents:基于多智能体ReAct和视觉语言推理的可扩展无人机任务规划UAV-CodeAgents是一个模块化和可扩展的框架,由以下核心组件构成:系统基于 smolagents 框架构建,支持多智能体协调。智能体通过简单的消息传递接口通信,定期报告其状态(位置、图像、语义注释),支持容错和异步操作。
华清远见IT开放实验室2 天前
物联网·嵌入式·硬件·具身智能·虚拟仿真·ai人工智能
华清远见亮相第63届高博会,展示AI/嵌入式/物联网/具身智能全栈教学解决方案2025年5月23日-25日,第63届高等教育博览会(高博会)在长春圆满落下帷幕。本届高博会以“融合·创新·引领:服务高等教育强国建设”为主题,吸引千余所高校及科研机构、800余家科技企业参加,高校书记校长、行业专家学者、企业界精英齐聚盛会。
PNP机器人3 天前
机器人·具身智能·franka·开源机器人数据集
麻省理工新突破:家庭场景下机器人实现精准控制,real-to-sim-to-real学习助力麻省理工学院电气工程与计算机科学系Pulkit Agrawal教授,介绍了一种新方法,可以让机器人在扫描的家庭环境模拟中接受训练,为任何人都可以实现定制的家庭自动化铺平了道路。
cnbestec3 天前
人工智能·具身智能·hellorobot·移动操作机器人·stretch 3
开源即战力!从科研到商用:Hello Robot 移动操作机器人Stretch 3多模态传感融合(RGB-D/激光/力矩)控制方案科研领域对机器人技术的需求日益增长,Hello Robot的移动操作机器人Stretch 3凭借其灵活性和性能满足了这一需求。其模块化设计、开源架构和高精度传感控制能力,使科研人员能够顺利开展实验。Stretch 3以其独特的移动操作能力,为科研探索提供了支持。
视觉语言导航3 天前
人工智能·深度学习·无人机·智慧城市·具身智能
中山大学无人机具身导航新突破!FlightGPT:迈向通用性和可解释性的无人机视觉语言导航论文聚焦于无人机视觉-语言导航(UAV VLN)任务,该任务要求无人机在三维环境中根据自然语言描述和视觉感知到达指定目标。具体来说,每个任务可以形式化为一个三元组 ( I , D , E ) (I, D, E) (I,D,E),其中:
视觉语言导航6 天前
人工智能·深度学习·无人机·具身智能
印度语言指令驱动的无人机导航!UAV-VLN:端到端视觉语言导航助力无人机自主飞行实验在四个不同场景中进行,每个场景包含15个不同的导航任务:
视觉语言导航8 天前
人工智能·深度学习·无人机·智慧城市·具身智能
清华大学无人机城市空间导航探索!CityNavAgent:基于层次语义规划与全局记忆的空中视觉语言导航视觉语言导航(VLN)是一项基础任务,要求智能体根据语言指令导航到指定的地标或位置。随着无人机的普及,空中VLN受到更多关注,它使无人机能够在复杂的大规模户外环境中导航,降低人机交互成本,并在救援、运输和城市检查等领域具有显著优势。
视觉语言导航13 天前
人工智能·深度学习·无人机·具身智能
中科院自动化研究所通用空中任务无人机!基于大模型的通用任务执行与自主飞行作者: Ji Zhao and Xiao Lin单位:中科院自动化研究所论文标题:General-Purpose Aerial Intelligent Agents Empowered by Large Language Models
视觉语言导航13 天前
人工智能·深度学习·无人机·具身智能
南航无人机大规模户外环境视觉导航框架!SM-CERL:基于语义地图与认知逃逸强化学习的无人机户外视觉导航导航行为分析:
视觉语言导航14 天前
人工智能·无人机·具身智能
兼顾长、短视频任务的无人机具身理解!AirVista-II:面向动态场景语义理解的无人机具身智能体系统AirVista-II系统由规划模块和执行模块组成。根据输入场景的时间长度,将动态场景分为三种类型:即时场景(单帧图像)、短视频(小于60秒)和长视频(大于等于60秒),分别对应不同的任务形式和执行策略。
视觉语言导航17 天前
人工智能·无人机·具身智能
昆士兰科技大学无人机自主导航探索新框架!UAVNav:GNSS拒止与视觉受限环境中的无人机导航与目标检测作者: Sebastien Boiteau, Fernando Vanegas, Felipe Gonzalez
视觉语言导航17 天前
人工智能·深度学习·无人机·具身智能
武汉大学无人机视角下的多目标指代理解新基准!RefDrone:无人机场景指代表达理解数据集作者:Zhichao Sun, Yepeng Liu, Huachao Zhu, Yuliang Gu, Yuda Zou, Zelong Liu, Gui-Song Xia, Bo Du, Yongchao Xu
视觉语言导航17 天前
人工智能·深度学习·机器人·无人机·具身智能
AAAI-2025 | 中科院无人机导航新突破!FELA:基于细粒度对齐的无人机视觉对话导航作者:Yifei Su, Dong An, Kehan Chen, Weichen Yu, Baiyang Ning, Yonggen Ling, Yan Huang, Liang Wang
视觉语言导航18 天前
人工智能·深度学习·具身智能
湖南大学3D场景问答最新综述!3D-SQA:3D场景问答助力具身智能场景理解作者: Zechuan Li, Hongshan Yu, Yihao Ding, Yan Li, Yong He, Naveed Akhtar
放羊郎19 天前
机器人·开源·具身智能·项目陪跑·从零开发
具身智能机器人开源陪跑计划(机器人实战落地)主理人背景 华南理工大学硕士毕业,10年机器人研发经验,5年“互联网+机器人”创业经历 累计牵头落地的机器人30多款,累计授权专利80余项,累计论文发表10余篇。
寻丶幽风25 天前
论文阅读·笔记·机器人·具身智能·vla
论文阅读笔记——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language PriorsRoboGround 论文 一类中间表征是语言指令,但对于空间位置描述过于模糊(“把杯子放桌上”但不知道放桌上哪里);另一类是目标图像或点流,但是开销大;由此 GeoDEX 提出一种兼具二者的掩码。
寻丶幽风1 个月前
论文阅读·笔记·机器人·具身智能·动态推理
论文阅读笔记——STDArmSTDArm 论文 将静态转化为动态时,面临几个问题:1)推理延迟高;2)Action Chunk 的方式导致对环境响应能力差。过去的方法都采用减少扩散策略的去噪步数以提升整体推理频率(加速策略本身推理频率),STDArm 则采用动作管理器和 插值动作补偿。——相比于压缩算法,优化执行架构的方式也可以提升频率。(STDArm 部署在边缘设备 Jetson Xavier 上) 策略网络的输入是 m o m_o mo 步观测数据 O,末端执行器的位置坐标(u)。采用 ResNet18作为视觉骨干,然后接 DP
望获linux1 个月前
linux·人工智能·机器人·操作系统·开源软件·rtos·具身智能
北京亦庄机器人马拉松:人机共跑背后的技术突破与产业启示2025年4月19日,北京亦庄举办了一场具有里程碑意义的科技赛事——全球首个人形机器人半程马拉松。这场人类与20支机器人战队共同参与的21.0975公里竞速,不仅创造了人形机器人连续运动的最长纪录,更成为中国智能制造领域的综合性技术验证平台。通过整合赛事真实数据与产业反馈,本文将对这一事件的创新价值与现实意义进行系统性梳理与修正。
万俟淋曦1 个月前
人工智能·ai·机器人·大模型·llm·论文·具身智能
【论文速递】2025年09周 (Robotics/Embodied AI/LLM)标题: LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
寻丶幽风1 个月前
论文阅读·笔记·机器人·具身智能·世界模型
论文阅读笔记——TesserAct: Learning 4D Embodied World ModelsTesserAct 论文 采用RGB-DN(RGB+深度+法线) 作为 4D 场景中间表示,由此建模 4D 场景,比纯 2D 视频更准确地建模 3D 几何结构。相比现有的 4D 视频生成,优化速度快,收敛好,且首次从当前帧和文本描述的具身智能体动作直接预测4D场景。 建模分布为 p ( v , d , n ∣ v 0 , d 0 , n 0 , T ) p(v,d,n|v^0,d^0,n^0,T) p(v,d,n∣v0,d0,n0,T) 其中 v, d, n 表示预测的未来 RGB、深度图和法线图的潜在序