AI视野·今日CS.Robotics 机器人学论文速览
Daily Robotics Papers
|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Safe Mission-Level Path Planning for Exploration of Lunar Shadowed Regions by a Solar-Powered Rover Authors Olivier Lamarre, Shantanu Malhotra, Jonathan Kelly 由于高度动态的太阳照明条件和永久阴影区域 PSR 的存在,使用太阳能漫游车探索月球南极具有挑战性。反过来,仔细规划空间和时间也至关重要。任务级路径规划是一种全球时空范式,可以解决这一挑战,同时考虑到流动站资源和任务要求。然而,现有的方法并没有主动考虑随机干扰,例如重复出现的故障,这可能会暂时延迟流动站的遍历进度。在本文中,我们提出了一个机会约束的任务级规划问题,用于受随机故障影响的太阳能流动站探索 PSR。 |
| FMB: a Functional Manipulation Benchmark for Generalizable Robotic Learning Authors Jianlan Luo, Charles Xu, Fangchen Liu, Liam Tan, Zipeng Lin, Jeffrey Wu, Pieter Abbeel, Sergey Levine 在本文中,我们提出了一个现实世界的基准,用于在功能操作的背景下研究机器人学习,机器人需要通过以功能相关的方式组合个人操作技能来完成复杂的长期行为。我们的功能操作基准 FMB 的核心设计原则强调复杂性和可访问性之间的和谐平衡。任务的范围被故意缩小,确保可以有效地利用可管理规模的模型和数据集来跟踪进度。同时,它们的多样性足以构成重大的泛化挑战。此外,该基准测试的设计易于复制,涵盖所有必要的硬件和软件组件。为了实现这一目标,FMB 由各种 3D 打印对象组成,旨在供其他研究人员轻松准确地复制。这些对象是按程序生成的,提供了以受控方式研究泛化的原则框架。我们专注于基本的操作技能,包括抓取、重新定位和一系列装配行为。 FMB 可用于评估获取个人技能的方法,以及组合和排序这些技能以解决复杂的多阶段操作任务的方法。我们还提供了一个模仿学习框架,其中包括一套经过训练来解决建议任务的策略。这使得研究人员能够利用我们的任务作为一个多功能工具包来检查管道的各个部分。例如,研究人员可以为抓取控制器提出更好的设计,并结合我们的基线重新定向和组装策略对其进行评估,作为解决多阶段任务的管道的一部分。 |
| Battery-Swapping Multi-Agent System for Sustained Operation of Large Planetary Fleets Authors Ethan Holand, Jarrod Homer, Alex Storrer, Musheeera Khandeker, Ethan F. Muhlon, Maulik Patel, Ben oni Vainqueur, David Antaki, Naomi Cooke, Chloe Wilson, Bahram Shafai, Nathaniel Hanson, Ta k n Pad r 我们提出了一种新颖的异构多代理架构,通过将发电外包给中央枢纽来小型化漫游车。通过将发电和配电功能委托给该中心,每个流动站的尺寸、重量、功率和成本 SWAP C 都会减少,从而实现高效的车队扩展。当这些漫游车在地形周围执行任务时,该中心为一系列备用电池模块充电。当流动站需要充电时,它会返回集线器以启动自主对接序列,并带着充满电的电池退出。 |
| Centralized vs. Decoupled Dual-Arm Planning Taking into Account Path Quality Authors Jonas Wittmann, Franziska Ochsenfarth, Valentin Sonneville, Daniel Rixen 协调规划的目的是避免多机器人系统中机器人与机器人的碰撞,有两种标准的解决方案方法:集中规划和解耦规划。我们的第一个贡献是一种解耦规划方法,确保 C2 连续控制命令在开始和目标时速度为零。我们用集中式方法对解耦方法进行基准测试。与文献相反,我们表明,对于标准运动规划管道(例如 MoveIt 使用的管道),集中式规划优于双臂操作中的解耦规划,它具有更短的计算时间和更高的鲁棒性。我们的第二个贡献是在考虑避障的同时最小化末端执行器的旋转运动的优化。我们推导了该优化问题的解析梯度,使该算法适用于在线运动规划。我们的优化扩展了现有的路径质量改进方法。 |
| Autonomous Multiple-Trolley Collection System with Nonholonomic Robots: Design, Control, and Implementation Authors Peijia Xie, Bingyi Xia, Anjun Hu, Ziqi Zhao, Lingxiao Meng, Zhirui Sun, Xuheng Gao, Jiankun Wang, Max Q. H. Meng 动态公共空间中复杂的多阶段任务(例如机场行李手推车收集)对于自动化服务机器人来说既是一个充满希望的机遇,也是一个持续的挑战。先前的研究主要集中于处理单个手推车或单个功能组件,在为实际场景提供具有成本效益和高效的解决方案方面存在差距。在本文中,我们提出了一种结合自主框架的移动操纵机器人,用于收集和运输多辆手推车,可以显着提高运营效率。我们通过新颖的机械系统设计和基于视觉的控制策略解决了手推车收集问题的关键挑战。我们设计了一种轻型机械手和对接机构,针对多台手推车的顺序堆垛和运输进行了优化。此外,基于控制李雅普诺夫函数和控制屏障函数,我们提出了一种新颖的基于视觉的在线二次规划控制,显着提高了收集过程的准确性和效率。 |
| Robotic Imitation of Human Actions Authors Josua Spisak, Matthias Kerzel, Stefan Wermter 模仿可以让我们快速理解新任务。通过演示,我们可以直接了解需要执行哪些操作以及它们有哪些目标。在本文中,我们介绍了一种新的模仿学习方法,该方法可以解决机器人模仿人类的挑战,例如视角和身体模式的变化。我们的方法可以使用单个人类演示来抽象有关演示任务的信息,并使用该信息来概括和复制它。我们通过两种最先进方法的新集成来促进这种能力:扩散动作分割模型,用于从演示中提取时间信息;以及用于空间信息的开放词汇对象检测器。 |
| Evaluating online elasticity estimation of soft objects using standard robot grippers Authors Shubhan P. Patni, Pavel Stoudek, Hynek Chlup, Matej Hoffmann 标准机器人夹具不是为弹性估计而设计的。在这项工作中,使用专业的双轴压缩装置作为控制装置,以研究通过两个标准平行夹爪和安装在机器人手腕上的力扭矩传感器来估计材料特性的准确性。使用三组可变形物体,改变不同的参数来观察它们对测量材料特性的影响:1重复压缩循环,2压缩速度,3夹爪表面积。获得夹具作用力与位置的关系曲线并将其转化为应力应变曲线。估计不同应变点的弹性模量。使用压缩减压循环中吸收的能量、Kelvin Voigt 和 Hunt Crossley 模型来评估粘弹性。我们的结果可概括如下 1 使用较慢的压缩速度获得更好的结果,而额外的压缩周期或表面积并没有改善估计 2 即使在校准之后,机器人夹具也被发现提供准确估计绝对值的能力有限尽管可变形物体具有非线性特性,但不同夹具 4 的杨氏模量和粘弹性 3 材料特性的相对顺序在很大程度上是一致的,拟合线性应力应变近似值比评估粘弹性的杨氏模量 5 的局部估计结果更稳定,亨特·克罗斯利模型效果最好。最后,我们表明表示弹性和粘弹性估计的二维空间有利于区分可变形物体。因此,对此类对象的在线单一掌握、分类和排序是可能的。 |
| ULT-model: Towards a one-legged unified locomotion template model for forward hopping with an upright trunk Authors Dennis Ossadnik, Elisabeth Jensen, Sami Haddadin 虽然在描述直立躯干运动的模板模型的开发方面取得了许多进展,但大部分工作都集中在站立阶段。在本文中,我们开发了一种新的紧凑动态模型,作为直立躯干前向跳跃系统完全统一的运动模板模型 ULT 模型的第一步,这也需要下一步的统一控制律。我们证明,通过在众所周知的躯干 SLIP 模型中添加点足质量和平行腿执行器即可实现所有运动子功能,并且可以实现稳定的极限循环。 |
| Nonlinear stiffness allows passive dynamic hopping for one-legged robots with an upright trunk Authors Dennis Ossadnik, Elisabeth Jensen, Sami Haddadin 模板模型经常用于简化机器人跳跃或运行的控制动态。此类系统可能会出现被动极限环,并可用于节能控制。运动中的一个巨大挑战是当髋部偏离质心 CoM 时躯干的稳定性。由于腿部的惯性矩,摆动阶段在此过程中起着重要作用,但是,许多模板模型忽略了腿部质量。在这项工作中,作者考虑了一个机器人料斗模型 RHM,其具有刚性的躯干和腿部以及从 CoM 移位的臀部。先前已经表明,在给定线性髋部弹簧的情况下,此类模型不存在被动极限环。在这项工作中,我们证明了当使用非线性髋部弹簧时可以找到被动极限环。 |
| Experimental Analysis of Type II Singularities and Assembly Change Points in a 3UPS+RPU Parallel Robot Authors Jose L. Pulloquinga, Vicente Mata, Angel Valera, Pau Zamora Ortiz, Miguel Diaz Rodriguez, Ivan Zambrano 并联机器人 PR 具有奇异的配置,其中机器人获得至少一个自由度并失去控制。理论上,当正向雅可比矩阵行列式变为零时,就会出现这种奇异性。 |
| Mechatronic Design, Experimental Setup and Control Architecture Design of a Novel 4 DoF Parallel Manipulator Authors Marina Valles, Pedro Araujo Gomez, Vicente Mata, Angel Valera, Miguel Diaz Rodriguez, Alvaro Page, Nidal M. Farhat 尽管并联机械臂 PM 最初引入了 6 个自由度 DoF 的架构,但大量应用需要少于 6 个自由度。因此,学者们提出了 3 DoF 和 4 DoF 的架构,但相对较少的 4 DoF PM 已成为原型,特别是两个旋转 2R 和两个平移 2T 运动类型。在本文中,我们解释了具有 2R2T 运动的 4 DoF PM 的机电一体化设计、原型和控制架构设计。 |
| Reconfiguration of a parallel kinematic manipulator with 2T2R motions for avoiding singularities through minimizing actuator forces Authors Francisco Valero, Miguel Diaz Rodriguez, Marina Valles, Antonio Besa, Enrique Bernabeu, Angel Valera 本文旨在开发一种重新配置具有四个自由度 DoF 的并联运动机械手 PKM 的方法,旨在解决受伤膝盖的诊断和康复任务。 4 DoF 机械臂的原始布局在其工作空间内呈现 II 型奇异配置。因此,我们建议重新配置机械手,以避免在典型康复轨迹期间由于 PKM 的前向雅可比行列式而导致的奇点。我们通过最小化问题实现了 PKM 的重新配置,其中设计变量对应于固定和移动平台上机器人肢体的锚定点。目标函数依赖于执行器对特定轨迹施加的力的最小化。最小化问题考虑约束方程以避免II类奇点,这保证了特定路径的活动广义坐标的可行性。为了评估所提出的概念策略,我们构建了一个原型,通过将锚定点的位置移动到固定和移动平台上钻孔来进行重新配置。多个研究案例的模拟和实验可以测试策略的性能。 |
| S3M: Semantic Segmentation Sparse Mapping for UAVs with RGB-D Camera Authors Thanh Nguyen Canh, Van Truong Nguyen, Xiem HoangVan, Armagan Elibol, Nak Young Chong 无人机在搜索和救援行动等关键应用中具有巨大的潜力,在这些应用中,对室内环境的准确感知至关重要。然而,定位、3D 重建和语义分割的并发融合提出了一个显着的障碍,特别是在无人机配备有限的功率和计算资源的情况下。本文提出了一种新方法来解决无人机操作中语义信息提取和利用的挑战。我们的系统集成了最先进的视觉 SLAM 来估计全面的 6 DoF 姿势和后端的高级对象分割方法。为了提高框架的计算和存储效率,我们采用基于流线型体素的3D地图表示OctoMap来构建工作系统。此外,还结合融合算法从前端SLAM任务中获取每一帧的语义信息以及对应点。通过利用语义信息,我们的框架增强了无人机感知和在室内空间导航的能力,解决了姿态估计准确性和减少不确定性方面的挑战。 |
| Object-Oriented Semantic Mapping for Reliable UAVs Navigation Authors Thanh Nguyen Canh, Armagan Elibol, Nak Young Chong, Xiem HoangVan 为了在现实世界环境中自主导航,特别是在搜索和救援行动中,无人机需要全面的地图来确保安全。然而,流行的度量地图通常缺乏对于整体场景理解至关重要的语义信息。在本文中,我们提出了一个系统来构建一个概率度量图,该图丰富了从 RGB D 图像的环境中提取的对象信息。我们的方法结合了前端最先进的基于 YOLOv8 的对象检测框架和后端的 2D SLAM 方法 CartoGrapher。为了有效地跟踪和定位从前端界面提取的语义对象类,我们采用了创新的 BoT SORT 方法。引入了一种新颖的关联方法来提取对象的位置,然后将其投影到度量地图上。与之前的研究不同,我们的方法考虑了在具有各种空心底部物体的环境中进行可靠导航。我们系统的输出是概率地图,它通过合并对象特定属性、包括类区别、准确定位和对象高度,显着增强了地图的表示。已经进行了许多实验来评估我们提出的方法。结果表明,机器人可以有效地生成包含多个对象(尤其是椅子和桌子)的增强语义地图。 |
| Mobile robot localization with GNSS multipath detection using pseudorange residuals Authors Taro Suzuki 本文提出了一种新型定位技术,适用于城市环境中的移动机器人,在城市环境中,由于多径信号而导致大型全球导航卫星系统 GNSS 定位误差。在GNSS定位过程中,被建筑物遮挡的GNSS卫星会发出反射和衍射信号,这些信号称为非视距NLOS多径信号。这些多径信号会导致严重的定位误差。本文考虑的关键概念是使用根据 GNSS 伪距计算出的位置假设的可能性来估计用户的位置,该伪距仅包含基于伪距残差分析的 LOS 信号。为了从用户位置处的伪距残差确定NLOS GNSS信号,需要在计算伪距残差之前准确确定位置。使用粒子过滤器可以解决这个问题。我们提出了一种似然估计方法,使用仅根据 LOS 伪距和粒子计算出的用户位置假设之间的马哈拉诺比斯距离。为了确认所提出技术的有效性,在现实城市环境中进行了定位测试。 |
| Cross-Modal Semi-Dense 6-DoF Tracking of an Event Camera in Challenging Conditions Authors Yi Fan Zuo, Wanting Xu, Xia Wang, Yifu Wang, Laurent Kneip 基于视觉的定位对于许多智能移动平台来说是一种具有成本效益且有吸引力的解决方案。然而,其准确性,尤其是鲁棒性仍然受到低光照条件、光照变化和剧烈运动的影响。基于事件的相机是受生物启发的视觉传感器,在 HDR 条件下表现良好并具有高时间分辨率,因此在这种具有挑战性的场景中提供了一个有趣的替代方案。虽然纯粹基于事件的解决方案目前尚未产生令人满意的映射结果,但目前的工作证明了如果允许使用替代传感器进行映射,则纯粹基于事件的跟踪的可行性。该方法依赖于半密集地图和事件的几何3D 2D配准,并获得高度可靠和准确的跨模态跟踪结果。实际相关场景由深度相机支持的跟踪或基于地图的定位给出,其中半密集地图是由基于常规图像的视觉 SLAM 或运动系统的结构预先创建的。传统的基于边缘的 3D 2D 对齐通过新颖的极性感知注册进行了扩展,该注册利用从事件流获得的带符号的时间表面图 STSM。我们还引入了一种新颖的遮挡点剔除策略。这两种修改都提高了跟踪器的速度及其针对遮挡或大视点变化的鲁棒性。 |
| Preprocessing-based Kinodynamic Motion Planning Framework for Intercepting Projectiles using a Robot Manipulator Authors Ramkumar Natarajan, Hanlan Yang, Qintong Xie, Yash Oza, Manash Pratim Das, Fahad Islam, Muhammad Suhail Saleem, Howie Choset, Maxim Likhachev 我们有兴趣研究机器人运动,并从拦截朝配备防护罩的机器人操纵器移动的射弹的问题开始。为了成功执行此任务,机器人需要:i 检测传入的弹丸;ii 预测弹丸的未来运动;iii 规划一条可以躲避障碍物并拦截弹丸的最短时间快速轨迹;iv 执行规划的轨迹。在我们的设置中,这四个步骤必须在机械臂的动态限制和极端时间限制 350ms 下执行,才能成功拦截弹丸。此外,我们希望这些轨迹平滑,以减少机器人的关节扭矩和安装平台上的冲量。为此,我们提出了一种运动动力学运动规划框架,可以离线预处理平滑轨迹,以允许在线实时无碰撞执行。我们提供了一个端到端的管道以及我们的规划框架,包括感知、预测和执行模块。我们在模拟中通过实验评估我们的框架,并表明它比基线具有更高的阻止成功率。 |
| Cesium Tiles for High-realism Simulation and Comparing SLAM Results in Corresponding Virtual and Real-world Environments Authors Chris Beam, Jincheng Zhang, Nicholas Kakavitsas, Collin Hague, Artur Wolek, Andrew Willis 本文讨论使用模拟环境来预测现实世界中的算法结果。模拟器对于研究人员无需部署昂贵的硬件即可测试算法、传感器集成和导航系统至关重要。本文探讨了如何使用 AirSim 模拟器、Unreal Engine 和 Cesium 插件生成现实世界位置的模拟数字孪生模型。本文讨论了完成分析时遇到的几个技术挑战,并详细介绍了技术解决方案。这项工作研究了如何使用实验位置的数字孪生提供的铯块来评估现实生活实验的测绘结果。伴随着在模拟中复制现实世界航班的过程的描述。这些方法的性能是通过使用直接稀疏里程计 DSO 映射算法分析现实生活和实验图像遥测来评估的。结果表明,在仔细对齐后,Cesium Tiles 环境可以提供高精度的地面实况几何模型。此外,现实生活和模拟遥测分析的结果表明,虚拟模拟结果准确地预测了现实生活结果。研究结果表明,现实生活中的算法结果和模拟副本中的算法结果表现出高度的相似性。这表明使用 Cesium Tiles 环境作为现实生活实验的虚拟数字孪生将为此类算法提供代表性结果。 |
| Delivery Line Tracking Robot Authors Md Rakibul Karim Akanda, Jason Lazo, Quintwon Carter, Haineef Roberts 我们着手的项目是制造一个电子机器人,它可以通过红外传感器沿着设定的路线运送包裹。它使用红外传感器来确定其所遵循的路径是否正确或是否偏离路线。这是通过发送光子以反射路径来确定的,并通过发射回的光量确定它是否在亮表面上,或者通过不存在的光量确定它是否是暗表面。除了沿着路线行走外,用户还可以通过红外遥控器以任意时间间隔停止和启动机器人。该项目是机械的实际部分与Arduino编码的软件部分的结合,Arduino是C语言的编码子部分。 |
| 6-DoF Grasp Pose Evaluation and Optimization via Transfer Learning from NeRFs Authors Gergely S ti, Xi Huang, Christian Wurll, Bj rn Hein 我们使用隐式行为克隆解决机器人抓取已知和未知物体的问题。我们从少量的演示中训练了一个抓取评估模型,该模型为更有可能成功抓取的抓取候选者输出更高的值。这个评估模型作为一个目标函数,我们最大化它来识别成功的把握。我们方法的关键是利用从预先训练的 NeRF 导出的视觉和几何特征的学习隐式表示。虽然专门在具有简化对象和 4 DoF 自上而下抓取的模拟环境中进行训练,但我们的评估模型和优化程序证明了在模拟和现实世界设置中对 6 DoF 抓取和新对象的泛化,而无需额外数据。 |
| Survey of Learning Approaches for Robotic In-Hand Manipulation Authors Abraham Itzhak Weinberg, Alon Shirizly, Osher Azulay, Avishai Sintov 人类的灵活性是在复杂任务中精确操纵物体的宝贵能力。机器人类似地抓取和手动操作物体的能力对于它们在不断变化的人类环境中的使用以及替代人力的能力至关重要。近几十年来,为了实现机器人系统的手动操作能力,人们付出了巨大的努力。最初的机器人操纵器遵循精心编程的路径,而后来的尝试提供了基于运动和接触分析模型的解决方案。但由于无法应对复杂的环境和不确定性,这些都未能提供切实可行的解决方案。因此,工作已经转向基于学习的方法,在重复尝试完成各种任务的过程中,从现实世界或通过模拟收集数据。绝大多数学习方法侧重于学习基于数据的模型,这些模型在一定程度上描述了系统或强化学习 RL。尤其是强化学习,由于它具有在最少的人类指导下生成问题解决方案的卓越能力,因此引起了越来越多的兴趣。在这份调查论文中,我们跟踪了手动操作学习方法的发展,并探讨了挑战和机遇。 |
| Safely and Autonomously Cutting Meat with a Collaborative Robot Arm Authors Ryan Wright, Sagar Parekh, Robin White, Dylan P. Losey 美国的劳动力短缺正在影响包括肉类加工业在内的许多行业。与人类一起工作同时提高生产能力的协作技术可以通过增强自动化和提高工作质量来支持该行业。然而,肉类行业现有的自动化技术协作潜力有限、灵活性低、成本高。这项工作的目的是探索使用机器人手臂与人类协作并完成在肉类加工设施中执行的任务。为了实现这一目标,我们展示了确保人类安全的概念验证方法,同时探索机器人手臂执行示例肉类加工任务的能力。为了支持人类安全,我们开发了一种刀具仪器系统来检测切割工具何时与协作空间内的肉类接触。为了展示系统灵活执行各种基本肉类加工任务的能力,我们开发了视觉和控制协议来执行猪腰肉的切片、修剪和切块。我们还收集了美国肉类加工行业专家对这些行动的主观评价。平均而言,专家们认为机器人的性能足够。此外,专家们普遍更喜欢与人类工人合作进行的切割,而不是自主完成的切割,强调了机器人技术帮助人类工人而不是取代他们的好处。 |
| Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability Authors Md Sadman Sakib, Yu Sun 大型语言模型法学硕士固有的概率性质引入了不可预测性的因素,引发了对其输出中潜在差异的担忧。本文介绍了一种创新方法,旨在针对不同的现实世界需求和场景生成正确且最佳的机器人任务计划。 LLM 已被用来生成任务计划,但它们不可靠,并且可能包含错误的、有问题的或高成本的步骤。所提出的方法使用 LLM 生成许多任务计划作为树,并通过删除有问题的路径将它们合并到图中。然后可以检索最优的任务树来规避有问题和高成本的节点,从而提高计划的准确性和执行效率。通过纳入大型知识网络,该方法得到进一步改进。进一步利用 GPT 4,将高级任务计划转换为机器人可执行的低级规划域定义语言 PDDL 计划。 |
| Deformable Tip Mount for Soft Growing Eversion Robots Authors Cem Suulker, Sophie Skach, Danyaal Kaleel, Taqi Abrar, Zain Murtaza, Dilara Suulker, Kaspar Althoefer 在这里,我们展示了一种用于外翻藤蔓机器人的灵活尖端安装座。 |
| Certifiable Mutual Localization and Trajectory Planning for Bearing-Based Robot Swarm Authors Yingjian Wang, Xiangyong Wen, Fei Gao 轴承测量作为自然界最常见的方式,最近在多机器人系统中受到关注,以增强相互定位和群体协作。 |
| Online Learning of Piecewise Polynomial Signed Distance Fields for Manipulation Tasks Authors Ante Mari , Yiming Li, Sylvain Calinon 关于距离的推理对于在操作任务中建立或避免接触是必不可少的。为此,我们提出了一种使用分段多项式基函数学习符号距离隐式表示的在线方法。从任意的先验形状开始,我们的方法从传入的点云数据增量地构建连续表示。它可以快速访问距离和分析梯度,而无需存储训练数据。我们评估了我们的模型在不同的家庭物品上的准确性,并将其与神经网络和高斯过程的对应物进行比较。 |
| Robustness Evaluation of Localization Techniques for Autonomous Racing Authors Tian Yi Lim, Edoardo Ghignone, Nicolas Baumann, Michele Magno 这项工作介绍了 SynPF,这是一种专为高速赛车环境量身定制的基于 MCL 的算法。 SynPF 以最先进的姿态图 SLAM 算法 Cartographer 为基准,利用以前的粒子过滤方法的协同作用,并将其综合用于高性能赛车领域。我们广泛的现场评估表明,虽然 Cartographer 在标称条件下表现出色,但在车轮打滑时却表现不佳,这是赛车场景中由于不同的抓地力水平和激进的驾驶行为而出现的常见现象。相反,SynPF 在这些具有挑战性的条件下表现出鲁棒性,并且在没有 GPU 的车载计算机上具有 1.25 毫秒的低延迟计算时间。这项工作使用 F1TENTH 平台(一款 1 10 比例的自动赛车),不仅突出了现有算法在高速场景中的漏洞(测试时间长达 7.6 m s),而且还强调了 SynPF 作为可行替代方案的潜力,特别是在里程计恶化的情况下 |
| Multi-task robot data for dual-arm fine manipulation Authors Heecheol Kim, Yoshiyuki Ohmura, Yasuo Kuniyoshi 在机器人操纵领域,深度模仿学习被认为是获取操纵技能的一种有前途的方法。此外,从不同的机器人数据集中学习被认为是实现多功能性和适应性的可行方法。在此类研究中,通过学习各种任务,机器人实现了跨多个对象的通用性。然而,此类多任务机器人数据集主要集中于相对不精确的单臂任务,没有解决机器人在现实世界中预期执行的细粒度对象操作。本文介绍了不同对象操作的数据集,其中包括双臂任务和/或需要精细操作的任务。为此,我们生成了包含 224k 集、150 小时、1,104 种语言指令的数据集,其中包括双臂精细任务,例如移动碗、打开铅笔盒或剥香蕉皮,并且该数据是公开的。此外,该数据集还包括视觉注意信号以及双重动作标签,该信号将动作分成稳健的到达轨迹和与对象的精确交互,以及实现稳健和精确的对象操作的语言指令。我们将数据集应用到了 Dual Action and Attention DAA 中,这是一个专为细粒度双臂操作任务而设计的模型,并且对协变量变化具有鲁棒性。 |
| Semantic Scene Segmentation for Robotics Authors Juana Valeria Hurtado, Abhinav Valada 全面的场景理解是机器人自主的关键推动因素。语义分割是关键的场景理解任务之一,对于自动驾驶、家政服务机器人、最后一英里交付等多种机器人应用至关重要。语义分割是一项密集预测任务,旨在提供场景表示,其中图像的每个像素都分配有语义类标签。因此,语义分割考虑了完整的场景上下文,结合了所有场景元素(包括背景)的对象类别、位置和形状。多年来,人们提出了许多用于语义分割的算法。然而,深度学习的最新进展,加上计算能力的提高和大规模标记数据集的可用性,导致语义分割取得了重大进展。在本章中,我们介绍了语义分割的任务,并介绍了多年来为解决此任务而提出的深度学习技术。我们首先定义语义分割的任务,并将其与其他密切相关的场景理解问题进行对比。我们详细介绍了语义分割的不同算法和架构以及常用的损失函数。此外,我们还概述了语义分割中使用的数据集、基准和指标。 |
| Geo-locating Road Objects using Inverse Haversine Formula with NVIDIA Driveworks Authors Mamoona Birkhez Shami, Gabriel Kiss, Trond Arve Haakonsen, Frank Lindseth 地理定位是自动驾驶车辆和先进交通监控基础设施无缝运行不可或缺的一部分。本文介绍了一种利用 NVIDIA DriveWorks 平台,使用单目摄像头对道路物体进行地理定位的方法。我们使用厘米定位服务 CPOS 和反半正弦公式对道路物体进行精确地理定位。 NVIDIA DriveWorks 平台的实时算法处理能力可实现高级驾驶辅助系统 ADAS 和自动驾驶平台的即时物体识别和空间定位。我们提出了适合自动驾驶 AD 平台的测量管道,并提供了使用 NVIDIA DriveWorks 校准摄像头的详细指南。进行了实验以验证所提出的在受控和动态设置中对目标进行地理定位的方法的准确性。 |
| DynaHull: Density-centric Dynamic Point Filtering in Point Clouds Authors Pejman Habibiroudkenar, Risto Ojala, Kari Tammi 在室内机器人领域,由于动态点的存在,使用点云在动态环境中精确导航和绘图可能是一项具有挑战性的任务。这些动态点通常由室内环境中的人来表示,但在具有移动机械的工业环境中,可以存在各种类型的动态点。本研究介绍了 DynaHull,这是一种新技术,旨在通过有效去除点云中的动态点来提高室内测绘精度。 DynaHull 的工作原理是利用观察结果,即在多次扫描中,静止点比动态点具有更高的密度。此外,DynaHull 通过将地图聚类成更小的部分来解决与不均匀分布点相关的绘图挑战。在每个部分中,每个点的密度因子是通过使用凸包方法将相邻点的数量除以这些相邻点所占据的体积来确定的。该算法根据每个簇的点计数使用自适应阈值去除动态点,从而减少误报。通过将每种方法与低活动期间创建的地面实况图进行比较,将 DynaHull 的性能与最先进的技术(例如 ERASOR、Removet、OctoMap 和 Open3D 的基线统计异常值去除)进行比较。存在动态点。结果表明,DynaHull 在各种指标上都优于这些技术,特别是在推土机距离方面。 |
| Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation Authors Yuanchen Ju, Kaizhe Hu, Guowei Zhang, Gu Zhang, Mingrun Jiang, Huazhe Xu 使机器人操作能够推广到分发场景之外是迈向开放世界体现智能的关键一步。对于人类来说,这种能力植根于对物体间语义对应关系的理解,从而自然地将熟悉物体的交互体验转移到新物体上。尽管机器人缺乏如此丰富的交互经验,但互联网上大量的人类视频可能是一种宝贵的资源,我们可以从中提取包括接触点在内的可供性记忆。受人类自然思维方式的启发,我们提出了 Robo ABC,当面对需要泛化的不熟悉的物体时,机器人可以通过从可供性记忆中检索具有视觉或语义相似性的物体来获得可供性。下一步是将检索到的对象的接触点映射到新对象。虽然乍一看建立这种对应关系可能会带来巨大的挑战,但最近的研究发现它自然地产生于预先训练的扩散模型,甚至可以跨不同的对象类别进行可供性映射。通过 Robo ABC 框架,机器人可以泛化以零射击方式操纵类别外的对象,而无需任何手动注释、额外训练、零件分割、预编码知识或视点限制。从数量上来说,与最先进的 SOTA 端到端可供性模型相比,Robo ABC 显着提高了视觉可供性检索的准确性,大幅提高了 31.6。我们还进行了跨类别物体抓取任务的现实世界实验。 |
| AMC'24 "A Novel Stiffness Modulation Mechanism for Energy Efficient Variable Stiffness Actuators" Authors Sariyildiz Emre 本文提出了一种新的刚度调制机制,可以快速实现无限范围的刚度调制。 |
| The Multi-fingered Kinematic Model for Dual-arm Manipulation Authors Jingyi Li 双手操纵需要机器人对抓取力敏感,而抓取力难以准确检测。本文提出了强化双手操作过程中的抓握质量的强化学习框架。该框架基于手指配置及其反馈。之后,通过奖励机制评估抓握质量,以决定策略。在此框架中将确定两种策略来操纵对象,即同时策略和交错策略。在本文中,机器人的物体轮廓和质心是未知的。通过强化学习框架,机器人可以感知手部物体关系,然后优化手指配置。 |
| 3QFP: Efficient neural implicit surface reconstruction using Tri-Quadtrees and Fourier feature Positional encoding Authors Shuo Sun, Malcolm Mielle, Achim J. Lilienthal, Martin Magnusson 与传统的显式表示相比,神经隐式表面表示作为一种以低内存成本实现高保真度表面重建的方法目前受到了广泛的关注。然而,最先进的方法仍然面临内存使用过多和表面不光滑的问题。这在输入稀疏的大规模应用中尤其成问题,这在机器人用例中很常见。为了解决这些问题,我们首先引入一种稀疏结构 emph tri 四叉树,它使用存储在三个平面四叉树投影中的可学习特征来表示环境。其次,我们将可学习的特征与傅里叶特征位置编码连接起来。然后通过小型多层感知器将组合特征解码为有符号距离值。我们证明,这种方法有助于更平滑的重建,具有更高的完成率和更少的孔。 |
| Singing the Body Electric: The Impact of Robot Embodiment on User Expectations Authors Nathaniel Dennler, Stefanos Nikolaidis, Maja Matari 用户开发机器人的心理模型来概念化他们可以与这些机器人进行什么样的交互。概念化通常是在与机器人交互之前形成的,并且仅基于观察机器人的物理设计。因此,了解物理设计形成的概念对于了解用户打算如何与机器人交互是必要的。我们建议使用机器人实施例的多模态特征来预测用户对给定机器人的社交和身体能力的期望。我们表明,使用这些功能可以提供有关机器人一般心理模型的信息,这些模型可以推广到社交互动机器人。 |
| A metric for characterizing the arm nonuse workspace in poststroke individuals using a robot arm Authors Nathaniel Dennler, Amelia Cain, Erica De Guzman, Claudia Chiu, Carolee J. Winstein, Stefanos Nikolaidis, Maja J. Matari 半球中风幸存者中经常观察到的现象是,尽管功能已恢复,但过度依赖受影响较小的肢体来完成功能任务,从而牺牲了瘫痪肢体。使用能力与实际自发使用之间的差异称为手臂不使用。对手臂不使用进行生态有效的评估是具有挑战性的,因为它需要观察不同任务的自发手臂选择,而这很容易受到指示、假定期望和对正在接受测试的意识的影响。为了更好地量化手臂不使用情况,我们开发了使用机器人 BARTR 的双手手臂伸展测试,用于定量评估慢性中风幸存者的手臂不使用情况。 BARTR 是一种利用机器人手臂作为远程、公正地收集细致空间数据的手段的仪器,用于对手臂不使用情况进行临床评估。这种方法有望确定旨在减少瘫痪手臂不使用并增强中风后功能恢复的干预措施的有效性。 |
| ORGANA: A Robotic Assistant for Automated Chemistry Experimentation and Characterization Authors Kourosh Darvish, Marta Skreta, Yuchi Zhao, Naruki Yoshikawa, Sagnik Som, Miroslav Bogdanovic, Yang Cao, Han Hao, Haoping Xu, Al n Aspuru Guzik, Animesh Garg, Florian Shkurti 化学实验通常是资源和劳动力密集型的。尽管先进和专用实验室设备的集成带来了许多好处,但实验的许多方面仍然由化学家手动进行,例如电化学实验中的电极抛光。传统的实验室自动化基础设施在灵活适应新的化学实验方面面临挑战。为了解决这个问题,我们提出了一种人类友好且灵活的机器人系统 ORGANA,它可以自动执行一系列不同的化学实验。它能够使用大型语言模型法学硕士通过自然语言与实验室中的化学家进行交互。 ORGANA 通过提供包含统计分析的及时报告来让科学家了解情况。此外,在必要时,它会积极与用户互动以消除歧义或排除故障。 ORGANA 可以根据用户输入进行推理来得出实验目标,并利用环境视觉感知的反馈来规划高级任务和低级机器人动作的长序列。它还支持需要多个机器人和实验站之间的资源分配和协调的实验的调度和并行执行。我们证明 ORGANA 成功地进行了一系列不同的化学实验,包括溶解度评估、pH 测量、重结晶和电化学实验。对于后者,我们表明 ORGANA 稳健地执行了一项长期计划,包括并行执行的 19 个步骤,以表征醌衍生物(用于可充电液流电池的一类分子)的电化学特性。我们的用户研究表明,ORGANA 显着改善了用户体验的许多方面,同时减少了他们的体力工作量。 |
| MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World Authors Yining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, Chuang Gan 人类拥有在积极探索 3D 世界并与之互动的同时增加多种多感官线索的能力。然而,当前的多模态大语言模型被动地吸收感官数据作为输入,缺乏与3D环境中的对象主动交互并动态收集其多感官信息的能力。为了引领这一领域的研究,我们提出了MultiPLY,一种多感官体现的大语言模型,可以将包括视觉、音频、触觉和热信息在内的多感官交互数据纳入大语言模型中,从而建立单词、动作、语言之间的相关性。和感知。为此,我们首先通过部署 LLM 支持的实体代理来与 3D 环境进行交互来收集 Multisensory Universe,这是一个包含 50 万数据的大规模多感官交互数据集。为了使用预先训练的 LLM 对此类生成的数据执行指令调整,我们首先将 3D 场景编码为以对象为中心的抽象表示,然后引入表示具体代理在环境中采取某些操作的动作标记,以及表示多感官的状态标记状态代理在每个时间步的观察结果。在推理时间内,MultiPLY 可以生成动作令牌,指示智能体在环境中采取动作并获得下一个多感官状态观察。然后,观察结果通过状态标记附加回 LLM,以生成后续文本或操作标记。 |
| GATS: Gather-Attend-Scatter Authors Konrad Zolna, Serkan Cabi, Yutian Chen, Eric Lau, Claudio Fantacci, Jurgis Pasukonis, Jost Tobias Springenberg, Sergio Gomez Colmenarejo 随着人工智能社区越来越多地采用大规模模型,开发通用且灵活的工具来集成它们至关重要。我们引入了 Gather attend Scatter GATS,这是一个新颖的模块,可以将预训练的基础模型(可训练的和冻结的)无缝组合到更大的多模态网络中。 GATS 使人工智能系统能够以不同的速率跨多种模式处理和生成信息。与传统的微调相比,GATS 允许原始组件模型保持冻结状态,避免它们丢失在预训练阶段获得的重要知识的风险。 |
| A Study on Training and Developing Large Language Models for Behavior Tree Generation Authors Fu Li, Xueying Wang, Bin Li, Yunlong Wu, Yanzhen Wang, Xiaodong Yi 本文对大型语言模型 LLM 的应用潜力进行了创新探索,以解决为复杂任务自动生成行为树 BT 的挑战性任务。传统的手动 BT 生成方法效率低下,并且严重依赖领域专业知识。另一方面,现有的BT自动生成技术遇到了任务复杂性、模型适应性和可靠性等瓶颈。为了克服这些挑战,我们提出了一种利用法学硕士强大的表征和推理能力的新颖方法。本文的核心贡献在于设计了一个基于LLM的BT生成框架,涵盖了从数据合成、模型训练到应用开发和数据验证的整个过程。引入合成数据来训练BT生成模型BTGen模型,增强其对各种复杂任务的理解和适应能力,从而显着提高其整体性能。为了保证生成的BT的有效性和可执行性,我们强调数据验证的重要性,并引入多级验证策略。此外,我们还探索了一系列以法学硕士为核心要素的代理设计和开发方案。 |
| Cybersecurity and Embodiment Integrity for Modern Robots: A Conceptual Framework Authors Alberto Giaretta, Amy Loutfi 由于物联网和机器人操作系统 ROS 等新技术和通信范例的出现,现代机器人正在逐渐摆脱使用特设传感器和执行器构建的整体实体。使用这样的范例,可以通过获取异构标准设备并使它们相互通信来构建机器人。这种方法带来了高度的模块化,但它也产生了提供网络安全保证和实施例完整性的不确定性。在本文中,我们首先说明对不同设备的网络攻击如何对机器人完成任务和保留其体现的能力产生截然不同的后果。我们还主张现代机器人应该对它所涉及的这些方面有自我意识,并制定机器人应该为此整合的不同特征。然后,我们表明,实现这些命题需要机器人至少拥有三个在概念上连接设备和任务的属性。 |
| SSL-Interactions: Pretext Tasks for Interactive Trajectory Prediction Authors Prarthana Bhattacharyya, Chengjie Huang, Krzysztof Czarnecki 本文讨论了多智能体环境中的运动预测,这对于确保自动驾驶车辆的安全至关重要。传统的以及最近的数据驱动的边缘轨迹预测方法都很难正确学习非线性智能体与智能体之间的交互。我们提出了 SSL Interactions,它提出了借口任务来增强轨迹预测的交互建模。我们引入了四个交互感知借口任务来封装代理交互范围间隙预测、最近距离预测、运动方向预测和交互类型预测的各个方面。我们进一步提出了一种从数据集中管理交互密集场景的方法。这些精选数据有两个优点:它为交互模型提供了更强的学习信号,并有助于为以交互为中心的借口任务生成伪标签。我们还提出了三个专门用于评估交互式场景中的预测的新指标。 |
| Preserving Power Optimizations Across the High Level Synthesis of Distinct Application-Specific Circuits Authors Paulo Garcia 我们评估软件解释的使用,以将应用程序特定加速器的高级综合推向更高的抽象级别。我们的方法由正式的功耗模型支持,该模型计算加速器组件的功耗,根据先前的优化估计准确预测新设计的功耗。我们展示了我们的方法如何通过利用更高级别的设计抽象、使用代表机器人领域的两个加速器(通过 Bambu 高级综合工具实现)来简化不同设计中功率优化的重用。 |
| CoVO-MPC: Theoretical Analysis of Sampling-based MPC and Optimal Covariance Design Authors Zeji Yi, Chaoyi Pan, Guanqi He, Guannan Qu, Guanya Shi 基于采样的模型预测控制 MPC 凭借其灵活性和并行性,在许多领域(尤其是基于模型的强化学习)成为一种实用且有效的方法。尽管其实证表现很吸引人,但理论理解,特别是在收敛分析和超参数调整方面,仍然缺乏。在本文中,我们描述了广泛使用的基于采样的 MPC 方法(模型预测路径积分控制 MPPI)的收敛特性。我们表明,当优化为二次时,MPPI 至少具有线性收敛率,这涵盖了时变 LQR 系统。然后我们扩展到更一般的非线性系统。我们的理论分析直接引出了一种基于采样的新型 MPC 算法,即 CoVariance Optimal MPC CoVo MPC,它可以优化调度采样协方差以优化收敛速度。根据经验,在模拟和现实世界的四旋翼敏捷控制任务中,CoVo MPC 的性能显着优于标准 MPPI 43 54。 |
| MapGPT: Map-Guided Prompting for Unified Vision-and-Language Navigation Authors Jiaqi Chen, Bingqian Lin, Ran Xu, Zhenhua Chai, Xiaodan Liang, Kwan Yee K. Wong 以 GPT 作为大脑的实体智能体在各种任务中表现出了非凡的思维和决策能力。然而,现有的用于视觉和语言导航 VLN 的零镜头智能体仅提示 GPT 处理过多的环境信息并在局部环境中选择潜在位置,而没有构建有效的全局视图,例如智能体了解整体环境的常用地图。在这项工作中,我们提出了一种新颖的基于地图引导 GPT 的路径规划代理,称为 MapGPT,用于零样本 VLN 任务。具体来说,我们将在线构建的拓扑图转换为提示,以鼓励地图引导的全局探索,并要求代理显式输出和更新多步路径规划,以避免陷入局部探索。大量实验证明我们的 MapGPT 是有效的,在 R2R 和 REVERIE 数据集上取得了令人印象深刻的性能,成功率分别为 38.8 和 28.4,并展示了 GPT 模型新出现的全局思维和路径规划能力。 |
| Exploring of Discrete and Continuous Input Control for AI-enhanced Assistive Robotic Arms Authors Max Pascher, Kevin Zinta, Jens Gerken 机械臂是运动障碍患者家庭护理中不可或缺的一部分,使他们能够独立执行日常生活活动,减少对人类护理人员的依赖。这些协作机器人要求用户管理多个自由度来执行抓取和操纵物体等任务。传统的输入设备通常仅限于两个自由度,需要频繁且复杂的模式切换来控制各个自由度。具有前馈多模态反馈的现代自适应控制减少了总体任务完成时间、模式切换次数和认知负荷。尽管可用的输入设备多种多样,但它们在辅助机器人自适应设置中的有效性尚未得到彻底评估。 |
| A hierarchical control framework for autonomous decision-making systems: Integrating HMDP and MPC Authors Xue Fang Wang, Jingjing Jiang, Wen Hua Chen 本文提出了一种用于机器人和自主系统中自主决策的综合分层控制框架。在典型的分层控制架构中,高层决策通常以离散状态和决策控制集为特征。然而,理性决策通常不仅受到自治系统离散状态的影响,而且还受到潜在的连续动态甚至其运行环境的演变的影响。本文针对此类具有挑战性的问题提出了一个全面且全面的设计流程和框架,从新的建模和设计问题表述到控制设计和稳定性分析。它解决了用于低层控制设计的传统连续系统动力学与用于促进高层决策的离散马尔可夫决策过程 MDP 之间复杂的相互作用。我们将复杂环境中的决策系统建模为由受控 MDP 和自主(即不受控连续动态)组成的混合系统。因此,新的公式被称为混合马尔可夫决策过程 HMDP 。设计问题的制定重点是确保安全性和最优性,同时考虑不同级别的离散和连续状态变量的影响。借助模型预测控制MPC概念,为所提出的混合决策模型提出了决策者设计方案。通过仔细设计该方案中涉及的关键要素,证明了所提出的自主决策方案的递归可行性和稳定性得到了保证。 |
| Chinese Abs From Machine Translation |