【AI视野·今日Robot 机器人论文速览 第三十八期】Thu, 21 Sep 2023

AI视野·今日CS.Robotics 机器人学论文速览

Thu, 21 Sep 2023
Totally 39 papers
👉上期速览更多精彩请移步主页

Daily Robotics Papers

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Model-free tracking control of complex dynamical trajectories with machine learning Authors Zheng Meng Zhai, Mohammadamin Moradi, Ling Wei Kong, Bryan Glaz, Mulugeta Haile, Ying Cheng Lai 非线性跟踪控制使动态系统能够跟踪所需的轨迹,这是机器人技术的基础,服务于广泛的民用和国防应用。在控制工程中,设计跟踪控制需要完全了解系统模型和方程。我们开发了一个无模型的机器学习框架,仅使用部分观察到的状态来控制双臂机器人操纵器,其中控制器是通过储层计算实现的。利用随机输入进行训练,其中观察到的部分状态向量作为第一个组成部分,其近期状态向量作为第二个组成部分,以便神经机将后者视为前者的未来状态。在测试部署阶段,近期组件被参考轨迹中所需的观测向量取代。 |
| Multi-Step Model Predictive Safety Filters: Reducing Chattering by Increasing the Prediction Horizon Authors Federico Pizarro Bejarano, Lukas Brunke, Angela P. Schoellig 与传统控制器相比,基于学习的控制器在各种任务中都表现出了优越的性能。然而,提供安全保障并非易事。安全性,即状态和输入约束的满足,可以通过使用安全过滤器增强学习的控制策略来保证。模型预测安全过滤器MPSF是一种基于模型预测控制MPC的常见安全过滤方法。 MPSF 寻求保证安全,同时最大限度地减少下一个时间步骤中提议的输入和应用的输入之间的差异。这种有限的预见可能会导致靠近约束边界的不平稳运动和不期望的振荡,称为颤动。在本文中,我们通过考虑更长范围内的输入校正来减少抖动。在有界模型不确定性的假设下,我们使用稳健 MPC 技术证明了递归可行性。我们在广泛的模拟和四旋翼飞行器实验中验证了所提出的方法。 |
| EDMP: Ensemble-of-costs-guided Diffusion for Motion Planning Authors Kallol Saha, Vishal Mandadi, Jayaram Reddy, Ajit Srikanth, Aditya Agarwal, Bipasha Sen, Arun Singh, Madhava Krishna 用于机器人操纵的经典运动规划包括一组通用算法,旨在最小化执行给定计划的场景特定成本。这种方法提供了卓越的适应性,因为它们可以直接用于任何新场景,而不需要特定的训练数据集。然而,如果事先不了解不同的有效轨迹是什么,并且没有针对给定场景专门设计的成本函数,则整体解决方案的成功率往往较低。虽然基于深度学习的算法极大地提高了成功率,但如果没有专门的训练数据集,它们就很难采用。我们提出了 EDMP,一种用于运动规划的成本引导扩散的集合,旨在结合经典运动规划和基于深度学习的运动规划的优势。我们的基于扩散的网络是在一组不同的运动学有效轨迹上进行训练的。与经典规划一样,对于推理时的任何新场景,我们计算场景特定成本(例如碰撞成本)并引导扩散生成满足场景特定约束的有效轨迹。此外,我们使用一组成本来指导扩散过程,而不是使用可能不足以捕获跨场景多样性的单一成本函数,与经典规划器相比,显着提高了成功率。 |
| Enhancing motion trajectory segmentation of rigid bodies using a novel screw-based trajectory-shape representation Authors Arno Verduyn, Maxim Vochten, Joris De Schutter 轨迹分割是指将一条轨迹划分为有意义的连续子轨迹。本文重点关注 3D 刚体运动的轨迹分割。文献中的大多数分割方法将身体的轨迹表示为点轨迹,仅考虑其平移而忽略其旋转。我们提出了一种新颖的刚体运动轨迹表示,它结合了平移和旋转,并且还表现出一些不变的属性。该表示由几何进度率和三阶轨迹形状描述符组成。螺旋理论的概念被用来使这种表示不随时间变化,并且对于身体参考点的选择也保持不变。这种新的表示形式经过了自我监督分割方法的验证,无论是在模拟中还是使用人类演示的倾倒运动的真实记录。结果显示,与传统表示相比,对具有不同特征的连续子运动的检测更加鲁棒,并且分割更加一致。 |
| Swarm Mechanics and Swarm Chemistry: A Transdisciplinary Approach for Robot Swarms Authors Ricardo Vega, Kevin Zhu, Connor Mattson, Daniel S. Brown, Cameron Nowzari 本文首次尝试在化学、流体力学和机器人群之间架起知识桥梁。通过形成这些联系,我们尝试利用这些领域的既定方法和工具来揭示如何更好地理解群体。本文的重点是提出一个新的框架,并分享我们认为它充满希望和令人兴奋的原因。虽然确切的方法仍在开发中,但我们认为,使用新颖的方法简单地提出一条解决方案的潜在路径是值得考虑的,这些解决方案已经避开了我们的传统方法。 |
| Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions Authors Yuxing Long, Xiaoqi Li, Wenzhe Cai, Hao Dong 视觉语言导航 VLN 是一项具体任务,需要广泛的技能,包括理解、感知和规划。对于这样一个多方面的挑战,以前的VLN方法完全依靠一个模型自己的思维在一轮内做出预测。然而,现有的模型,即使是最先进的大语言模型 GPT4,仍然难以通过单轮自我思考来处理多个任务。在这项工作中,我们从专家咨询会议中汲取灵感,引入了一种新颖的零样本VLN框架。在这个框架内,具有独特能力的大型模型被充当领域专家。我们提出的导航代理,即 DiscussNav,可以在每一步行动之前与这些专家积极讨论以收集必要的信息。这些讨论涵盖了关键的导航子任务,例如指令理解、环境感知和完成度估计。通过全面的实验,我们证明与领域专家的讨论可以通过感知指令相关信息、纠正无意的错误以及筛选一致的运动决策来有效地促进导航。代表性 VLN 任务 R2R 的性能表明,我们的方法在所有指标上都大大超过了领先的零样本 VLN 模型。 |
| Dynamic Hand Gesture-Featured Human Motor Adaptation in Tool Delivery using Voice Recognition Authors Haolin Fei, Stefano Tedeschi, Yanpei Huang, Andrew Kennedy, Ziwei Wang 人机协作使用户能够更高效地完成交互任务。然而,大多数协作方案依赖于复杂的人机界面,与自然的肢体控制相比,这可能缺乏必要的直观性。我们还希望以较低的训练数据要求来理解人类意图。针对这些挑战,本文介绍了一种创新的人机协作框架,该框架无缝集成了手势和动态运动识别、语音识别以及可切换的控制适应策略。这些模块提供了一种用户友好的方法,使机器人能够根据用户需要提供工具,特别是当用户用双手工作时。因此,用户可以专注于任务执行,而无需接受人机界面使用方面的额外培训,而机器人则可以解释他们的直观手势。所提出的多模态交互框架在配备 RealSense D435i 摄像头的 UR5e 机器人平台上执行,并通过焊接电路板任务评估其有效性。实验结果表明手势识别性能优越,静态手势识别模块的准确率达到94.3,动态动作识别模块的准确率达到97.6。 |
| Prompt, Plan, Perform: LLM-based Humanoid Control via Quantized Imitation Learning Authors Jingkai Sun, Qiang Zhang, Yiqun Duan, Xiaoyang Jiang, Chong Cheng, Renjing Xu 近年来,强化学习和模仿学习在控制人形机器人运动方面表现出了巨大的潜力。然而,这些方法通常为特定任务创建模拟环境和奖励,导致需要多种策略和有限的能力来处理复杂和未知的任务。为了克服这些问题,我们提出了一种将对抗性模仿学习与大型语言模型法学硕士相结合的新颖方法。这种创新方法使代理能够通过单一策略学习可重用的技能,并在法学硕士的指导下解决零样本任务。特别是,我们利用法学硕士作为战略规划者,通过理解任务特定提示,将以前学到的技能应用到新任务中。这使得机器人能够按顺序执行指定的动作。为了改进我们的模型,我们结合了基于密码本的矢量量化,允许代理生成合适的动作来响应来自 LLM 的看不见的文本命令。此外,我们设计了考虑人形机器人独特运动特征的通用奖励函数,确保代理模仿运动数据,同时保持目标方向,而无需额外的指导方向方法或策略。据我们所知,这是第一个使用单一学习策略网络和 LLM 作为规划器来控制人形机器人的框架。 |
| 2D-3D Pose Tracking with Multi-View Constraints Authors Huai Yu, Kuangyi Chen, Wen Yang, Sebastian Scherer, Gui Song Xia 3D LiDAR 地图中的相机定位因其处理复杂场景的能力而受到越来越多的关注,超越了仅视觉定位方法的局限性。然而,现有方法大多侧重于解决跨模态间隙,逐帧估计相机姿态,而不考虑相邻帧之间的关系,这使得姿态跟踪不稳定。为了缓解这个问题,我们建议使用 2D 2D 特征匹配来耦合相邻帧之间的 2D 3D 对应关系,建立多视图几何约束以同时估计多个相机姿态。具体来说,我们提出了一种新的 2D 3D 姿态跟踪框架,该框架由用于连续帧的前端混合流估计网络和后端姿态优化模块组成。我们进一步设计了一种基于跨模式一致性的损失,以在训练和推理过程中纳入多视图约束。我们在 KITTI 和 Argoverse 数据集上评估了我们提出的框架。实验结果表明,与现有的逐帧 2D 3D 姿态跟踪方法和最先进的仅视觉姿态跟踪算法相比,其性能优越。 |
| Open-endedness induced through a predator-prey scenario using modular robots Authors Dimitri Kachler, Karine Miras 这项工作研究了捕食者被捕食场景如何引发开放式进化 OEE 的出现。我们利用具有固定形态的模块化机器人,其控制器会不断进化。在这两个物种中,机器人都可以发送和接收信号并感知环境中其他机器人的相对位置。具体来说,我们引入了一个称为标记系统的功能,它修改了个体相互感知的方式,并有望增加行为的复杂性。我们的结果表明自适应策略的出现,证明了使用模块化机器人通过捕食者猎物动力学诱导 OEE 的可行性。 |
| Integrating Visual Foundation Models for Enhanced Robot Manipulation and Motion Planning: A Layered Approach Authors Chen Yang, Peng Zhou, Jiaming Qi 本文提出了一种新颖的分层框架,该框架集成了视觉基础模型,以改进机器人操纵任务和运动规划。该框架由感知、认知、计划、执行和学习五层组成。使用视觉基础模型,我们增强了机器人对其环境的感知,从而实现更有效的任务理解和准确的运动规划。这种方法允许实时调整和持续学习,从而显着改进任务执行。 |
| Online Calibration of a Single-Track Ground Vehicle Dynamics Model by Tight Fusion with Visual-Inertial Odometry Authors Haolong Li, Joerg Stueckler 轮式移动机器人需要能够估计其运动及其控制动作的效果以进行导航规划。在本文中,我们提出了 ST VIO,这是一种将轮式地面车辆的单轨动力学模型与视觉惯性里程计紧密融合的新颖方法。我们的方法在线校准和调整动态模型,并促进根据未来控制输入进行准确的前向预测。单轨动力学模型使用常微分方程在平坦地面上的特定控制输入下近似轮式车辆运动。我们使用单轨模型的无奇点和可微分变体,以实现作为动态因子无缝集成到 VIO 中,并与 VIO 状态变量一起在线优化模型参数。我们使用不同地形类型和车轮的室内和室外环境中的真实世界数据验证了我们的方法。 |
| GNSS/Multi-Sensor Fusion Using Continuous-Time Factor Graph Optimization for Robust Localization Authors Haoming Zhang, Chih Chun Chen, Heike Vallery, Timothy D. Barfoot 在高度城市化的地区进行准确而稳健的车辆定位具有挑战性。在那些复杂和大规模的环境中,传感器经常被损坏。本文介绍了 GNSS FGO,这是一种在线全局轨迹估计器,它将 GNSS 观测数据与多个传感器测量数据相融合,以实现稳健的车辆定位。在 GNSS FGO 中,我们使用高斯过程回归将异步传感器测量结果融合到具有连续时间轨迹表示的图表中。这使得能够在任意时间戳查询状态,从而融合传感器观测结果,而不需要严格的状态和测量同步。因此,所提出的方法提出了多传感器融合的广义因子图。为了评估和研究不同的 GNSS 融合策略,我们将 GNSS 测量结果与速度传感器、IMU 和激光雷达里程计以松耦合和紧耦合的方式融合。我们在实验研究中使用了亚琛、杜塞尔多夫和科隆测量活动的数据集,并对传感器观测、平滑类型和超参数调整进行了全面讨论。我们的结果表明,所提出的方法可以在密集的城市地区实现稳健的轨迹估计,而经典的多传感器融合方法由于传感器退化而失败。 |
| Receding-Constraint Model Predictive Control using a Learned Approximate Control-Invariant Set Authors Gianni Lunardi, Asia La Rocca, Matteo Saveriano, Andrea Del Prete 近年来,基于先进模型和数据驱动的控制方法正在释放复杂机器人系统的潜力,我们可以预期这种趋势在不久的将来将以指数速度继续下去。然而,利用这些先进的控制方法确保安全仍然是一个挑战。使控制器模型预测控制器或强化学习策略安全的一个众所周知的工具是所谓的控制不变集,也称为安全集。不幸的是,对于非线性系统,通常无法精确计算这样的集合。存在用于计算近似控制不变集的数值算法,但如果该集不精确,经典的理论控制方法就会崩溃。本文介绍了我们最近为解决这一问题所做的努力。我们提出了一种新颖的模型预测控制方案,它可以在比经典方法更弱的假设下保证递归的可行性和/或安全性。特别是,通过使安全集约束向后移动到地平线上方,并假设该集满足弱于控制不变性的条件,来保证递归可行性。相反,安全性是在安全集的更弱假设下得到保证的,每当检测到违反约束的风险时就会触发安全任务中止策略。 |
| Vehicle-to-Grid and ancillary services:a profitability analysis under uncertainty Authors Federico Bianchi, Alessandro Falsone, Riccardo Vignali 电动汽车的快速大规模普及给电力系统带来了新的挑战,电力系统必须能够提供这些新的负载,但同时由于可能提供辅助服务,也带来了新的机遇。 |
| Indoor Exploration and Simultaneous Trolley Collection Through Task-Oriented Environment Partitioning Authors Junjie Gao, Peijia Xie, Xuheng Gao, Zhirui Sun, Jiankun Wang, Max Q. H. Meng 在本文中,我们提出了一个用于自动手推车收集应用的同步探索和对象搜索框架。对于环境表示,提出了一种面向任务的环境划分算法来为每个子任务提取不同的信息。首先,激光雷达数据在去除异常值后被分类为潜在物体、墙壁和障碍物。然后,将分段点云转换为具有以下功能组件对象建议的混合地图,以避免在语义空间分割的探索室布局期间丢失手推车,以及包含几何信息的多边形障碍物,以实现高效的运动规划。对于探索和同步手推车收集,我们提出了一种基于有效探索的对象搜索方法。首先,通过对边界和对象建议进行分组来制定具有优先约束 TSP PC 的旅行商问题。通过优先考虑对象搜索来选择下一个目标,同时避免机器人过度回溯。然后,通过拓扑图搜索生成具有足够障碍物间隙的可行轨迹。 |
| From Unstable Contacts to Stable Control: A Deep Learning Paradigm for HD-sEMG in Neurorobotics Authors Eion Tyacke, Kunal Gupta, Jay Patel, Raghav Katoch, S. Farokh Atashzar 在过去的十年中,用于控制神经机器人系统(特别是仿生肢体)的可穿戴神经接口的设计取得了重大进展。这些接口通过解码从皮肤表面非侵入性捕获的信号来发挥作用。便携式高密度表面肌电高清 sEMG 模块与深度学习解码相结合,通过实现假肢系统和神经机器人的出色手势预测和肌电控制而引起了人们的兴趣。然而,像素形状电极尺寸和不稳定的皮肤接触等因素使得高清表面肌电图容易受到像素电极掉落的影响。稀疏电极皮肤断开的根源在于低粘附力、出汗、毛发堵塞和皮肤拉伸等问题,这对这些模块作为神经机器人系统感知单元的可靠性和可扩展性提出了挑战。本文提出了一种新颖的深度学习模型,为 HD sEMG 模块提供弹性,可用于神经机器人的可穿戴接口。所提出的 3D Dilated Efficient CapsNet 模型在增强的输入空间上进行训练,以计算方式迫使网络学习通道丢失变化,从而学习通道丢失的鲁棒性。所提出的框架在进行的传感器丢失可靠性研究中保持了高性能。 |
| Safe and Robust Multi-Agent Reinforcement Learning for Connected Autonomous Vehicles under State Perturbations Authors Zhili Zhang, Yanchao Sun, Furong Huang, Fei Miao 传感和通信技术增强了多智能体系统(例如互联自动驾驶车辆 CAV)基于学习的决策方法。然而,大多数现有的基于安全强化学习的方法都假设准确的状态信息。考虑到传感器测量的噪声和通信通道的脆弱性,在状态不确定性下实现 CAV 的安全要求仍然具有挑战性。在这项工作中,我们提出了一种鲁棒多智能体近端策略优化,具有鲁棒安全盾 SR MAPPO,适用于各种驾驶场景下的 CAV。我们的方法中使用了鲁棒的 MARL 算法和基于控制屏障函数 CBF 的安全防护来应对扰动或不确定的状态输入。鲁棒策略是用最坏情况 Q 函数正则化模块进行训练的,该模块在前者中追求更高的下限奖励,而后者,即鲁棒的 CBF 安全防护罩,可以在复杂的驾驶场景中考虑 CAV 的无碰撞约束,甚至车辆状态信息受到扰动。 。我们验证了 SR MAPPO 在鲁棒性和安全性方面的优势,并将其与 CARLA 模拟器中不同驾驶和状态扰动场景下的基线进行比较。 |
| Stein Variational Guided Model Predictive Path Integral Control: Proposal and Experiments with Fast Maneuvering Vehicles Authors Kohei Honda, Naoki Akai, Kosuke Suzuki, Mizuho Aoki, Hirotaka Hosogaya, Hiroyuki Okuda, Tatsuya Suzuki 本文提出了一种基于模型预测路径积分控制 MPPI 的新型随机最优控制 SOC 方法,称为 Stein 变分引导 MPPI SVG MPPI ,旨在处理快速变化的多模态最优动作分布。虽然 MPPI 可以找到封闭形式的高斯近似最优动作分布,即无需迭代解更新,但它难以应对最优分布的多模态,例如涉及避障的非凸约束的分布。这是由于高斯分布的代表性较差。为了克服这个限制,我们的方法旨在识别最佳分布的目标模式并引导解决方案收敛以适应它。在该方法中,使用改进的 Stein 变分梯度下降 SVGD 方法粗略估计目标模式,并将其嵌入到 MPPI 算法中,以找到仅覆盖目标模式的封闭形式模式搜索解,从而保留 MPPI 的快速收敛特性。我们的模拟和现实世界实验结果表明,SVG MPPI 在路径跟踪和避障能力方面优于原始 MPPI 和其他基于采样的最先进 SOC 算法。 |
| CaveSeg: Deep Semantic Segmentation and Scene Parsing for Autonomous Underwater Cave Exploration Authors A. Abdullah, T. Barua, R. Tibbetts, Z. Chen, M. J. Islam, I. Rekleitis 在本文中,我们提出了 CaveSeg 第一个用于水下洞穴内 AUV 导航语义分割和场景解析的视觉学习管道。我们通过准备用于水下洞穴场景语义分割的综合数据集来解决带注释的训练数据稀缺的问题。它包含重要导航标记的像素注释,例如洞穴、箭头、障碍物,例如地面平原和架空层、水肺潜水员和用于伺服的开放区域。通过对美国、墨西哥和西班牙洞穴系统的全面基准分析,我们证明可以基于 CaveSeg 开发强大的深度视觉模型,用于水下洞穴环境的快速语义场景解析。特别是,我们制定了一种新颖的基于变压器的模型,该模型计算量小,除了实现最先进的性能之外,还提供近乎实时的执行。最后,我们探讨了水下洞穴内 AUV 视觉伺服语义分割的设计选择和含义。 |
| Multi-Risk-RRT: An Efficient Motion Planning Algorithm for Robotic Autonomous Luggage Trolley Collection at Airports Authors Zhirui Sun, Boshu Lei, Peijia Xie, Fugang Liu, Junjie Gao, Ying Zhang, Jiankun Wang 机器人在机场和购物中心等动态和拥挤的环境中变得越来越普遍。在这些场景中,机器人导航面临的关键挑战是可靠性和及时到达预定目的地。虽然现有的基于风险的运动规划算法有效地降低了与静态和动态障碍物的碰撞风险,但仍然需要显着的性能改进。具体来说,动态环境需要更快速的响应和稳健的规划。为了解决这一差距,我们引入了一种新颖的基于风险的多方向采样算法,即基于多方向风险的快速探索随机树多风险 RRT。与仅依赖有根树或双树进行状态空间探索的传统算法不同,我们的方法包含多个子树。每棵子树都独立地探索其周围的环境。同时,主根树从这些子树收集启发式信息,促进快速向目标状态前进。 |
| An Amphibious Fully-Soft Miniature Crawling Robot Powered by Electrohydraulic Fluid Kinetic Energy Authors Quan Xiong, Xuanyi Zhou, Jonathan William Ambrose, Raye Chen Hua Yeow 能够在有限环境中导航的微型运动机器人在包括搜索和救援行动在内的各种任务中显示出巨大的前景。软微型运动机器人作为一个新兴领域,由于其卓越的地形适应性和安全特性而引起了人们的广泛研究兴趣。在本文中,我们介绍了一种全软微型爬行机器人,直接由电液执行器产生的流体动能提供动力。通过工作电压和设计参数的优化,机器人的爬行速度大幅提升,达到16 mm s。优化后的机器人重6.3克,长5厘米,宽5厘米,高6毫米。通过并联组合两个机器人,机器人可以实现约 3 度·s 的转弯速率。此外,通过重新配置电液执行器中电极的分布,机器人可以实现2自由度平移运动,提高其在狭窄空间内的机动性。最后,我们演示了如何使用柔软的防水皮肤进行水下运动和驱动。 |
| OCC-VO: Dense Mapping via 3D Occupancy-Based Visual Odometry for Autonomous Driving Authors Heng Li, Yifan Duan, Xinran Zhang, Haiyi Liu, Jianmin Ji, Yanyong Zhang 视觉里程计 VO 在自主系统中发挥着关键作用,其主要挑战是相机图像中缺乏深度信息。本文介绍了 OCC VO,这是一种新颖的框架,它利用深度学习的最新进展将 2D 相机图像转换为 3D 语义占用,从而规避了同时估计自我姿势和地标位置的传统需求。在此框架内,我们利用 TPV Former 将环视摄像机图像转换为 3D 语义占用。为了解决这种转换带来的挑战,我们专门定制了一种姿态估计和映射算法,该算法结合了语义标签过滤器、动态对象过滤器,最后利用体素 PFilter 来维护一致的全局语义映射。对 Occ3D nuScenes 的评估不仅显示出相对于 ORB SLAM3 成功率提高了 20.6,轨迹精度提高了 29.6,而且还强调了我们构建综合地图的能力。 |
| Simulation-aided Learning from Demonstration for Robotic LEGO Construction Authors Ruixuan Liu, Alan Chen, Xusheng Luo, Changliu Liu 制造业的最新进步对快速、自动原型制作(即满足用户需求的组装和拆卸能力)的需求不断增长。本文研究自动快速乐高原型制作,致力于构建满足个性化定制需求并允许用户自由构建其新颖设计的目标乐高对象。为了自动构建用户指定的乐高设计,需要一个构建计划。然而,自由设计的乐高对象可能没有现有的构造计划,并且生成这样的乐高构造计划需要付出很大的努力,因为它需要考虑许多约束,例如物体的形状、颜色、稳定性等。此外,对机器人的原型技术进行编程需要用户具备专业的编程技能,这使得这项任务超出了普通大众的能力范围。为了应对这些挑战,本文提出了一种基于演示 SaLfD 框架的模拟辅助学习,可轻松将乐高原型制作功能部署到机器人上。特别是,用户演示了如何构建定制的新颖乐高对象。机器人通过观察人类操作提取任务信息并生成施工方案。开发模拟来验证所学习的施工计划和最终的乐高原型的正确性。所提出的系统部署到 FANUC LR mate 200id 7L 机器人上。实验表明,所提出的 SaLfD 框架可以有效地纠正和学习原型,即来自人类演示的组装和拆卸任务。 |
| STARNet: Sensor Trustworthiness and Anomaly Recognition via Approximated Likelihood Regret for Robust Edge Autonomy Authors Nastaran Darabi, Sina Tayebati, Sureshkumar S., Sathya Ravi, Theja Tulabandhula, Amit R. Trivedi 激光雷达、雷达和事件摄像机等复杂传感器在自主机器人中激增,以增强对环境的感知和理解。同时,这些传感器也容易受到各种故障机制的影响,这些故障机制可能与其运行环境错综复杂地相互作用。与此同时,复杂传感器上训练数据的有限可用性也影响了基于深度学习的预测流程的可靠性,其中它们的预测模型可能无法推广到训练集中未充分捕获的环境。为了解决这些可靠性问题,本文介绍了 STARNet,这是一种传感器可信度和异常识别网络,旨在检测可能因传感器故障和/或挑战性环境而产生的不可信传感器流。我们专门针对 LiDAR 和相机数据对 STARNet 进行了基准测试。 STARNet 采用近似似然后悔的概念,这是一种专为低复杂度硬件(尤其是那些仅具有定点精度功能的硬件)量身定制的无梯度框架。通过广泛的模拟,我们展示了 STARNet 在单模态和多模态设置中检测不可信传感器流的功效。特别是,该网络在解决内部传感器故障(例如传感器交叉干扰和串扰)方面表现出卓越的性能。在涉及恶劣天气和传感器故障的各种测试场景中,我们表明 STARNet 通过过滤掉不可信的传感器流,将预测精度提高了大约 10。 |
| Open-Vocabulary Affordance Detection using Knowledge Distillation and Text-Point Correlation Authors Tuan Van Vo, Minh Nhat Vu, Baoru Huang, Toan Nguyen, Ngan Le, Thieu Vo, Anh Nguyen 可供性检测提出了复杂的挑战,并且具有广泛的机器人应用。以前的工作面临着一些限制,例如 3D 对象形状的复杂性、现实世界对象的潜在可供性的广泛性以及缺乏对可供性理解的开放词汇支持。在本文中,我们引入了一种新的 3D 点云开放词汇可供性检测方法,利用知识蒸馏和文本点相关性。我们的方法通过知识蒸馏采用预先训练的 3D 模型来增强 3D 点云中的特征提取和语义理解。我们进一步引入了一种新的文本点相关方法来学习点云特征和开放词汇标签之间的语义链接。密集的实验表明,我们的方法优于以前的作品,并适应新的可供性标签和看不见的物体。值得注意的是,与基线相比,我们的方法实现了 7.96 mIOU 分数的提高。 |
| Change of Scenery: Unsupervised LiDAR Change Detection for Mobile Robots Authors Alexander Krawciw, Jordy Sehn, Timothy D. Barfoot 本文提出了一种利用 3D LiDAR 的移动机器人的完全无监督深度变化检测方法。在非结构化环境中,定义一组封闭的语义类是不可行的。相反,语义分割被重新表述为二进制变化检测。我们开发了一个神经网络 RangeNetCD,它使用现有的点云地图和实时 LiDAR 扫描来检测相对于地图的场景变化。使用新颖的损失函数,可以训练现有的点云语义分割网络来执行变化检测,而无需任何关于局部语义的标签或假设。我们在来自具有挑战性的地形的数据上展示了这种方法的性能,平均交集与联合 MIoU 分数范围在 67.4 到 82.2 之间,具体取决于环境结构的数量。这优于所有实验中使用的几何基线。神经网络的运行速度超过 10Hz,并集成到机器人的自主堆栈中,以便能够安全地绕过与计划路径相交的障碍物。此外,还描述了一种快速自动获取每点地面真实标签的新方法。 |
| Empirical Study of Ground Proximity Effects for Small-scale Electroaerodynamic Thrusters Authors Grant Nations, C. Luke Nelson, Daniel S. Drew 电空气动力 EAD 推进通过静电加速离子与中性空气之间的碰撞产生推力,由于其静音和固态性质,是室内飞行的一种潜在变革方法。与转子一样,EAD 推进器的性能会根据与表面的接近程度而变化。与转子不同,它们没有易碎且快速旋转的部件,这些部件必须避开这些表面,利用邻近效应的效率优势可能是离子推进飞行器实现更长时间室内操作的一条途径。这项工作首次对 EAD 推进器的近地效应进行了实证研究,无论是单独的还是作为四推进器阵列。它专注于多级管道厘米级执行器,适用于设想部署在人类近端和室内环境中的小型机器人。对地面、吸力和喷泉升力的三种特定影响进行了研究,每种影响在距地平面不同的间距处以不同的幅度发生,并表明它们对几何参数有很强的依赖性,包括推进器到推进器的间距、推进器从机身的突出量和包括法兰或板条。 |
| Language-Conditioned Affordance-Pose Detection in 3D Point Clouds Authors Toan Nguyen, Minh Nhat Vu, Baoru Huang, Tuan Van Vo, Vy Truong, Ngan Le, Thieu Vo, Bac Le, Anh Nguyen 可供性检测和姿势估计在许多机器人应用中非常重要。它们的组合有助于机器人获得增强的操纵能力,其中生成的姿势可以促进相应的可供性任务。以前的可供性姿势联合学习方法仅限于一组预定义的可供性,从而限制了机器人在现实世界环境中的适应性。在本文中,我们提出了一种在 3D 点云中进行语言条件可供性姿势联合学习的新方法。给定 3D 点云对象,我们的方法会检测可供性区域并为任何不受约束的可供性标签生成适当的 6 DoF 姿势。我们的方法由开放词汇可供性检测分支和语言引导扩散模型组成,该模型根据可供性文本生成 6 个自由度姿势。我们还引入了一个新的高质量数据集,用于语言驱动的可供性姿势联合学习任务。大量的实验结果表明,我们提出的方法在广泛的开放词汇可供性上有效地发挥作用,并且大大优于其他基线。此外,我们还说明了我们的方法在现实世界机器人应用中的有用性。 |
| Incremental Multimodal Surface Mapping via Self-Organizing Gaussian Mixture Models Authors Kshitij Goel, Wennie Tabib 这封信描述了一种增量多模态表面测绘方法,该方法将环境表示为连续概率模型。该模型能够实现高分辨率重建,同时压缩空间和强度点云数据。这项工作中采用的策略利用高斯混合模型 GMM 来表示环境。虽然之前基于 GMM 的测绘工作已经开发出使用信息论技术来确定混合物成分数量的方法,但这些方法要么对单个传感器观测进行操作,使其不适合增量测绘,要么不是实时可行的,特别是对于高保真度的应用需要建模。为了弥补这一差距,这封信介绍了一种用于快速 GMM 子图提取的空间哈希图,并结合了一种确定点云中相关和冗余数据的方法。与最先进的基于增量 GMM 的映射相比,这些贡献将计算速度提高了一个数量级。此外,与基于 GMM 和非 GMM 的最先进的映射方法相比,所提出的方法在地图精度和大小方面产生了优越的权衡。使用模拟和现实世界数据进行评估。 |
| Hamilton-Jacobi Reachability Analysis for Hybrid Systems with Controlled and Forced Transitions Authors Javier Borquez, Shuang Peng, Yiyu Chen, Quan Nguyen, Somil Bansal 具有非线性动力学的混合动力系统是表示机器人系统(尤其是接触丰富的系统)的最通用的建模工具之一。然而,为此类混合系统的安全性或性能提供保证仍然是一个具有挑战性的问题,因为它需要同时对连续状态演化和离散模式切换进行推理。在这项工作中,我们通过将经典的 Hamilton Jacobi HJ 可达性分析(一种存在有界输入和扰动的情况下连续非线性动力学的形式验证方法)扩展到混合动力系统来解决这个问题。我们的框架可以计算由多个离散模式组成的混合系统的可达集,每个模式都有自己的一组非线性连续动态、离散转换,可以由离散控制输入直接命令或强制,同时仍然考虑控制界限和对抗性干扰在状态演化中。除了可达集之外,所提出的框架还提供了最佳的连续和离散控制器以确保系统安全。 |
| GelSight Svelte Hand: A Three-finger, Two-DoF, Tactile-rich, Low-cost Robot Hand for Dexterous Manipulation Authors Jialiang Zhao, Edward H. Adelson 本文介绍了 GelSight Svelte Hand,这是一种新型 3 手指 2 DoF 触觉机器人手,能够执行精确抓取、强力抓取和中间抓取。每个手指上的一个摄像头可以获得丰富的触觉信号,其感应区域类似于人类手指的全长。 GelSight Svelte Hand 的每个手指均由半刚性内骨骼支撑,并覆盖柔软的硅胶材料,提供刚性和顺应性。我们在本文中描述了 GelSight Svelte Hand 的设计、制造、功能和触觉传感能力。 |
| GelSight Svelte: A Human Finger-shaped Single-camera Tactile Robot Finger with Large Sensing Coverage and Proprioceptive Sensing Authors Jialiang Zhao, Edward H. Adelson 基于摄像头的触觉传感是一种低成本、流行的方法,用于获取高度详细的接触几何信息。然而,大多数现有的基于摄像头的触觉传感器都是指尖传感器,较长的手指通常需要额外的元件来获得类似于人类手指全长的扩展传感区域。此外,当接触几何形状复杂时,估计本体感觉信息(例如从基于相机的触觉传感器施加在手指上的总力和扭矩)的现有方法并不有效。我们推出了 GelSight Svelte,这是一种弯曲的、人手指大小的单摄像头触觉传感器,能够在大面积上进行触觉和本体感觉传感。 GelSight Svelte 使用曲面镜来实现所需的形状和传感覆盖范围。本体感受信息,例如施加在手指上的总弯曲和扭转扭矩,反映为 GelSight Svelte 柔性骨干上的变形,这些变形也由相机捕获。我们训练卷积神经网络来估计捕获图像的弯曲和扭转扭矩。我们在手指的不同位置进行凝胶变形实验,以评估触觉传感能力和本体感觉传感精度。为了展示 GelSight Svelte 的功能和潜在用途,我们使用三种不同的抓取模式(利用手指的不同区域)执行物体抓取任务。 |
| Nanorobotics in Medicine: A Systematic Review of Advances, Challenges, and Future Prospects Authors Shishir Rajendran, Prathic Sundararajan, Ashi Awasthi, Suraj Rajendran 纳米机器人技术提供了生物医学的新兴前沿,通过其在纳米尺度上操纵生物系统的独特能力,具有彻底改变诊断和治疗应用的潜力。根据 PRISMA 指南,使用 IEEE Xplore 和 PubMed 数据库进行了全面的文献检索,共识别和分析了 414 篇论文。这些研究经过筛选,仅包括那些涉及纳米机器人和直接医疗应用的研究。我们的分析追踪了该技术的演变,突显了其在医学领域日益突出的地位,随着时间的推移,出版物数量的不断增加就证明了这一点。应用范围从靶向药物输送和单细胞操作到微创手术和生物传感。尽管有这样的承诺,但也发现了生物相容性、精确控制和伦理问题等局限性。 |
| Guarantees on Robot System Performance Using Stochastic Simulation Rollouts Authors Joseph A. Vincent, Aaron O. Feldman, Mac Schwager 我们为随机机器人系统上执行的控制策略提供有限样本性能保证。给定开环或闭环策略以及该策略下的一组有限轨迹推出,我们限制了轨迹成本的期望值、风险价值和条件风险价值,以及稀疏奖励设置中的失败概率。对于任何策略综合技术,以用户指定的概率,界限都成立,并且可以被视为设计后安全认证。生成边界仅需要采样模拟转出,无需假设底层随机系统的分布或复杂性。我们调整这些边界来进行约束满足测试,以验证机器人系统的安全性。此外,我们扩展了我们的方法,以应用于从一组候选者中选择最佳策略时,需要进行多假设校正。我们展示了 Ant、Half cheetah 和 Swimmer MuJoCo 环境中边界的统计有效性,并演示了我们使用 Ant 进行的约束满足测试。 |
| Text2Reward: Automated Dense Reward Function Generation for Reinforcement Learning Authors Tianbao Xie, Siheng Zhao, Chen Henry Wu, Yitao Liu, Qian Luo, Victor Zhong, Yanchao Yang, Tao Yu 设计奖励函数是强化学习 RL 中长期存在的挑战,它需要专业知识或领域数据,导致开发成本高昂。为了解决这个问题,我们引入了 Text2Reward,这是一个无数据框架,可以根据大型语言模型 LLM 自动生成密集奖励函数。给定一个用自然语言描述的目标,Text2Reward 会生成密集的奖励函数,作为基于环境的紧凑表示的可执行程序。与逆向 RL 和最近使用 LLM 编写稀疏奖励代码的工作不同,Text2Reward 生成可解释的、自由形式的密集奖励代码,涵盖广泛的任务,利用现有的包,并允许根据人类反馈进行迭代细化。我们在两个机器人操作基准 ManiSkill2、MetaWorld 和 MuJoCo 的两个运动环境上评估 Text2Reward。在 17 个操作任务中的 13 个中,使用生成的奖励代码训练的策略与专家编写的奖励代码相比,实现了相似或更好的任务成功率和收敛速度。对于运动任务,我们的方法学习了六种新颖的运动行为,成功率超过 94 。此外,我们还表明,用我们的方法在模拟器中训练的策略可以部署在现实世界中。最后,Text2Reward 通过人类反馈完善奖励函数,进一步改进了策略。 |
| CNN-based local features for navigation near an asteroid Authors Olli Knuuttila, Antti Kestil , Esa Kallio 本文解决了小行星探索任务和轨道服务中基于视觉的邻近导航的挑战。由于散射光有限,传统的特征提取方法难以应对小行星的显着外观变化。为了克服这个问题,我们提出了一种专门为小行星邻近导航量身定制的轻量级特征提取器,旨在对照明变化和仿射变换具有鲁棒性。我们比较和评估小行星背景下最先进的特征提取网络和三种轻量级网络架构。我们提出的特征提取器及其评估利用了来自 NEAR Shoemaker、Hayabusa、Rosetta 和 OSIRIS REx 等任务的合成图像和真实世界数据。我们的贡献包括训练有素的特征提取器、对现有方法的增量改进以及用于训练特定领域特征提取器的管道。实验结果证明了我们的方法在实现精确导航和定位方面的有效性。 |
| Conformalized Multimodal Uncertainty Regression and Reasoning Authors Domenico Parente, Nastaran Darabi, Alex C. Stutts, Theja Tulabandhula, Amit Ranjan Trivedi 本文介绍了一种轻量级不确定性估计器,能够通过将共形预测与深度学习回归器相结合来预测多模态不相交不确定性界限。我们特别讨论了它在视觉里程计 VO 中的应用,其中飞行域对称性和模糊和遮挡下的传感器测量等环境特征可能会导致多模态不确定性。我们的模拟结果表明,我们框架中的不确定性估计以样本方式适应具有挑战性的操作条件,例如明显的噪声、有限的训练数据和有限的预测模型参数大小。我们还开发了一个推理框架,利用这些强大的不确定性估计并结合基于光流的推理来提高预测准确性。因此,通过适当考虑数据驱动学习的预测不确定性,并通过基于规则的推理闭合其估计循环,我们的方法在所有这些具有挑战性的场景(明显的噪声、有限的训练数据和有限的模型大小)上始终优于传统的深度学习方法,从而减少了预测误差 |
| PLVS: A SLAM System with Points, Lines, Volumetric Mapping, and 3D Incremental Segmentation Authors Luigi Freda 本文档介绍了 PLVS 一个利用稀疏 SLAM、体积映射和 3D 无监督增量分割的实时系统。 PLVS 代表点、线、体积映射和分割。它支持 RGB D 和立体相机,可以选择配备 IMU。 SLAM模块基于关键帧,提取并跟踪稀疏点和线段作为特征。体积映射与 SLAM 前端并行运行,并通过融合从关键帧反投影的点云来生成探索环境的 3D 重建。 PLVS 支持并集成不同的体积映射方法。我们使用一种新颖的重投影误差来捆绑调整线段。该错误利用可用的深度信息来稳定线段端点的位置估计。在 PLVS 框架中为 RGB D 相机实现并集成了增量和基于几何的分割方法。我们在一些公开数据集上对 PLVS 框架进行了定性和定量评估。附录详细介绍了所采用的立体线三角测量方法,并提供了我们用于线误差项的雅可比行列式的推导。 |
| Chinese Abs From Machine Translation |

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

相关推荐
迅易科技4 分钟前
借助腾讯云质检平台的新范式,做工业制造企业质检的“AI慧眼”
人工智能·视觉检测·制造
古希腊掌管学习的神1 小时前
[机器学习]XGBoost(3)——确定树的结构
人工智能·机器学习
ZHOU_WUYI2 小时前
4.metagpt中的软件公司智能体 (ProjectManager 角色)
人工智能·metagpt
靴子学长2 小时前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
AI_NEW_COME3 小时前
知识库管理系统可扩展性深度测评
人工智能
海棠AI实验室3 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself3 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
IT古董4 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
centurysee4 小时前
【最佳实践】Anthropic:Agentic系统实践案例
人工智能
mahuifa4 小时前
混合开发环境---使用编程AI辅助开发Qt
人工智能·vscode·qt·qtcreator·编程ai