【AI视野·今日Robot 机器人论文速览第五十二期】Wed, 11 Oct 2023

AI视野·今日CS.Robotics 机器人学论文速览

Wed, 11 Oct 2023
Totally 31 papers
👉上期速览✈更多精彩请移步主页

Daily Robotics Papers

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| RoboHive: A Unified Framework for Robot Learning Authors Vikash Kumar, Rutav Shah, Gaoyue Zhou, Vincent Moens, Vittorio Caggiano, Jay Vakil, Abhishek Gupta, Aravind Rajeswaran 我们推出 RoboHive，这是一个用于机器人学习和嵌入式人工智能领域研究的综合软件平台和生态系统。我们的平台涵盖了各种预先存在的和新颖的环境，包括使用 Shadow Hand 进行灵巧操作、使用 Franka 和 Fetch 机器人进行全臂操作任务、四足运动等。所包含的环境在多个领域进行组织和覆盖，例如手动操作、运动、多任务、多代理、肌肉等。与之前的作品相比，RoboHive 提供了一个简化且统一的任务界面，仅依赖于维护良好的最小集合。包，具有高物理保真度和丰富的视觉多样性的任务，并支持现实世界部署的通用硬件驱动程序。 RoboHive 的统一界面为模仿、强化、多任务和分层学习等算法研究提供了方便且易于访问的抽象。此外，RoboHive 还包括大多数环境的专家演示和基线结果，为基准测试和比较提供了标准。 |
| Efficient Graduated Non-Convexity for Pose Graph Optimization Authors Wonseok Kang, Jaehyun Kim, Jiseong Chung, Seungwon Choi, Tae wan Kim 我们提出了一种新的分级非凸 GNC 方法，并通过其在鲁棒位姿图优化（SLAM 后端的关键组件）中的应用来证明其功效。传统的 GNC 方法通常依赖于 GNC 调度的启发式方法，更新控制参数 mu 以提高非凸性。相比之下，我们的方法利用凸函数和凸优化的属性来识别不再保证凸性的边界点，从而消除现有方法中的冗余优化步骤，并提高速度和鲁棒性。我们表明，当通过 GNC 用于稳健的后端位姿图优化时，我们的方法在速度和准确性方面优于最先进的方法。我们的工作建立在开源 riSAM 框架的基础上并对其进行了增强。 |
| EARL: Eye-on-Hand Reinforcement Learner for Dynamic Grasping with Active Pose Estimation Authors Baichuan Huang, Jingjin Yu, Siddarth Jain 在本文中，我们通过手眼协调系统的主动姿势跟踪和强化学习来探索运动物体的动态抓取。大多数现有的基于视觉的机器人抓取方法隐含地假设目标物体是静止的或可预测地移动。对不可预测的移动物体进行抓取提出了一系列独特的挑战。例如，当目标物体移动时，预先计算的鲁棒抓取可能会变得无法达到或不稳定，并且运动规划也必须是自适应的。在这项工作中，我们提出了一种新方法，Eye on hAnd Reinforcement Learner EARL，使耦合的 Eye on Hand EoH 机器人操纵系统能够执行实时主动姿势跟踪和动态抓取新物体，而无需明确的运动预测。 EARL 轻松解决了自动手眼协调中的许多棘手问题，包括从视觉快速跟踪 6D 物体姿势、学习机械臂跟踪移动物体的控制策略，同时将物体保持在相机的视野内，以及执行动态抓取。 |
| Evaluating Explanation Methods for Vision-and-Language Navigation Authors Guanqi Chen, Lei Yang, Guanhua Chen, Jia Pan 在未知环境中使用自然语言指令导航机器人的能力是实现具体人工智能AI的关键一步。随着视觉和语言导航 VLN 领域提出的深度神经模型性能的提高，了解模型在导航任务中利用哪些信息进行决策同样有趣。为了理解深度神经模型的内部工作原理，人们开发了各种解释方法来促进可解释的 AI XAI。但它们主要应用于图像或文本分类任务的深度神经模型，并且在解释 VLN 任务的深度神经模型方面所做的工作很少。在本文中，我们通过建立定量基准来评估 VLN 模型解释方法的可信度来解决这些问题。我们提出了一种新的基于擦除的评估管道来衡量顺序决策设置中的逐步文本解释。 |
| Forgetful Large Language Models: Lessons Learned from Using LLMs in Robot Programming Authors Juo Tung Chen, Chien Ming Huang 大型语言模型提供了使人们能够对机器人应用程序进行编程的新方法，即通过提示生成代码。然而，法学硕士生成的代码很容易出错。这项工作报告了一项初步探索，根据经验描述了法学硕士在机器人编程中产生的常见错误。我们将这些错误分为解释和执行两个阶段。在这项工作中，我们重点关注执行中的错误，并观察到这些错误是由于法学硕士忘记用户提示中提供的关键信息而引起的。基于这一观察，我们提出了旨在减少执行错误的快速工程策略。 |
| SYNLOCO: Synthesizing Central Pattern Generator and Reinforcement Learning for Quadruped Locomotion Authors Xinyu Zhang, Zhiyuan Xiao, Qingrui Zhang, Wei Pan 中央模式生成器 CPG 擅长生成有节奏的步态模式，其特点是一致的计时和足够的足部间隙。然而，其开环配置常常会损害系统响应环境变化的控制性能。另一方面，强化学习 RL 以其无模型特性而闻名，由于其固有的适应性和鲁棒性，在机器人领域获得了巨大的关注。然而，从头开始启动传统的强化学习方法会带来计算挑战，并且收敛到次优局部最小值的风险也会增加。在本文中，我们通过综合 CPG 和 RL 提出了一种创新的四足运动框架 SYNLOCO，它可以巧妙地结合两种方法的优点，从而能够开发出既稳定又自然的运动控制器。此外，我们引入了一组绩效驱动的奖励指标，以增强运动控制的学习。为了优化 SYNLOCO 的学习轨迹，提出了两阶段训练策略。我们在不同的条件下（包括不同的速度、地形和有效负载能力）对 Unitree GO1 机器人进行了实证评估，展示了 SYNLOCO 在不同场景下产生一致且清晰的步态的能力。 |
| A Black-Box Physics-Informed Estimator based on Gaussian Process Regression for Robot Inverse Dynamics Identification Authors Giulio Giacomuzzo, Alberto Dalla Libera, Diego Romeres, Ruggero Carli 在本文中，我们提出了一种基于高斯过程回归的黑盒模型，用于识别机器人操纵器的逆动力学。所提出的模型依赖于一种新颖的多维内核，称为 textit Lagrangian Inspired Polynomial kernelInitials kernel。 kernelInitials 内核基于两个主要思想。首先，我们不是直接建模逆动力学分量，而是将系统的动能和势能建模为 GP。逆动力学分量上的 GP 先验是通过应用线性算子下 GP 的性质从能量上的 GP 导出的。其次，关于能量先验定义，我们证明了动能和势能的多项式结构，并推导了编码该属性的多项式核。因此，所提出的模型还允许估计动能和势能，而不需要对这些量进行任何标记。仿真结果和两个真实机器人操纵器（即 7 DOF Franka Emika Panda 和 6 DOF MELFA RV4FL）的结果表明，所提出的模型在准确性方面优于基于高斯过程和神经网络的最先进的黑盒估计器，通用性和数据效率。 |
| Data-driven mode shape selection and model-based vibration suppression of 3-RRR parallel manipulator with flexible actuation links Authors Dingxu Guo, Jian Xu, Shu Zhang 在使用假设模态方法对具有柔性连杆的机械臂进行建模时，模态振型函数很难确定。在本文中，对于具有柔性驱动连杆的平面 3 RRR 并联机械手，我们提供了一种数据驱动方法来识别柔性连杆的模态形状，并提出了一种基于模型的振动抑制控制器。通过以解析形式推导所研究机构的逆运动学，利用假设模态方法建立动力学模型。为了选择模态振型函数，首先利用多体系统动力学软件对机构的动态行为进行仿真，然后采用DMD和SINDy算法相结合的数据驱动方法来确定合理的模态振型函数，以实现柔性机构的设计。链接。为了抑制柔性连杆的振动，利用神经网络构建了末端执行器的状态观测器，并在此基础上设计了基于模型的控制律。 |
| Feel the Tension: Manipulation of Deformable Linear Objects in Environments with Fixtures using Force Information Authors Finn S berkr b, Rita Laezza, Yiannis Karayiannidis 人类能够在几乎没有或没有视觉信息的情况下操纵可变形线性物体 DLO，例如电缆和电线，主要依靠力感应。在这项工作中，我们提出了一种简化的 DLO 模型，该模型通过使物体保持在张力下来实现这种盲目操纵。此外，还提出了在线模型估计程序。基于我们的模型定义了一组基本的滑动和剪切操作原语。这些原语的组合允许更复杂的运动，例如 DLO 的缠绕。 |
| Plane Constraints Aided Multi-Vehicle Cooperative Positioning Using Factor Graph Optimization Authors Chen Zhuang, Hongbo Zhao 车对车V2V通信的发展促进了车辆应用协同定位CP技术的研究。 CP方法可以通过车辆间测距和车辆之间的数据交换来提高定位的可用性和精度。然而，由于两车之间存在障碍物等多种因素，车间测距很容易被中断。如果没有车辆间测距，其他协作数据（例如车辆位置）将被浪费，导致基于距离的 CP 方法的性能下降。为了充分利用协作数据并减轻车辆间测距损失的影响，本文提出了一种基于平面约束的协作定位方法。从协作车辆收到的定位结果用于为每辆车构建道路平面。然后将平面参数引入CP方案中以对定位解决方案施加约束。采用最先进的因子图优化 FGO 算法将平面约束与全球导航卫星系统 GNSS 的原始数据以及车辆间测距测量相集成。由于平面约束仅使用位置相关数据来计算，因此所提出的 CP 方法能够抵抗车辆间测距的干扰。即使车辆间测距不可用，车辆仍然可以从协作车辆的位置数据中受益。 |
| 3DS-SLAM: A 3D Object Detection based Semantic SLAM towards Dynamic Indoor Environments Authors Ghanta Sai Krishna, Kundrapu Supriya, Sabur Baidya 环境中可变因素的存在可能会导致相机定位精度下降，因为它违反了同步定位和建图 SLAM 算法中静态环境的基本假设。最近针对动态环境的语义 SLAM 系统要么仅依赖于 2D 语义信息，要么仅依赖于几何信息，或者以松散集成的方式组合它们的结果。在这篇研究论文中，我们介绍了 3DS SLAM（3D 语义 SLAM），专为具有视觉 3D 对象检测的动态场景而定制。 3DS SLAM 是一种紧密耦合的算法，可依次解决语义和几何约束。我们设计了一个 3D 零件感知混合变压器，用于基于点云的对象检测来识别动态对象。随后，我们提出了一种基于 HDBSCAN 聚类的动态特征过滤器来提取具有显着绝对深度差异的对象。与 ORB SLAM2 相比，3DS SLAM 在 TUM RGB D 数据集的动态序列上平均提高了 98.01。 |
| Redundant and Loosely Coupled LiDAR-Wi-Fi Integration for Robust Global Localization in Autonomous Mobile Robotics Authors Nikolaos Stathoulopoulos, Emanuele Pagliari, Luca Davoli, George Nikolakopoulos 本文提出了一个框架，通过在预映射环境中集成基于 LiDAR 的描述符和 Wi-Fi 指纹识别，解决自主移动机器人的全球定位挑战。这是由于复杂场景（例如城市地区或地下矿井）对可靠定位的需求不断增长，需要强大的系统能够克服基于传统全球导航卫星系统 GNSS 的定位方法所面临的限制。通过利用 LiDAR 和 Wi-Fi 传感器的互补优势来生成预测并评估每个预测的置信度作为潜在退化的指标，我们提出了一种基于冗余的方法，可增强系统的整体鲁棒性和准确性。所提出的框架允许 LiDAR 和 Wi-Fi 传感器独立运行，确保系统冗余。 |
| Dobby: A Conversational Service Robot Driven by GPT-4 Authors Carson Stark, Bohkyung Chun, Casey Charleston, Varsha Ravi, Luis Pabon, Surya Sunkari, Tarun Mohan, Peter Stone, Justin Hart 这项工作介绍了一个机器人平台，该平台将对话式人工智能代理嵌入到一个实体系统中，用于自然语言理解和智能决策，以实现集成任务规划和类人对话的服务任务。该代理源自大型语言模型，该模型从大量常识知识库中学习。除了生成对话之外，该代理还可以通过调用机器人上的命令来与物理世界进行交互，无缝地融合通信和行为。该系统在一项 HRI 研究中以自由形式的导游场景进行了演示，该研究结合了具有和不具有对话人工智能功能的机器人。 |
| l-dyno: framework to learn consistent visual features using robot's motion Authors Kartikeya Singh, Charuvaran Adhivarahan, Karthik Dantu 从历史上看，基于特征的方法已广泛用于基于相机的机器人感知任务，例如定位、绘图、跟踪等。其中一些方法还结合了其他传感器惯性感测，例如执行组合状态估计。我们的工作重新思考了这种方法，我们提出了一种表示学习机制，该机制可以识别与外部信号估计的机器人运动最对应的视觉特征。具体来说，我们通过外部信号惯性传感来利用机器人的变换，并关注与外部信号最一致的图像空间。我们使用成对一致性度量作为表示，通过机器人的相对姿势变换序列来保持视觉特征一致。这种方法使我们能够从机器人的角度整合信息，而不是仅仅依赖图像属性。我们在现实世界数据集（例如 KITTI EuRoC）上评估我们的方法，并将改进后的特征与现有特征描述符进行比较。我们还使用真实的机器人实验来评估我们的方法。我们注意到图像搜索空间平均减少了 49，而轨迹估计精度却没有受到影响。我们的方法将视觉里程计的执行时间减少了 4.3，并且还减少了重投影误差。 |
| Words into Action: Learning Diverse Humanoid Robot Behaviors using Language Guided Iterative Motion Refinement Authors K. Niranjan Kumar, Irfan Essa, Sehoon Ha 人形机器人由于形态相似而非常适合人类栖息地，但为其开发控制器是一项具有挑战性的任务，涉及多个子问题，例如控制、规划和感知。在本文中，我们介绍了一种简化控制器设计的方法，使用户能够使用自然语言命令训练和微调机器人控制策略。我们首先学习一种神经网络策略，通过结合大型语言模型 LLM、运动重定向和运动模仿，在给定自然语言命令的情况下生成行为，例如向前行走。基于合成的运动，我们通过更新文本提示和查询 LLM 来迭代微调，以找到与历史上最接近的运动相关的最佳检查点。我们使用模拟数字人形机器人验证了我们的方法，并演示了多种运动的学习，例如步行、跳跃和踢腿，而无需复杂的奖励工程的负担。 |
| CAT-RRT: Motion Planning that Admits Contact One Link at a Time Authors Nataliya Nechyporenko, Caleb Escobedo, Shreyas Kadekodi, Alessandro Roncone 当前的运动规划方法依赖于二进制碰撞检查来评估状态的有效性，从而决定允许机器人移动的位置。这种方法几乎没有给机器人与物体接触的空间，而这在密集杂乱的空间中操作时通常是必要的。在这项工作中，我们提出了一种替代方法，将接触状态视为机器人应该避免的高成本状态，但如果需要完成任务可以遍历。更具体地说，我们引入了基于接触允许转移的快速探索随机树 CAT RRT，这是一种规划器，它使用新颖的每链路成本启发式方法通过遍历高成本障碍物区域来找到路径。通过广泛的测试，我们发现最先进的优化规划者倾向于过度探索低成本状态，这导致接触区域的收敛缓慢且低效。相反，CAT RRT 通过在每个机器人链路上执行的自适应阈值机制同时搜索低成本和高成本区域。 |
| Human-Robot Gym: Benchmarking Reinforcement Learning in Human-Robot Collaboration Authors Jakob Thumm, Felix Trost, Matthias Althoff 深度强化学习 RL 在机器人运动规划方面已显示出可喜的成果，并首次在人机协作 HRC 中进行尝试。然而，在保证安全的约束下，尚未对 HRC 中的 RL 方法进行公平的比较。因此，我们推出了人类机器人健身房，它是 HRC 中安全强化学习的基准。我们的基准测试在模块化仿真框架中提供了八项具有挑战性的、现实的 HRC 任务。最重要的是，人体机器人健身房包括一个安全防护罩，可以保证人体安全。因此，我们是第一个提供基准来训练遵守现实世界 HRC 安全规范的 RL 代理的人。这弥补了强化学习理论研究与其现实世界部署之间的关键差距。我们对六种环境的评估得出了三个关键结果：a 人类机器人健身房提供的任务的多样性为最先进的 RL 方法创建了具有挑战性的基准；b 以基于行动的奖励的形式将专家知识融入到 RL 训练中 |
| Motion Memory: Leveraging Past Experiences to Accelerate Future Motion Planning Authors Dibyendu Das, Yuanjie Lu, Erion Plaku, Xuesu Xiao 当面临新的运动规划问题时，大多数运动规划者从头开始解决它，例如通过采样和探索或从直线路径开始优化。然而，大多数运动规划者在其一生中必须经历各种规划问题，这些问题尚未用于未来的规划。在本文中，我们提出了一种简单但有效的方法，称为运动记忆，它允许不同的运动规划者利用过去的经验加速未来的规划。将现有的运动规划器视为封闭或开放的盒子，我们提出了运动记忆在面临新的规划问题时可以帮助减少规划时间的多种方法。 |
| Synthesizing Robust Walking Gaits via Discrete-Time Barrier Functions with Application to Multi-Contact Exoskeleton Locomotion Authors Maegan Tucker, Kejun Li, Aaron D. Ames 由于模型不确定性、随机干扰和不完善的状态估计等现实世界因素，成功实现双足运动仍然具有挑战性。在这项工作中，我们建议使用离散时间势垒函数来证明减少的步进动态的混合前向不变性。这些不变集的大小可以用作机车鲁棒性的度量。我们演示了该指标在使用循环模拟方法合成稳健的名义步行步态方面的应用。该过程产生具有逐步动态的参考运动，其相对于选择的简化表示具有最大的前向不变性。 |
| Entropy Based Multi-robot Active SLAM Authors Muhammad Farhan Ahmed, Matteo Maragliano, Vincent Fr mont, Carmine Tommaso Recchiuto 在本文中，我们提出了一种高效的多机器人主动 SLAM 框架，其中涉及前沿共享方法，以最大限度地探索未知环境。它鼓励机器人扩散到环境中，同时使用姿态图 SLAM 不确定性和路径熵对目标边界进行加权。我们的方法适用于有限数量的边界点，并使用封装 SLAM 和地图不确定性的效用函数对目标边界进行加权，从而提供高效且计算成本低廉的解决方案。我们的方法已经在公开的模拟环境和真实的机器人上进行了测试。 |
| Exoskeleton-Mediated Physical Human-Human Interaction for a Sit-to-Stand Rehabilitation Task Authors Lorenzo Vianello, Emek Bar K ktabak, Matthew Short, Cl ment Lhoste, Lorenzo Amato, Kevin Lynch, Jose Pons 坐站 StS 是一项基本的日常活动，由于下肢的力量、运动控制和本体感觉缺陷，对中风幸存者来说可能具有挑战性。现有的疗法涉及重复的 StS 练习，但这对治疗师来说可能是体力要求很高，而辅助设备可能会限制患者的参与并阻碍运动学习。为了应对这些挑战，这项工作建议在 StS 康复任务期间使用两个下肢外骨骼来调节治疗师和患者之间的身体互动。这种方法具有多种优势，包括改善治疗师与患者的互动、安全执行和绩效量化。两个外骨骼的全身控制在两个用户之间传输在线反馈，但同时辅助运动并确保平衡，从而帮助难度较大的受试者。 |
| Towards Agility: A Momentum Aware Trajectory Optimisation Framework using Full-Centroidal Dynamics & Implicit Inverse Kinematics Authors Aristotelis Papatheodorou, Wolfgang Merkt, Alexander L. Mitchell, Ioannis Havoutis 在线规划和执行杂技动作对腿部运动提出了重大挑战。它们潜在的组合性质以及当前硬件的限制构成了释放腿式机器人真正潜力的主要障碍。这封信试图以有形的方式揭示这些最优控制问题的复杂性，直接适用于创建更高效的在线轨迹优化框架。通过分析塑造系统行为的基本原理，可以利用动力学本身来超越其硬件限制。更具体地说，提出了一种轨迹优化公式，该公式利用系统的高阶非线性（例如角动量的非完整性）和相空间对称性来产生可行的高加速机动。通过利用四足 ANYmal C 的完整质心动力学并直接优化其立足点和接触力，该框架能够以较低的计算开销生成高效的运动计划。通过在规划过程中考虑机器人的与配置相关的惯性特性，确保了生成轨迹的可行性，同时通过向求解器提供完整的解析导数 hessian 来提高其鲁棒性。 |
| Review of control algorithms for mobile robotics Authors Andres David Suarez Gomez, Andres A. Hernandez Ortega 本文对移动机器人这一不断发展的领域中使用的控制算法进行了全面的回顾。近年来，在工业自动化、太空探索和医疗保健等各个领域的应用需求的推动下，移动机器人技术取得了显着的进步。该评论的重点是控制算法，这些算法可解决不断变化和未知环境中导航、定位、地图绘制和路径规划方面的特定挑战。详细讨论了 PID 控制和基于经典控制理论的方法等经典方法，以及深度学习和基于模型的规划等现代技术。此外，还强调了在现实世界的移动机器人中实现这些算法的实际应用和剩余挑战。 |
| $f$ -Policy Gradients: A General Framework for Goal Conditioned RL using $f$ -Divergences Authors Siddhant Agarwal, Ishan Durugkar, Peter Stone, Amy Zhang 目标条件强化学习 RL 问题通常可以获得稀疏奖励，其中代理只有在实现目标时才会收到奖励信号，这使得策略优化成为一个难题。有一些工作通过学习密集奖励函数来增强这种稀疏奖励，但如果奖励不一致，这可能会导致次优策略。此外，最近的研究表明，特定问题的有效塑造奖励可能取决于底层的学习算法。本文介绍了一种鼓励探索的新颖方法，称为 f 策略梯度，或 f PG。 f PG 最小化了智能体的状态访问分布和目标之间的 f 差异，我们证明这可以导致最优策略。我们导出各种 f 散度的梯度来优化这个目标。我们的学习范式为稀疏奖励环境中的探索提供了密集的学习信号。我们进一步引入熵正则化策略优化目标，我们将其称为状态 MaxEnt RL 或 s MaxEnt RL 作为我们目标的特例。我们证明了几种基于度量的塑造奖励（例如 L2）可以与 MaxEnt RL 一起使用，为通过有效探索来研究这种基于度量的塑造奖励提供了共同基础。我们发现，在具有挑战性的网格世界以及 Point Maze 和 FetchReach 环境中，与标准策略梯度方法相比，f PG 具有更好的性能。 |
| V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric Heterogenous Distillation Network Authors Caizhen He, Hai Wang, Long Chen, Tong Luo, Yingfeng Cai 物体检测是智能交通系统的核心问题，基于单车激光雷达的 3D 检测的最新进展表明它可以为智能代理做出决策和规划提供准确的位置信息。与单车感知相比，多视车路协同感知具有消除盲点、感知范围更广等根本性优势，已成为研究热点。然而，当前的合作认知侧重于提高融合的复杂性，而忽视了由于缺乏单一视图轮廓而导致的根本问题。我们提出了一种多视图车辆道路协作感知系统，即车辆到万物协作感知V2X AHD，以增强识别能力，特别是预测车辆形状。首先，我们提出了一种使用不同训练数据输入的非对称异构蒸馏网络，以提高轮廓识别的准确性，将多视图教师特征转移到单视图学生特征。虽然点云数据稀疏，我们提出了 Spara Pillar，一种基于备用卷积的特征提取主干插件，以减少参数数量并改进和增强特征提取能力。此外，我们利用多头自注意力MSA来融合单视图特征，轻量级的设计使得融合特征能够平滑地表达。将我们的算法应用于大规模开放数据集 V2Xset 的结果表明，我们的方法达到了最先进的结果。这项研究表明，V2X AHD 可以有效提高 3D 物体检测的准确性，并减少网络参数的数量，为协作感知提供了基准。 |
| Memory-Consistent Neural Networks for Imitation Learning Authors Kaustubh Sridhar, Souradeep Dutta, Dinesh Jayaraman, James Weimer, Insup Lee 与其他方法相比，通过利用专家演示，模仿学习大大简化了政策综合。对于此类模仿策略，远离训练样本的误差尤为关键。即使政策行动输出中罕见的失误也会随着时间的推移而迅速复合，因为它们会导致不熟悉的未来状态，在这些状态下，政策仍然更有可能出错，最终导致任务失败。我们重新审视简单的监督行为克隆，以便从预先录制的演示中方便地训练策略，但仔细设计模型类以应对复合错误现象。我们的记忆一致神经网络 MCNN 输出很难限制在锚定于原型记忆训练样本的明确指定的允许区域内。我们为 MCNN 策略引起的次优差距提供了一个有保证的上限。使用 MCNN 执行 9 项模仿学习任务，采用 MLP、Transformer 和 Diffusion 主干，涵盖灵巧的机器人操作和驾驶、本体感受输入和视觉输入，以及不同大小和类型的演示数据，我们发现性能得到了巨大且一致的提升，验证了这一点MCNN 比普通深度神经网络更适合模仿学习应用。 |
| DEUX: Active Exploration for Learning Unsupervised Depth Perception Authors Marvin Chanc n, Alex Wong, Ian Abraham 深度感知模型通常在具有预定义相机轨迹的非交互式数据集上进行训练。然而，这通常会在与数据采集期间选择的特定相机路径相关的学习过程中引入系统偏差。在本文中，我们从机器人导航的角度，利用 3D 交互环境，研究了如何收集数据以完成学习深度的作用。首先，我们评估使用传统导航技术收集的数据训练的四种深度完成模型。我们的主要见解是，现有的探索范式不一定提供特定于任务的数据点来实现有效的无监督深度完成学习。然后我们发现收集的光度重建数据对模型性能有直接的积极影响。因此，我们开发了一种主动的、任务通知的、基于深度不确定性的运动规划方法来完成学习深度，我们称之为深度不确定性引导探索 DEUX。与 MP3D 测试集上的现有探索方法相比，使用我们的方法收集的数据进行训练可以在四个深度完成模型中平均提高超过 18 的深度完成度。 |
| Multi-Robot Task Assignment and Path Finding for Time-Sensitive Missions with Online Task Generation Authors David Thorne, Brett T. Lopez 执行时间敏感的多机器人任务涉及两个不同的问题：多机器人任务分配 MRTA 和多代理路径查找 MAPF。即使对于小型团队来说，计算完成每项任务并最大限度地缩短任务完成时间或完工时间的安全路径也是一项重大的计算挑战。在许多任务中，可以在执行期间生成任务，通常通过从头开始重新计算任务分配和路径，或使用近似方法修改现有计划来处理。虽然从头开始执行任务重新分配和路径查找会产生理论上的最佳结果，但计算负载使其对于在线实施来说过于昂贵。在这项工作中，我们提出了时间敏感的在线任务分配和导航 TOTAN，这是一个框架，可以快速合并在线生成的任务，同时保证有限的次优任务分配完成时间。它通过评估部分任务重新分配的质量并仅在完工时间超过用户指定的次优界限时才执行完整的重新优化来实现此目的。 |
| Layout Sequence Prediction From Noisy Mobile Modality Authors Haichao Zhang, Yi Xu, Hongsheng Lu, Takayuki Shimizu, Yun Fu 轨迹预测在理解自动驾驶和机器人等应用的行人运动方面发挥着至关重要的作用。当前的轨迹预测模型依赖于来自视觉模态的长、完整且准确观察的序列。然而，现实世界的情况经常涉及摄像机被遮挡、物体丢失或由于环境因素而看不见物体，从而导致轨迹不完整或有噪声。为了克服这些限制，我们提出了 LTrajDiff，这是一种新颖的方法，它将被遮挡或视线之外的物体视为与具有完全可见轨迹的物体同等重要。 LTrajDiff 利用手机的传感器数据来克服视线之外的限制，尽管引入了新的挑战，例如模态融合、噪声数据以及缺乏空间布局和物体尺寸信息。我们采用去噪扩散模型，使用从粗到细的扩散策略，结合 RMS、Siamese Masked Encoding Module 和 MFM，从噪声移动数据中预测精确的布局序列。我们的模型通过从单个参考时间戳或明显受阻的序列隐式推断对象大小和投影状态来预测布局序列。我们的模型在随机阻塞实验和极短输入实验中实现了 SOTA 结果，说明了利用噪声移动数据的有效性。总之，我们的方法为现实世界中布局序列和轨迹预测模型所面临的挑战提供了一种有前景的解决方案，为利用手机传感器数据准确预测行人边界框轨迹铺平了道路。 |
| DyST: Towards Dynamic Neural Scene Representations on Real-World Videos Authors Maximilian Seitzer, Sjoerd van Steenkiste, Thomas Kipf, Klaus Greff, Mehdi S. M. Sajjadi 对世界的视觉理解超越了单个图像的语义和平面结构。在这项工作中，我们的目标是从单眼现实世界视频中捕获现实世界场景的 3D 结构和动态。我们的 Dynamic Scene Transformer DyST 模型利用神经场景表示方面的最新工作来学习单目现实世界视频潜在分解为场景内容、每个视图场景动态和相机姿势。这种分离是通过单目视频的新颖协同训练方案和我们新的合成数据集 DySO 实现的。 |
| Sample Efficient Model-free Reinforcement Learning from LTL Specifications with Optimality Guarantees Authors Daqian Shao, Marta Kwiatkowska 线性时态逻辑 LTL 广泛用于指定系统策略的高级目标，并且自治系统非常需要学习关于此类规范的最佳策略。然而，从 LTL 规范中学习最优策略并非易事。我们提出了一种无模型的强化学习 RL 方法，该方法可以有效地学习未知随机系统的最优策略，并使用马尔可夫决策过程 MDP 进行建模。我们提出了一种新颖且更通用的产品 MDP、奖励结构和折扣机制，当与现成的无模型 RL 算法结合使用时，可以有效地学习最优策略，以最大化满足给定 LTL 规范的概率并提供最优性保证。我们还提供了关于选择 RL 中关键参数以确保最优性的改进理论结果。为了直接评估学习的策略，我们采用概率模型检查器 PRISM 来计算策略满足此类规范的概率。 |
| Chinese Abs From Machine Translation |

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

【AI视野·今日Robot 机器人论文速览 第五十二期】Wed, 11 Oct 2023

Daily Robotics Papers

【AI视野·今日Robot 机器人论文速览第五十二期】Wed, 11 Oct 2023