【AI视野·今日Robot 机器人论文速览 第三十五期】Mon, 18 Sep 2023

AI视野·今日CS.Robotics 机器人学论文速览

Mon, 18 Sep 2023
Totally 44 papers
👉上期速览更多精彩请移步主页



Interesting:

📚GelSplitter, 基于近红外与可见光融合实现高精度surfaceNormal重建的触觉传感器。(from 华中科技大学)

基于分光镜的紧凑型系统,红外和可见光照明分别正交入射实现多模态照明~

多模态融合的神经网络模型:

重建效果,精细纹理:


Daily Robotics Papers

|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Enhancing scientific exploration of the deep sea through shared autonomy in remote manipulation Authors Amy Phung, Gideon Billings, Andrea F. Daniele, Matthew R. Walter, Richard Camilli |
| Quadcopter Trajectory Time Minimization and Robust Collision Avoidance via Optimal Time Allocation Authors Zhefan Xu, Kenji Shimada 自主导航需要机器人生成有效避免碰撞的轨迹。尽管之前的大量工作已被证明可以成功生成平滑且空间无碰撞的轨迹,但它们的解决方案往往存在时间效率不佳和潜在的不安全性,特别是在考虑机器人感知和控制的不确定性时。为了解决这个问题,本文提出了鲁棒最优时间分配 ROTA 框架。该框架旨在暂时优化轨迹的时间进度,作为后处理工具来提高不确定性下的轨迹时间效率和安全性。在本研究中,我们首先制定一个非凸优化问题,旨在最大限度地减少轨迹执行时间,同时在机器人接近障碍物时纳入碰撞概率的约束。随后,我们引入了轨迹制动区的概念,并采用机会约束公式在制动区实现稳健的防撞。最后,将非凸优化问题重新表述为二阶锥规划问题以实现实时性能。 |
| MOSAIC: Learning Unified Multi-Sensory Object Property Representations for Robot Perception Authors Gyan Tatiya, Jonathan Francis, Ho Hsiang Wu, Yonatan Bisk, Jivko Sinapov 对不同感官模式(例如视觉、音频和触觉)的对象属性的整体理解对于从对象分类到复杂操作的任务至关重要。从强调多感官整合在人类感知中重要性的认知科学研究中汲取灵感,我们引入了具有自注意力和综合理解的 MOSAIC 多模态对象属性学习,这是一个旨在促进统一多感官对象属性表示学习的新颖框架。虽然不可否认,视觉信息起着突出的作用,但我们承认许多基本的对象属性超出了视觉领域,涵盖了纹理、质量分布或声音等属性,这些属性显着影响我们与对象的交互方式。在 MOSAIC 中,我们通过从广泛的预训练对比语言图像预训练 CLIP 模型中提取知识来利用这种深刻的洞察力,不仅在视觉上而且在触觉和听觉感官模式上对齐这些表示。通过对人形机器人在 10 种探索行为中与 100 个对象进行交互的数据集进行大量实验,我们证明了 MOSAIC 在对象分类和对象获取任务这两个任务系列中的多功能性。我们的结果强调了 MOSAIC 统一表示的有效性,通过简单的线性探针设置显示了类别识别方面的竞争性能,并在零镜头传输条件下的获取对象任务中表现出色。这项工作开创了基于 CLIP 的感官基础在机器人技术中的应用,有望在自主系统的多感官感知能力方面实现重大飞跃。 |
| OccupancyDETR: Making Semantic Scene Completion as Straightforward as Object Detection Authors Yupeng Jia, Jie He, Runze Chen, Fang Zhao, Haiyong Luo 基于视觉的 3D 语义占用感知也称为 3D 语义场景完成,是自动驾驶等机器人应用的新感知范例。与鸟瞰BEV感知相比,它扩展了垂直维度,显着增强了机器人了解周围环境的能力。然而,正是由于这个原因,当前3D语义占用感知方法的计算需求普遍超过了BEV感知方法和2D感知方法。我们提出了一种新颖的 3D 语义占用感知方法 OccupancyDETR,它由类似 DETR 的对象检测模块和 3D 占用解码器模块组成。对象检测的集成在结构上简化了我们的方法,而不是预测每个体素的语义,它识别场景中的对象及其各自的 3D 占用网格。这加快了我们的方法,减少了所需的资源,并利用了对象检测算法,使我们的方法在小对象上具有显着的性能。 |
| Sim-to-Real Brush Manipulation using Behavior Cloning and Reinforcement Learning Authors Biao Jia, Dinesh Manocha 在现实场景中开发熟练的画笔操作能力是一项复杂且具有挑战性的工作,在艺术、机器人和数字设计等领域有着广泛的应用。在这项研究中,我们介绍了一种旨在弥合模拟环境和现实世界画笔操作之间差距的方法。我们的框架利用行为克隆和强化学习来训练绘画代理,将其无缝集成到虚拟和现实世界环境中。此外,我们还采用了具有机械臂和画笔的真实绘画环境,反映了 MyPaint 虚拟环境。 |
| MBAPPE: MCTS-Built-Around Prediction for Planning Explicitly Authors Raphael Chekroun, Thomas Gilles, Marin Toromanoff, Sascha Hornauer, Fabien Moutarde 我们提出了 MBAPPE,这是一种将树搜索与部分学习的环境模型相结合的自动驾驶运动规划的新颖方法。利用蒙特卡罗搜索树 MCTS 固有的可解释探索和优化功能,我们的方法解决了动态环境中的复杂决策问题。我们提出了一个将 MCTS 与监督学习相结合的框架,使自动驾驶车辆能够有效地在不同的场景中导航。实验结果证明了我们方法的有效性和适应性,展示了改进的实时决策和避免碰撞。 |
| Optimizing Modular Robot Composition: A Lexicographic Genetic Algorithm Approach Authors Jonathan K lz, Matthias Althoff 工业机器人被设计为通用硬件,这限制了它们适应不断变化的任务要求或环境的能力。另一方面,模块化机器人具有灵活性,可以轻松定制以满足不同的需求。形态,即机器人的形式和结构,显着影响主要性能指标的获取成本、周期时间和能源效率。然而,确定特定任务的最佳模块组合仍然是一个悬而未决的问题,这给开发任务定制的模块化机器人带来了巨大的障碍。以前的方法要么缺乏对设计空间的充分探索,要么缺乏适应复杂任务的可能性。我们建议将遗传算法与候选解决方案的字典式评估相结合,以克服这个问题,并在可能的组合数量上导航超过先前工作的搜索空间。 |
| Topological Exploration using Segmented Map with Keyframe Contribution in Subterranean Environments Authors Boseong Kim, Hyunki Seong, D. Hyunchul Shim 现有的探索算法主要在特定的传感器范围或搜索空间内使用随机采样或运动原语方法生成边界。然而,在有限空间内产生的边界会导致在大规模环境中来回机动,从而降低探索效率。为了解决这个问题,我们提出了一种利用 3D 密集地图生成分段探索区域 SER 并从全球尺度角度生成边界的方法。特别是,本文提出了一种新颖的拓扑图生成方法,该方法充分利用 LiDAR 传感器点的视线 LOS 特征来提高大规模地下环境中的勘探效率。我们的拓扑图包含生成每个 SER 的关键帧的贡献,从而可以通过本地路径规划和全局路径规划之间的切换来快速探索每个边界。所提出的方法在大规模模拟环境中实现了比最先进的算法更高的探索体积生成,并且在探索体积增量性能方面表现出 62 的改进。 |
| Road Boundary Estimation Using Sparse Automotive Radar Inputs Authors Aaron Kingery, Dezhen Song 本文提出了一种基于稀疏雷达信号检测道路边界的新方法。我们使用同质模型对道路进行建模,并在已知雷达运动下推导其条件预测模型。使用条件预测模型和使用狄利克雷过程混合模型 DPMM 的模型雷达点,我们采用平均场变分推理 MFVI 来导出无条件道路边界模型分布。为了生成 MFVI 的初始候选解决方案,我们开发了自定义随机样本和共识 RANSAC 变体,以建议未见过的模型实例作为候选道路边界。对于每个雷达点云,我们交替使用 MFVI 和 RANSAC 提议步骤,直到收敛以生成所有候选模型的最佳估计。我们选择每侧距雷达横向距离最小的候选模型作为左右边界的估计。我们已经用 C 实现了所提出的算法。我们对该算法进行了测试,结果令人满意。 |
| Object-oriented mapping in dynamic environments Authors Matti Pekkanen, Francesco Verdoja, Ville Kyrki 网格地图,尤其是占用网格地图,在许多移动机器人应用中无处不在。为了简化学习地图的过程,网格地图将世界细分为单元格网格,仅使用特定单元格感知领域的测量值来独立估计其占用情况。然而,世界由跨越多个单元的对象组成,这意味着落在单元上的测量可以提供属于同一对象的其他单元的占用情况的证据。当前模型未捕获这种相关性。在这项工作中,我们提出了一种概括网格图更新的方法,通过将每个单元的测量值和占用率之间的关系建模为一组潜在变量,并联合估计这些变量和后验,从而放宽独立性假设。地图。此外,我们提出了一种通过基于语义标签的聚类来估计潜在变量的方法,以及对正态分布转移占用图 NDT OM 的扩展,以促进所提出的地图更新方法。我们使用现实世界数据集进行地图创建和定位的综合实验,并表明与最先进的方法相比,所提出的方法在高度动态的环境中创建更好的地图。 |
| MLP Based Continuous Gait Recognition of a Powered Ankle Prosthesis with Serial Elastic Actuator Authors Yanze Li, Feixing Chen, Jingqi Cao, Ruoqi Zhao, Xuan Yang, Xingbang Yang, Yubo Fan 动力踝关节假肢有效帮助下肢截肢患者进行日常活动。具有可调节顺应性以及预测和实现截肢者意图的能力的高性能假肢对于它们与真肢相当或更好至关重要。然而,当前的设计无法提供简单而有效的关节顺应性以及充分的修改潜力,并且缺乏实时准确的步态预测方法。本文提出了一种带有串行弹性执行器SEA的动力踝关节假肢的创新设计,并提出了一种基于MLP的步态识别方法,可以准确、连续地预测更多的步态参数,用于运动传感和控制。该假肢模仿生物关节,具有相似的重量、扭矩和功率,可以帮助行走长达 4 米/秒。为 SEA 提出了一种新的平面扭转弹簧设计,它比现有设计具有更好的刚度、耐久性和修改潜力。 |
| Uncertainty-bounded Active Monitoring of Unknown Dynamic Targets in Road-networks with Minimum Fleet Authors Shuaikang Wang, Yiannis Kantaros, Meng Guo 无人机器人舰队有利于大面积的长期监控,例如监控野生羊群、检测入侵者、搜索和救援。以协作和有效的方式监控大量动态目标是一个具有挑战性的问题,需要在线协调和信息融合。大多数现有工作要么采用被动的全部观察模型,以最小化所有机器人对所有目标的总不确定性,要么对联合离散动作进行优化,同时忽略机器人的动态约束和目标的未知行为。这项工作提出了一种在线任务和运动协调算法,可确保目标状态的明确有界估计不确定性,同时最大限度地减少活动机器人的平均数量。机器人的感知范围有限,可以同时主动跟踪有限数量的目标,而它们未来的控制决策都是未知的。它包括 i 监控任务的分配,建模为具有时间窗 m MVRPTW 的灵活尺寸多车辆路径问题,给定道路网络中具有不确定性测量的预测目标轨迹 ii 用于在不确定性下优化机器人轨迹的非线性模型预测控制 NMPC和安全限制。结果表明,机器人可以根据未知监控任务的需要在主动和非主动角色之间动态在线切换。 |
| i-Octree: A Fast, Lightweight, and Dynamic Octree for Proximity Search Authors Jun Zhu, Hongyi Li, Shengjie Wang, Zhepeng Wang, Tao Zhang |
| Two-fingered Hand with Gear-type Synchronization Mechanism with Magnet for Improved Small and Offset Objects Grasping: F2 Hand Authors Naoki Fukaya, Avinash Ummadisingu, Kuniyuki Takahashi, Guilherme Maeda, Shin ichi Maeda 困扰机器人抓取的一个问题是由于精确定位、致动等方面的困难而导致物体和夹具的未对准。带有柔顺机构的欠驱动机器人手用于适应和补偿这些不准确性。然而,这些机制是以牺牲可控性和协调性为代价的。例如,让两指抓取器的手指独立适应的自适应功能可能会影响抓取小物体所需的协调性。在这项工作中,我们开发了一种两指机器人手,能够抓取偏离夹具中心的物体,同时仍然通过带有磁铁的新型齿轮型同步机构具有抓取小物体所需的协调性。这种齿轮同步机构允许自适应指尖对齐,使其能够抓取像牙签和垫圈这样小的物体。磁性组件允许这种协调在需要时自动关闭,从而允许抓取与夹具偏移未对准的物体。 |
| RaSpectLoc: RAman SPECTroscopy-dependent robot LOCalisation Authors Christopher Thomas Thirgood, Oscar Alejandro Mendez Maldonado, Chao Ling, Jonathan Storey, Simon J Hadfield 本文提出了一种支持机器人定位材料组成的新信息源。所提出的方法补充了文献中使用的现有视觉、结构和语义线索。然而,它具有明显的优势,能够通过使用拉曼光谱仪区分结构、视觉或类别上相似的物体(例如不同的门)。此类设备可以通过材料分子之间的键来识别其探测的物体的材料。与质谱等类似传感器不同,它不会损坏材料或环境。除了介绍第一个基于材料的定位算法之外,本文还通过提供拉曼光谱仪的 Gazebo 插件、材料传感演示以及第一个具有基于材料的定位基准的定位数据集来支持该领域的未来发展。 |
| Distributed Behavior Trees for Heterogeneous Robot Teams Authors Georg Heppner, Nils Berg, David Oberacker, Niklas Spielbauer, Arne Roennau, R diger Dillmann 异构机器人团队可以提供广泛的功能,因此在处理任务时具有显着的优势。然而,它们还需要新的能力和任务定义方法,这些方法不仅适合处理异构能力,而且还允许它们以不限制单个机器人的连贯表示进行组合或分布。行为树提供了许多所需的属性,在机器人控制中越来越受欢迎,并且已被提议用于多机器人协调,但始终作为单独的行为树,提前定义,并且不考虑团队的变化。在本文中,我们提出了一种新的行为树方法,该方法能够处理复杂的现实世界机器人任务,并通过提供内置的成本计算、子树分布和数据连接功能来实现分布式执行。 |
| PRIEST: Projection Guided Sampling-Based Optimization For Autonomous Navigation Authors Fatemeh Rastgar, Houman Masnavi, Basant Sharma, Alvo Aabloo, Jan Swevers, Arun Kumar Singh 在未知和动态环境中的高效导航对于扩大移动机器人的应用领域至关重要。核心挑战源于无法提供可行的全局路径来指导基于优化的局部规划器。因此,现有的当地规划者经常陷入贫困的当地最低限度。在本文中,我们提出了一种新颖的优化器,它可以探索多个同伦以规划长期的高质量轨迹,同时仍然足够快以适应实时应用。我们建立在无梯度范式的基础上,通过投影优化来增强轨迹采样策略,引导样本进入可行区域。因此,我们的方法可以从经常遇到的病理情况中恢复,其中所有采样轨迹都位于高成本区域。此外,我们还表明我们的投影优化具有高度并行化的结构,可以通过 GPU 轻松加速。我们在以下方面推动最先进的技术。通过机器人操作系统 ROS 的导航堆栈,我们发现成功率提高了 7 13,总行程时间指标提高了两倍。在相同的基准和指标上,我们的方法比 MPPI 及其最新变体实现了高达 44 的改进。在简单的点对点导航任务中,我们的优化器比基于 SOTA 梯度的求解器以及基于采样的方法(例如交叉熵方法 CEM 和 VPSTO)的可靠性高出两倍。 |
| MTG: Mapless Trajectory Generator with Traversability Coverage for Outdoor Navigation Authors Jing Liang, Peng Gao, Xuesu Xiao, Adarsh Jagan Sathyamoorthy, Mohamed Elnoor, Ming Lin, Dinesh Manocha 我们提出了一种用于户外机器人导航轨迹生成的新颖学习算法。我们的目标是计算同时满足环境特定可遍历性约束的无碰撞路径。我们的方法专为在无地图环境中使用有限的机载机器人感知进行全球规划而设计,并确保全面覆盖所有可穿越的方向。我们的公式使用条件变分自动编码器 CVAE 生成模型,该模型通过可遍历性约束和用于覆盖范围的优化公式进行了增强。我们强调了我们的方法相对于最先进的轨迹生成方法的优势,并使用 Clearpath Husky 和 Boston Dynamics Spot 机器人展示了其在具有挑战性的户外环境中的性能,包括建筑物周围、交叉路口、沿小径和越野地形。 |
| AVM-SLAM: Semantic Visual SLAM with Multi-Sensor Fusion in a Bird's Eye View for Automated Valet Parking Authors Ye Li, Wenchao Yang, Ju Tao, Qianlei Wang, Zhe Cui, Xiaolin Qin 自动代客泊车 AVP 需要在具有挑战性的车库条件下进行精确定位,包括照明不良、纹理稀疏、重复结构、动态场景以及缺乏全球定位系统 GPS 信号,这些通常会给传统定位方法带来问题。为了解决这些难题,我们提出了 AVM SLAM,这是一种语义视觉 SLAM 框架,在鸟瞰 BEV 中具有多传感器融合。我们的框架集成了四个鱼眼相机、四个轮编码器和一个惯性测量单元 IMU。鱼眼摄像机构成环视监视器 AVM 子系统,生成 BEV 图像。卷积神经网络 CNN 从这些图像中提取语义特征,帮助完成绘图和定位任务。这些语义特征提供了长期稳定性和视角不变性,有效缓解了环境挑战。此外,车轮编码器和 IMU 的数据融合通过改进运动估计和减少漂移来增强系统的稳健性。 |
| Safe and Individualized Motion Planning for Upper-limb Exoskeleton Robots Using Human Demonstration and Interactive Learning Authors Yu Chen, Gong Chen, Jing Ye, Xiangjun Qiu, Xiang Li 上肢外骨骼机器人的一个典型应用是在康复训练中部署,帮助患者恢复操控能力。然而,由于患者并不总是能够跟随机器人,因此在训练过程中可能会出现安全问题。由于不同患者存在偏差,因此个性化方案也很重要,以确保机器人适合患者的具体情况,例如患者的运动习惯,从而保证有效性。为了满足这一要求,本文提出了一种新的上肢外骨骼机器人运动规划方案,通过人体演示和交互式学习驱动机器人提供定制、安全和个性化的帮助。具体来说,机器人首先向一组健康受试者学习,通过概率运动基元 ProMP 生成参考运动轨迹。然后,它在训练过程中向患者学习,进一步塑造移动安全区域内的轨迹。只要训练过程继续进行,交互式数据就会迭代地反馈到 ProMP 中,以增强个性化特征。机器人在可变阻抗模型下跟踪个性化轨迹,实现辅助。 |
| MAVIS: Multi-Camera Augmented Visual-Inertial SLAM using SE2(3) Based Exact IMU Pre-integration Authors Yifu Wang, Yonhon Ng, Inkyu Sa, Alvaro Parra, Cristian Rodriguez, Tao Jun Lin, Hongdong Li 我们提出了一种新颖的基于优化的视觉惯性 SLAM 系统,专为多个部分重叠的相机系统而设计,名为 MAVIS。我们的框架充分利用了多摄像头系统宽视场的优势以及惯性测量单元 IMU 提供的公制尺度测量。我们引入了一种基于SE 2 3 自同构指数函数的改进IMU预积分公式,可以有效增强快速旋转运动和延长积分时间下的跟踪性能。此外,我们还将专为单目或立体设置而设计的传统前端跟踪和后端优化模块扩展到多摄像头系统,并介绍了有助于我们的系统在具有挑战性的场景中表现的实现细节。我们的方法的实际有效性得到了我们对公共数据集的实验的支持。 |
| Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven Navigation Authors Hongcheng Wang, Andy Guan Hong Chen, Xiaoqi Li, Mingdong Wu, Hao Dong 视觉对象导航 VON 的任务涉及代理在给定场景中定位特定对象的能力。为了成功完成 VON 任务,必须满足两个基本条件:1 用户必须知道所需对象的名称,2 用户指定的对象必须实际存在于场景中。为了满足这些条件,模拟器可以将预定义的对象名称和位置合并到场景的元数据中。然而,在现实场景中,确保始终满足这些条件通常具有挑战性。人类在不熟悉的环境中可能不知道场景中存在哪些对象,或者他们可能错误地指定实际不存在的对象。然而,尽管存在这些挑战,人类仍然可能对某个物体有需求,而场景中存在的其他物体可能以等效的方式满足这一需求。因此,我们提出了需求驱动的导航DDN,它利用用户的需求作为任务指令,提示代理寻找与指定需求匹配的对象。 DDN旨在放宽VON的严格条件,专注于满足用户的需求,而不是仅仅依赖预定义的对象类别或名称。我们提出了一种方法,首先通过从大型语言模型中提取公共知识来获取对象的文本属性特征。随后使用对比语言图像预训练 CLIP 将这些文本属性特征与视觉属性特征对齐。通过将视觉属性特征合并为先验知识,我们增强了导航过程。 |
| Data-Driven Goal Recognition in Transhumeral Prostheses Using Process Mining Techniques Authors Zihang Su, Tianshi Yu, Nir Lipovetzky, Alireza Mohammadi, Denny Oetomo, Artem Polyvyanyy, Sebastian Sardina, Ying Tan, Nick van Beest 经肱骨假体可以修复肩部以下缺失的解剖部位,包括手。主动假肢利用真实的、连续的传感器数据来识别患者的目标姿势或目标,并主动移动假肢。先前的研究已经检验了在不考虑时间步长的情况下以静止姿势收集的数据如何帮助区分目标。在本案例研究论文中,我们重点关注使用来自表面肌电图电极和运动传感器的时间序列数据来顺序识别患者目标。我们的方法包括将数据转换为离散事件并训练现有的基于流程挖掘的目标识别系统。在虚拟现实环境中收集的 10 个受试者的数据结果证明了我们提出的目标识别方法的有效性,该方法比最先进的机器学习技术实现了明显更好的精度和召回率,并且在错误时信心不足,这在近似时是有益的 |
| GelSplitter: Tactile Reconstruction from Near Infrared and Visible Images Authors Yuankai Lin, Yulin Zhou, Kaiji Huang, Qi Zhong, Tao Cheng, Hua Yang, Zhouping Yin 类似 GelSight 的视觉触觉 VT 传感器作为机器人的高分辨率触觉传感技术而广受欢迎,能够使用单个 RGB 摄像头测量触摸几何形状。然而,受单摄像头的限制,VT 传感器的多模态感知发展仍然是一个挑战。在本文中,我们提出了 GelSplitter,这是一种采用同步多模态相机的多模态 VT 传感器的新框架,类似于更像人类的触觉接收器。此外,我们专注于 3D 触觉重建并实现紧凑的传感器结构,即使添加棱镜和近红外 NIR 相机,该结构也能保持与最先进的 VT 传感器相当的尺寸。我们还设计了一个光度融合立体神经网络 PFSNN,它估计物体的表面法线并根据红外和可见光图像重建触摸几何形状。我们的结果表明,RGB 和 NIR 融合的准确度高于单独 RGB 图像的准确度。 |
| RELAX: Reinforcement Learning Enabled 2D-LiDAR Autonomous System for Parsimonious UAVs Authors Guanlin Wu, Zhuokai Zhao, Yutao He 近年来,无人机在监视、搜索、救援和包裹递送等领域取得了显着的应用前景。所有这些任务中共享的无人机操作的一个关键方面是自主路径规划,它使无人机能够在复杂、未知和动态的环境中导航,同时在没有人类控制的情况下避开障碍物。尽管人们在这个问题上付出了无数的努力,但由于性能和成本之间的持续权衡,新的挑战不断出现。更迫切需要进行新的研究来开发具有简约传感器设置的无人机自主系统,这是更广泛采用的主要需求。为此,我们提出了一种端到端自主框架,使仅具有一个 2D LiDAR 传感器的无人机能够在未知的动态环境中运行。更具体地说,我们将我们的方法分为三个阶段:预处理地图构造器、离线任务规划器和基于强化学习的在线强化学习动态障碍处理程序。实验表明,我们的方法提供了强大且可靠的动态路径规划和避障功能,而传感器配置成本仅为 1 十分之一。 |
| Fast and Accurate Deep Loop Closing and Relocalization for Reliable LiDAR SLAM Authors Chenghao Shi, Xieyuanli Chen, Junhao Xiao, Bin Dai, Huimin Lu 闭环和重定位是通过解决姿态估计漂移和退化问题建立可靠且稳健的长期 SLAM 的关键技术。本文首先在统一框架内制定循环闭合和重定位。然后,我们提出了一种新颖的多头网络 LCR Net 来有效地解决这两个任务。它利用新颖的特征提取和姿势感知注意机制来精确估计 LiDAR 扫描对之间的相似性和 6 DoF 姿势。最后,我们将 LCR Net 集成到 SLAM 系统中,并在户外驾驶环境中实现稳健且准确的在线 LiDAR SLAM。我们通过循环闭合和重定位派生的三种设置彻底评估我们的 LCR 网络,包括候选检索、闭环点云配准和使用多个数据集的连续重定位。结果表明,LCR Net 在所有三项任务中都表现出色,超越了最先进的方法,并表现出了卓越的泛化能力。值得注意的是,我们的 LCR Net 在不使用耗时的鲁棒姿态估计器的情况下优于基线方法,使其适合在线 SLAM 应用。据我们所知,LCR Net 的集成产生了第一个具有深度闭环和重定位能力的 LiDAR SLAM。 |
| MPCGPU: Real-Time Nonlinear Model Predictive Control through Preconditioned Conjugate Gradient on the GPU Authors Emre Adabag, Miloni Atal, William Gerard, Brian Plancher 非线性模型预测控制 NMPC 是一种最先进的运动和操纵方法,它在每个控制步骤中利用轨迹优化。虽然这种方法的性能在计算上受到限制,但使用迭代方法来解决底层中等规模和稀疏线性系统的直接轨迹优化的实现非常适合并行硬件加速。在这项工作中,我们介绍了 MPCGPU,这是一种 GPU 加速的实时 NMPC 求解器,其核心利用加速的预条件共轭梯度 PCG 线性系统求解器。我们证明 MPCGPU 提高了 NMPC 的可扩展性和实时性能,以更快的速度解决更大的问题。特别是,对于使用 Kuka IIWA 机械臂的跟踪任务,MPCGPU 能够扩展到千赫兹控制速率,轨迹长达 512 个节点。 |
| A Bayesian approach to breaking things: efficiently predicting and repairing failure modes via sampling Authors Charles Dawson, Chuchu Fan 在将自主系统部署到安全关键应用中之前,我们必须能够理解并验证这些系统的安全性。对于现实世界测试的风险或成本过高的情况,我们提出了一个基于模拟的框架,用于预测自主系统可能发生故障的方式,并自动调整系统的设计以先发制人地减轻这些故障。我们通过近似贝叶斯推理的视角来构建这个问题,并使用可微模拟来进行有效的故障案例预测和修复。我们将我们的方法应用于一系列机器人和控制问题,包括优化机器人群的搜索模式以及降低输电网络中断的严重程度。与基于优化的伪造技术相比,我们的方法预测了一组更加多样化、更具代表性的故障模式,而且我们还发现,我们使用可微分模拟产生的解决方案的成本降低了 10 倍,并且收敛所需的迭代次数减少了 2 倍。无梯度技术。 |
| Gradient based Grasp Pose Optimization on a NeRF that Approximates Grasp Success Authors Gergely S ti, Bj rn Hein, Christian Wurll 当前的机器人抓取方法通常依赖于估计目标物体的姿势、显式预测抓取姿势或隐式估计抓取成功概率。在这项工作中,我们提出了一种新颖的方法,可以直接将抓取器姿势映射到其相应的抓取成功值,而不考虑客观性。具体来说,我们利用神经辐射场 NeRF 架构来学习场景表示,并用它来训练抓取成功估计器,将机器人任务空间中的每个姿势映射到抓取成功值。我们利用这个学习的估计器通过基于梯度的优化来调整其输入,即抓取姿势,以获得成功的抓取姿势。其他基于 NeRF 的方法通过依赖 NeRF 的渲染功能来增强现有的抓取姿势估计方法,或者使用 NeRF 的场景表示功能直接估计离散空间中的抓取姿势,与此相反,我们的方法独特地回避了渲染的需要和离散化的限制。我们展示了我们的方法在四个模拟 3DoF 自由度机器人抓取任务中的有效性,并表明它可以推广到新的物体。我们的最佳模型从有效的抓取姿势中实现了 3 毫米的平均平移误差。 |
| Bipedal Walking on Constrained Footholds with MPC Footstep Control Authors Brian Acosta, Michael Posa 双足机器人有望快速有效地穿越崎岖地形,事实上,人形机器人现在可以使用强大的脚踝和小心的脚部放置来穿越不连续的地形。然而,更敏捷的欠驱动两足动物的脚较小,脚踝较弱,必须不断调整其计划的脚步位置以保持平衡。我们引入了一种新的模型预测脚步控制器,它联合优化机器人的步进表面的离散选择、即将发生的脚步位置序列、矢状平面中的脚踝扭矩和质心轨迹,以跟踪速度命令。该控制器被制定为单个混合整数二次规划 MIQP,根据地形复杂性以 50 200 Hz 求解。我们实现了最先进的实时高程映射和凸地形分解框架,以代表可步进地形的凸多边形的形式通知控制器其周围环境。 |
| Efficiently Identifying Hotspots in a Spatially Varying Field with Multiple Robots Authors Varun Suryan, Pratap Tokekar 在本文中,我们提出了使用移动传感器识别环境热点的算法。我们研究了两种方法,一种涉及单个机器人,另一种使用通过分散机器人系统协调的多个机器人。我们引入了一种自适应算法,不需要精确了解高斯过程 GP 超参数,使建模过程更加灵活。机器人在环境中运行预定的时间。多机器人系统使用 Voronoi 分区来划分任务,并使用蒙特卡罗树搜索来规划最佳路径。 |
| Fast Safe Rectangular Corridor-based Online AGV Trajectory Optimization with Obstacle Avoidance Authors Shaoqiang Liang, Songyuan Fa, Zong Chen, Yiqun Li 自动导引车 AGV 因其高效性和适应性而被广泛应用于各个行业。然而,在动态环境中安全部署 AGV 仍然是一个重大挑战。本文介绍了一种在线轨迹优化框架,即快速安全矩形走廊 FSRC,专为障碍物丰富的环境中的 AGV 设计。主要挑战是有效规划优先考虑安全和避免碰撞的轨迹。为了应对这一挑战,FSRC 算法构建了凸区域(表示为矩形走廊),以解决最优控制问题中的避障约束。这种从非凸约束到盒约束的转换提高了碰撞避免的效率和质量。此外,改进的可见性图算法加速了路径规划,边界离散化策略加速了 FSRC 构建。该框架还包括用于实时适应性的动态避障策略。我们的框架的有效性和优越性已在实验中得到证明,特别是在计算效率方面,请参见图 ref Fig case1 和 ref Fig case23。与最先进的框架相比,我们的轨迹规划框架显着提高了计算效率,提高了 1 到 2 个数量级,请参见表 ref tab res 。 |
| Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping Authors Adam Rashid, Satvik Sharma, Chung Min Kim, Justin Kerr, Lawrence Chen, Angjoo Kanazawa, Ken Goldberg 通过特定部分抓取物体通常对于安全和执行下游任务至关重要。然而,基于学习的抓取规划器缺乏这种行为,除非他们接受特定对象部分数据的训练,这使得扩展对象多样性成为一个重大挑战。相反,我们提出了 LERF TOGO,用于面向任务的对象抓取的语言嵌入式辐射场,它使用视觉语言模型零镜头在给定自然语言查询的情况下输出对象上的抓取分布。为了实现这一目标,我们首先重建场景的 LERF,它将 CLIP 嵌入提炼成可通过文本查询的多尺度 3D 语言字段。然而,LERF 没有对象性意识,这意味着它的相关性输出通常会返回对象上不完整的激活,这不足以用于后续部分查询。 LERF TOGO 通过通过 DINO 特征提取 3D 对象掩码,然后有条件地查询该掩码上的 LERF,以获得对象的语义分布,并利用该语义分布对来自现成抓握规划器的抓握进行排名,从而缓解了空间分组不足的问题。我们评估了 LERF TOGO 在 31 个不同物理对象上抓取面向任务的对象部分的能力,发现它在 81 次尝试中选择了正确的部分,并在 69 次中成功抓取。 |
| Closing the Loop on Runtime Monitors with Fallback-Safe MPC Authors Rohan Sinha, Edward Schmerling, Marco Pavone 当我们依靠深度学习模型进行机器人感知时,我们必须认识到这些模型可能会根据与训练数据不同的输入表现不可靠,从而损害闭环系统的安全性。这就提出了一些基本问题:我们如何评估感知系统的信心,以及当外部环境变化降低我们的感知模型的性能时,我们可以在多大程度上采取安全保护措施。因此,我们提出了一个框架来证明在新环境中部署的感知系统的安全性。为此,我们利用鲁棒模型预测控制 MPC 来使用感知估计来控制系统,同时保持不依赖于感知系统的安全保护后备计划的可行性。此外,我们使用最近提出的共形预测技术来校准运行时监视器,以可靠地检测感知系统何时退化超出 MPC 控制器的容差,从而实现端到端的安全保证。我们证明,当我们在照片逼真的飞机滑行模拟器上部署新环境时,这种控制框架和校准技术使我们能够用比重新训练感知网络所需的样本少几个数量级的样本来验证系统的安全性。此外,我们在四旋翼飞行器的模拟示例上说明了 MPC 的安全保护行为。 |
| Robust e-NeRF: NeRF from Sparse & Noisy Events under Non-Uniform Motion Authors Weng Fei Low, Gim Hee Lee 由于其独特的低功耗、低延迟、高时间分辨率和高动态范围的工作原理,事件摄像机比标准摄像机具有许多优势。尽管如此,许多下游视觉应用的成功也取决于高效且有效的场景表示,其中神经辐射场 NeRF 被视为主要候选者。事件相机和 NeRF 的这种前景和潜力激发了最近研究从移动事件相机重建 NeRF 的工作。然而,这些工作主要受限于对密集和低噪声事件流的依赖,以及对任意对比度阈值和相机速度配置文件的泛化。在这项工作中,我们提出了 Robust e NeRF,这是一种新颖的方法,可以在各种现实世界条件下从移动事件摄像机直接、鲁棒地重建 NeRF,特别是从非匀速运动下生成的稀疏和噪声事件。它由两个关键组件组成,一个是现实事件生成模型,该模型考虑了各种内在参数,例如与时间无关、不对称阈值和不应期以及非理想性,例如像素到像素阈值变化,以及一对互补的归一化重建损失,可以有效地推广到任意速度曲线和内在参数值,而无需先验知识。对真实和新颖的真实模拟序列的实验验证了我们的有效性。 |
| Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes Authors Fabien Delattre, David Dirnfeld, Phat Nguyen, Stephen Scarano, Michael J. Jones, Pedro Miraldo, Erik Learned Miller 我们提出了一种通过手持单目视频估计拥挤的现实世界场景中相机旋转的方法。虽然相机旋转估计是一个经过充分研究的问题,但之前没有任何方法在此设置下同时表现出高精度和可接受的速度。由于其他数据集无法很好地解决该设置,因此我们在 17 个视频序列上提供了一个新的数据集和基准,具有高精度、经过严格验证的基本事实。为宽基线立体开发的方法,例如 5 点方法在单目视频上表现不佳。另一方面,自动驾驶中使用的方法(例如 SLAM)利用特定的传感器设置、特定的运动模型或滞后于批处理的本地优化策略,并且不能很好地推广到手持视频。最后,对于动态场景,常用的鲁棒性技术(如 RANSAC)需要大量迭代,并且变得非常慢。我们在 SO 3 上引入了霍夫变换的新颖概括,以有效且稳健地找到与光流最兼容的相机旋转。在相对较快的方法中,我们的方法比次佳方法减少了近 50 倍的误差,并且无论速度如何,都比任何方法都更准确。这代表了拥挤场景的强大新性能点,这是计算机视觉的重要设置。 |
| Compositional Foundation Models for Hierarchical Planning Authors Anurag Ajay, Seungwook Han, Yilun Du, Shaung Li, Abhi Gupta, Tommi Jaakkola, Josh Tenenbaum, Leslie Kaelbling, Akash Srivastava, Pulkit Agrawal 为了在具有长期目标的新环境中做出有效决策,跨空间和时间尺度进行分层推理至关重要。这需要规划抽象的子目标序列,对基本计划进行视觉推理,并通过视觉运动控制根据设计的计划执行行动。我们提出了用于分层规划 HiP 的组合基础模型,这是一种基础模型,它利用多个专家基础模型来单独联合训练语言、视觉和动作数据来解决长期任务。我们使用大型语言模型来通过大型视频扩散模型构建基于环境的符号计划。然后,通过从生成的视频推断动作的逆动力学模型,生成的视频计划基于视觉运动控制。为了在这个层次结构中实现有效的推理,我们通过迭代细化来强制模型之间的一致性。 |
| Efficient and robust Sensor Placement in Complex Environments Authors Lukas Taus, Yen Hsi Richard Tsai 我们解决复杂环境中高效、畅通的监控或通信问题。一方面,人们希望使用最少数量的传感器来覆盖环境。另一方面,考虑针对传感器故障或对抗性攻击具有鲁棒性的解决方案通常很重要。本文解决了设计最小传感器组的挑战,这些传感器组实现了多重覆盖约束,环境中的每个点都被规定数量的传感器覆盖。我们提出了一种贪婪算法来实现该目标。此外,我们探索深度学习技术来加速贪婪算法中制定的目标函数的评估。神经网络的训练表明,数据的几何特性显着影响网络的性能,特别是在最后阶段。 |
| T-UDA: Temporal Unsupervised Domain Adaptation in Sequential Point Clouds Authors Awet Haileslassie Gebrehiwot, David Hurych, Karel Zimmermann, Patrick P rez, Tom Svoboda 深度感知模型必须可靠地应对由不同地理区域、传感器属性、安装位置和其他几个原因引起的域转移的开放世界环境。由于可能存在无穷无尽的变化,用带注释的数据覆盖所有领域在技术上是棘手的,因此研究人员专注于无监督的领域适应 UDA 方法,该方法将在一个源域上训练的模型与可用于另一个目标域的可用注释相适应,而对于另一个目标域来说,只有未注释的数据可用。当前的主要方法要么利用半监督方法,例如教师学生设置,要么利用特权数据,例如其他传感器模式或时间数据一致性。我们引入了一种新颖的领域适应方法,该方法充分利用了这两种趋势的优点。我们的方法将输入数据的时间和跨传感器几何一致性与平均教师方法结合起来。这种组合被称为时间 UDA 的 T UDA,为驾驶场景的 3D 语义分割任务带来了巨大的性能提升。在 Waymo 开放数据集 nuScenes 和 SemanticKITTI 上针对两种流行的 3D 点云架构 Cylinder3D 和 MinkowskiNet 进行了实验。 |
| Quantitative and Qualitative Evaluation of Reinforcement Learning Policies for Autonomous Vehicles Authors Laura Ferrarotti, Massimiliano Luca, Gabriele Santin, Giorgio Previati, Gianpiero Mastinu, Elena Campi, Lorenzo Uccello, Antonino Albanese, Praveen Zalaya, Alessandro Roccasalva, Bruno Lepri 在不断变化的交通环境中优化交通动态至关重要,特别是在具有不同自主程度的自动驾驶汽车与人类驾驶汽车共存的情况下。本文提出了一种使用近端策略优化 PPO(一种强化学习算法)来优化 AV 选择的新方法。我们学习了一项尽量减少交通拥堵的政策,即尽量减少穿越场景的时间,并尽量减少意大利米兰环岛的污染。通过实证分析,我们证明我们的方法可以减少时间和污染水平。此外,我们使用尖端驾驶舱定性评估学习策略,以评估其在接近现实条件下的性能。为了衡量该政策的实用性和可接受性,我们使用模拟器对人类参与者进行了评估,重点关注交通顺畅度和安全感知等一系列指标。总的来说,我们的研究结果表明,人类驾驶的车辆受益于优化自动驾驶汽车的动力学。此外,研究参与者强调,拥有 80 辆自动驾驶汽车的场景被认为比拥有 20 辆自动驾驶汽车的场景更安全。 |
| Human-Inspired Topological Representations for Visual Object Recognition in Unseen Environments Authors Ekta U. Samani, Ashis G. Banerjee 对于移动机器人来说,在看不见和杂乱的室内环境中进行视觉目标识别是一个具有挑战性的问题。为了实现这一目标,我们扩展了之前的工作,提出了 TOPS2 描述符以及随附的识别框架 THOR2,其灵感来自于称为对象统一的人类推理机制。我们将使用用于拓扑软聚类的 Mapper 算法获得的颜色嵌入与基于形状的 TOPS 描述符交织以获得 TOPS2 描述符。 THOR2 使用合成数据进行训练,比基于形状的 THOR 框架实现了更高的识别精度,并且在两个现实世界数据集(基准 OCID 数据集和 UW IS Occlusion 数据集)上优于 RGB D ViT。 |
| DA-RAW: Domain Adaptive Object Detection for Real-World Adverse Weather Conditions Authors Minsik Jeon, Junwon Seo, Jihong Min 尽管近年来基于深度学习的目标检测方法取得了成功,但要使目标检测器在雨雪等恶劣天气条件下可靠仍然具有挑战性。为了实现物体检测器的鲁棒性能,无监督域适应已被用来使在清晰天气图像上训练的检测网络适应恶劣天气图像。虽然以前的方法没有明确解决适应过程中的天气损坏问题,但晴天和恶劣天气之间的域差距可以分解为两个具有不同特征的因素:风格差距和天气差距。在本文中,我们提出了一种用于对象检测的无监督域适应框架,通过分别解决这两个差距,可以更有效地适应具有恶劣天气条件的现实世界环境。我们的方法通过使用注意模块集中于高级特征的风格相关信息来解决风格差距。使用自我监督对比学习,我们的框架可以减少天气差距并获得对天气损坏具有鲁棒性的实例特征。 |
| Test Case Generation and Test Oracle Support for Testing CPSs using Hybrid Models Authors Zahra Sadri Moshkenani, Justin Bradley, Gregg Rothermel 网络物理系统 CPS 在医疗设备、自动驾驶车辆和智能家居等各种自主物理系统的行为中发挥着核心作用,其中许多系统都对安全至关重要。 CPS 通常被迭代地指定为不同级别的一系列模型,可以在开发周期的早期阶段通过仿真系统进行测试。其中一种模型是混合自动机,它们经常用于 CPS 应用,并且具有封装连续和离散 CPS 行为的优点。在测试 CPS 时,工程师可以利用这些模型来生成针对这两种行为的测试用例。此外,由于这些模型是在 CPS 开发过程的早期构建的,因此它们允许在这些 CPS 的开发过程的早期生成测试用例,甚至在设计 CPS 的仿真模型之前。测试 CPS 时面临的一个挑战是,即使在应用相同的测试场景下,这些系统也可能以不同的方式运行。在这种情况下,我们不能采用使用预先确定的确定性行为的测试预言机,而是测试预言机应考虑一组所需的行为,以确定 CPS 的行为是否正确。在本文中,我们提出了一种测试用例生成技术 HYTEST,它基于混合模型生成测试用例,并附有适当的测试预言机,用于在开发周期的早期测试 CPS。为了评估 HYTEST 的有效性和效率,我们进行了一项实证研究,将该技术应用于多个 CPS,并测量其检测这些 CPS 中的故障的能力以及执行测试过程所需的时间。 |
| Distributed formation control of end-effector of mixed planar fully- and under-actuated manipulators Authors Zhiyu Peng, Bayu Jayawardhana, Xin Xin 本文解决了在水平面内移动的双连杆混合机械臂的末端执行器编队控制问题,该混合机械臂由全驱动机械臂和欠驱动机械臂组成,仅第二个关节被驱动,称为被动主动 PA 机械臂。利用其可积性,将全驱动机械臂的分布式末端执行器编队控制器扩展到水平面移动的PA机械臂,解决了该问题。本文提出了给定必要条件下闭环系统的稳定性分析,并证明机械手末端执行器收敛到所需的队形形状。 |
| Chinese Abs From Machine Translation |

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

相关推荐
ZHOU_WUYI4 小时前
3.langchain中的prompt模板 (few shot examples in chat models)
人工智能·langchain·prompt
如若1234 小时前
主要用于图像的颜色提取、替换以及区域修改
人工智能·opencv·计算机视觉
老艾的AI世界4 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
DK221514 小时前
机器学习系列----关联分析
人工智能·机器学习
Robot2514 小时前
Figure 02迎重大升级!!人形机器人独角兽[Figure AI]商业化加速
人工智能·机器人·微信公众平台
浊酒南街5 小时前
Statsmodels之OLS回归
人工智能·数据挖掘·回归
畅联云平台5 小时前
美畅物联丨智能分析,安全管控:视频汇聚平台助力智慧工地建设
人工智能·物联网
加密新世界6 小时前
优化 Solana 程序
人工智能·算法·计算机视觉
hunteritself6 小时前
ChatGPT高级语音模式正在向Web网页端推出!
人工智能·gpt·chatgpt·openai·语音识别
Che_Che_6 小时前
Cross-Inlining Binary Function Similarity Detection
人工智能·网络安全·gnn·二进制相似度检测