AI视野·今日CS.Robotics 机器人学论文速览
Daily Robotics Papers
|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving Authors Hao Sha, Yao Mu, Yuxuan Jiang, Li Chen, Chenfeng Xu, Ping Luo, Shengbo Eben Li, Masayoshi Tomizuka, Wei Zhan, Mingyu Ding 现有的基于学习的自动驾驶 AD 系统在理解高级信息、概括罕见事件和提供可解释性方面面临挑战。为了解决这些问题,这项工作采用大型语言模型法学硕士作为需要人类常识理解的复杂 AD 场景的决策组件。我们设计认知途径以实现法学硕士的全面推理,并开发算法将法学硕士的决策转化为可操作的驾驶命令。通过这种方法,LLM 决策通过引导参数矩阵自适应与低级控制器无缝集成。大量实验表明,由于法学硕士的常识推理能力,我们提出的方法不仅在单车辆任务中始终超越基准方法,而且有助于处理复杂的驾驶行为甚至多车辆协调。本文提出了利用法学硕士作为复杂 AD 场景的有效决策者在安全性、效率、通用性和互操作性方面迈出的第一步。我们希望它能够为该领域的未来研究提供灵感。 |
| Human-oriented Representation Learning for Robotic Manipulation Authors Mingxiao Huo, Mingyu Ding, Chenfeng Xu, Thomas Tian, Xinghao Zhu, Yao Mu, Lingfeng Sun, Masayoshi Tomizuka, Wei Zhan 人类天生就拥有通用的视觉表征,使他们能够在操作任务中有效地探索环境并与环境交互。我们主张,这种表示会自动产生于同时学习多种简单的感知技能,这些技能对于日常场景至关重要,例如手部检测、状态估计等,并且与当前最先进的视觉表示相比,更适合学习机器人操作策略纯粹基于自我监督的目标。我们通过在预先训练的视觉编码器之上进行面向人的多任务微调来形式化这个想法,其中每个任务都是与人类环境交互相关的感知技能。我们引入任务融合解码器作为即插即用的嵌入翻译器,它利用这些感知技能之间的潜在关系来指导表示学习编码对所有感知技能都很重要的有意义的结构,最终增强下游机器人操作任务的学习。在模拟和现实环境中对一系列机器人任务和实施例进行的广泛实验表明,我们的任务融合解码器持续改进了三种最先进的视觉编码器(包括 R3M、MVP 和 EgoVLP)的表示,用于下游操纵策略学习。 |
| Adaptive Landmark Color for AUV Docking in Visually Dynamic Environments Authors Corey Knutson, Zhipeng Cao, Junaed Sattar 自主水下航行器 AUV 在水下执行任务,无需人工干预。对接站 DS 可以通过为 AUV 提供充电和接收更新任务信息的位置来延长 AUV 的任务时间。存在多种定位和跟踪 DS 的方法,但大多数依赖于昂贵的声学传感器,或者基于视觉,这很大程度上受水质影响。在此文档类型中,我们提出了一种基于视觉的方法,该方法利用自适应彩色 LED 标记和动态颜色过滤来最大限度地提高不同水况下地标的可见度。 AUV 和 DS 都利用摄像机来确定水背景颜色,以便计算所需的标记颜色。 AUV 和 DS 之间无需进行通信即可确定标记颜色。在水池和湖泊中进行的实验表明,随着背景颜色的变化,我们的方法的性能比静态颜色阈值方法好 10 倍。 |
| Whole-body MPC for highly redundant legged manipulators: experimental evaluation with a 37 DoF dual-arm quadruped Authors Ioannis Dadiotis, Arturo Laurenzi, Nikos Tsagarakis 腿式运动的最新进展使四足机械手成为执行需要移动性和操控性的任务的有前途的解决方案。在现实世界中,任务规范和/或环境限制可能要求四足机械臂配备emph高冗余以及emph全身运动协调能力。这项工作对全身模型预测控制 MPC 框架进行了实验评估,该框架在由 37 个驱动关节组成的双臂四足平台上实现了实时性能。据我们所知,这是迄今为止由实时全身 MPC 控制的关节数量最多的腿式机械臂。 MPC 的计算效率在考虑完整的机器人运动学和质心动力学模型的同时建立在开源 DDP 变体求解器和最先进的最优控制问题公式的基础上。与之前的四足机械臂工作不同,MPC 直接与低级关节阻抗控制器连接,无需设计瞬时全身控制器。使用 CENTAURO 平台执行从地面拾取重物的挑战性任务,展示了真实硬件上的可行性。该机器人还首次展示了动态步进小跑。 |
| Approximating Robot Configuration Spaces with few Convex Sets using Clique Covers of Visibility Graphs Authors Peter Werner, Alexandre Amice, Tobia Marcucci, Daniela Rus, Russ Tedrake 如果机器人配置空间被描述为简单集合的集合,则机器人技术中的许多计算可以显着加速。例如,最近开发的运动规划器依靠自由空间的凸分解来使用快速凸优化来设计无碰撞轨迹。在这项工作中,我们提出了一种用少量多面体近似覆盖复杂配置空间的有效方法。该方法使用采样构建可见性图,并生成该图的团覆盖以查找具有相互视线的样本簇。然后这些簇被膨胀成大的、全维度的多面体。 |
| Incorporating Target Vehicle Trajectories Predicted by Deep Learning Into Model Predictive Controlled Vehicles Authors Ni Dang, Zengjie Zhang, Jizheng Liu, Marion Leibold, Martin Buss 模型预测控制MPC已广泛应用于自动驾驶车辆的运动规划。 MPC 控制的车辆需要根据其模型在有限的预测范围内预测其自身的轨迹。除此之外,车辆还应该将附近车辆或目标车辆电视的轨迹预测纳入其决策中。传统的轨迹预测方法,例如基于恒速的轨迹预测方法,过于琐碎,无法准确捕捉潜在的碰撞风险。在本报告中,我们提出了一种基于 MPC 的新型运动规划方法,用于具有一组风险意识约束的自动驾驶车辆。这些约束包含使用基于深度学习的方法学习的电视的预测轨迹。循环神经网络 RNN 用于根据历史数据预测电视的未来轨迹。然后,将预测的电视轨迹纳入本车 MPC 的优化中,以生成无碰撞运动。 |
| R-LGP: A Reachability-guided Logic-geometric Programming Framework for Optimal Task and Motion Planning on Mobile Manipulators Authors Kim Tien Ly, Valeriy Semenov, Mattia Risiglione, Wolfgang Merkt, Ioannis Havoutis 本文提出了一种基于优化的移动机械臂任务和运动规划 TAMP 解决方案。逻辑几何编程 LGP 在优化处理涉及抽象和几何约束的混合 TAMP 问题方面表现出了良好的能力。然而,LGP 不能很好地扩展到高维系统,例如:移动机械手,可能会遇到避障问题。在这项工作中,我们使用基于采样的可达性图来扩展 LGP,以便能够在高自由度移动机械臂上求解最佳 TAMP。所提出的可达性图可以结合环境信息障碍,为规划者提供足够的几何约束。这种可达性感知启发式方法有效地修剪了连续域中不可行的动作序列,因此,它通过确保最终完整轨迹优化的可行性来减少重新规划。事实证明,我们的框架在计算最佳和无碰撞解决方案方面具有时间效率,同时在成功率、规划时间、路径长度和步骤数方面优于当前最先进的技术。 |
| Optimal Collaborative Transportation for Under-Capacitated Vehicle Routing Problems using Aerial Drone Swarms Authors Akash Kopparam Sreedhara, Deepesh Padala, Shashank Mahesh, Kai Cui, Mengguang Li, Heinz Koeppl 最近,成群的无人机被考虑用于城市物流或自动化建筑的最后一英里交付。与此同时,多架无人机协同运输有效载荷是近期研究的另一个重要领域。然而,用于许多无人机协作运输许多有效载荷的有效协调算法仍有待考虑。在这项工作中,我们将一群无人机协同运输有效载荷作为一种新颖的、在车辆路径问题 VRP 的能力概括下,这也可能是单独的兴趣。与标准VRP和能力VRP相比,我们还必须额外考虑多架无人机协同提升有效载荷的等待时间以及相应的协调。在算法上,我们提供了一种解决方案编码,可以避免死锁,并制定适当的交替最小化方案来解决问题。在硬件方面,我们将算法与防撞和无人机控制器集成。该方法和系统集成的影响在真实的纳米四轴飞行器群和模拟中的大型群上都得到了成功的实证验证。 |
| Curve Trajectory Model for Human Preferred Path Planning of Automated Vehicles Authors Gergo Igneczi, Erno Horvath, Roland Toth, Krisztian Nyilas 自动驾驶系统通常用于车道保持任务。通过这些系统,可以在车辆前方规划一条本地路径。然而,人类驾驶员经常发现这些路径不自然。我们提出了一种线性驾驶员模型,它可以计算反映人类驾驶员偏好的节点,并基于这些节点可以为自动驾驶设计人类驾驶员首选的运动路径。模型输入是道路曲率。我们将该模型应用于自行开发的基于欧拉曲线的曲线拟合算法。通过案例研究,我们表明基于模型的规划路径可以重现人类曲线路径选择的平均行为。 |
| Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach Authors Matthew Hanlon, Boyang Sun, Marc Pollefeys, Hermann Blum SLAM 设备的日益普及提供了在另一个机器人或设备的地图中简单定位的选项,而不是让每个新部署的机器人创建自己的周围环境地图。在多机器人或人机协作等情况下,甚至有必要将所有代理定位在同一张地图中。然而,本地化例如由于视角变化,无人机或头戴式 MR 耳机地图中的地面机器人面临着独特的挑战。这项工作研究了如何使用主动视觉定位来克服视点变化的此类挑战。具体来说,我们关注在给定位置选择最佳视点的问题。我们将文献中的现有方法与其他提出的基线进行比较,并提出一种新颖的数据驱动方法。 |
| Long-Term Dynamic Window Approach for Kinodynamic Local Planning in Static and Crowd Environments Authors Zhiqiang Jian, Songyi Zhang, Lingfeng Sun, Wei Zhan, Nanning Zheng, Masayoshi Tomizuka 差动轮式机器人的局部规划旨在生成运动动力学可行的动作,引导机器人沿着导航路径到达目标位置,同时避开障碍物。反应式、预测式和基于学习的方法广泛应用于地方规划中。然而,很少有人能够适应静态和人群环境,同时满足运动动力学约束。为了解决这个问题,我们提出了一种新颖的局部规划方法。该方法应用长期动态窗口方法来生成初始轨迹,然后通过图优化对其进行优化。该方法可以实时规划机器人运动动力学约束下的动作,同时使生成的动作更安全、更无抖动。 |
| Foundation Reinforcement Learning: towards Embodied Generalist Agents with Foundation Prior Assistance Authors Weirui Ye, Yunsheng Zhang, Mengchen Wang, Shengjie Wang, Xianfan Gu, Pieter Abbeel, Yang Gao 最近,人们已经证明,利用互联网规模的数据进行大规模预训练是构建通用模型的关键,正如 NLP 所证明的那样。为了构建具身通才智能体,我们和许多其他研究人员假设这种先验基础也是不可或缺的组成部分。然而,尚不清楚什么是代表这些具体基础先验的正确具体形式以及它们应如何在下游任务中使用。在本文中,我们提出了一组直观且有效的体现先验,其中包括基础政策、价值和成功奖励。提议的先验基于目标条件 MDP。为了验证其有效性,我们实例化了一种由先验辅助的演员批评家方法,称为 Foundation Actor Critic FAC 。我们将我们的框架命名为基础强化学习 FRL,因为它完全依赖于具体的基础先验来探索、学习和强化。 FRL 的好处有三个。 1 样品效率高。凭借基础先验,FAC 的学习速度明显快于传统 RL。我们对 Meta World 的评估证明,FAC 可以在 20 万帧以下的情况下对 7 8 个任务实现 100 的成功率,这优于 1M 帧下精心设计奖励的基线方法。 2 对噪声先验具有鲁棒性。我们的方法可以容忍具体基础模型中不可避免的噪声。我们证明,即使在严重噪声或量化误差的情况下,FAC 也能很好地工作。 3 最少的人为干预 FAC完全从基础先验中学习,不需要人为指定的密集奖励,或提供远程操作演示。因此,FAC 可以很容易地扩大规模。我们相信我们的 FRL 框架可以使未来的机器人能够自主探索和学习,而无需人工干预物理世界。 |
| Adaptive Spatio-Temporal Voxels Based Trajectory Planning for Autonomous Driving in Highway Traffic Flow Authors Zhiqiang Jian, Songyi Zhang, Lingfeng Sun, Wei Zhan, Masayoshi Tomizuka, Nanning Zheng 轨迹规划对于自动驾驶汽车在高速公路交通流中的安全驾驶至关重要。目前,一些先进的轨迹规划方法利用时空体素构建可行区域,然后将轨迹规划转化为基于可行区域的优化问题求解。然而,这些可行的区域构建方法无法适应动态环境的变化,难以在复杂的交通流中应用。在本文中,我们提出了一种基于自适应时空体素的轨迹规划方法,该方法在保持二次规划形式的同时改进了可行区域的构造和轨迹优化。该方法可以根据实时交通流和环境变化调整可行区域和轨迹规划,实现车辆在复杂交通流中的安全行驶。 |
| Machine Learning-Enabled Precision Position Control and Thermal Regulation in Advanced Thermal Actuators Authors Seyed Mo Mirvakili, Ehsan Haghighat, Douglas Sim 凭借其独特的特性组合,能量密度几乎是人类肌肉的 100 倍,功率密度为 5.3 kW kg,类似于喷气发动机的输出,尼龙人造肌肉脱颖而出,特别适合机器人应用。然而,集成传感器和控制器的必要性限制了它们的实际使用。在这里,我们报告了一种基于机器学习的恒功率开环控制器。我们证明,我们可以在没有外部传感器的情况下控制尼龙人造肌肉的位置。为此,我们使用集成编码器式前馈神经网络构建从所需位移轨迹到所需功率的映射。 |
| Robust Collision Detection for Robots with Variable Stiffness Actuation by Using MAD-CNN: Modularized-Attention-Dilated Convolutional Neural Network Authors Zhenwei Niu, Lyes Saad Saoud, Irfan Hussain 在协作机器人领域,确保安全至关重要,以降低人体伤害和环境破坏的风险。除了避免碰撞之外,机器人快速检测和响应意外碰撞也至关重要。虽然已经引入了几种基于学习的碰撞检测方法作为纯粹基于模型的检测技术的替代方法,但目前缺乏为配备可变刚度执行器的协作机器人设计的此类方法。此外,还有进一步增强网络鲁棒性和提高数据训练效率的潜力。在本文中,我们提出了一种新网络,即模块化注意力扩张卷积神经网络 MAD CNN,用于配备可变刚度执行器的机器人中的碰撞检测。我们的模型结合了双归纳偏置机制和注意力模块来提高数据效率和鲁棒性。特别是,MAD CNN 仅使用四分钟的碰撞数据集进行训练,重点关注最高水平的关节刚度。尽管训练数据有限,MAD CNN 仍能在各种刚度条件下以最小的检测延迟稳健地检测所有碰撞。此外,它表现出更高水平的碰撞敏感性,这有利于有效处理误报,这是基于学习的方法中的常见问题。 |
| Improving Drumming Robot Via Attention Transformer Network Authors Yang Yi, Zonghan Li 机器人技术在当今社会得到了广泛的应用,在农业、制造业、娱乐业等各个领域都取得了长足的进步。在本文中,我们重点讨论娱乐中的击鼓机器人这一主题。为此,我们介绍了一种改进的击鼓机器人,它可以基于流行的基于注意力机制的视觉变压器网络自动完成音乐转录。配备注意力变换器网络,我们的方法可以有效地处理顺序音频嵌入输入并对其全局长范围依赖关系进行建模。 |
| Tightly Joining Positioning and Control for Trustworthy Unmanned Aerial Vehicles Based on Factor Graph Optimization in Urban Transportation Authors Peiwen Yang, Weisong Wen 在即将到来的智慧城市时代,无人机在提高包裹递送应用效率方面展现出巨大潜力。不幸的是,无人机的可信定位和控制算法在复杂的城市地区受到了巨大的挑战。例如,无处不在的全球导航卫星系统 GNSS 定位可能会因周围高层建筑的信号反射而降低,从而导致定位不确定性显着增加。由于城市峡谷中复杂的风扰动,给控制算法带来了额外的挑战。鉴于系统定位与控制高度相关,例如控制的系统动力学对定位有很大帮助,本文提出一种基于因子图优化FGO的联合定位与控制方法JPCM,该方法结合了传感器测量和控制意图。特别地,定位测量被公式化为因子图模型中的因子,例如来自 GNSS 的定位。模型预测控制 MPC 也被公式化为因子图模型中的附加因子。通过求解由定位因子和基于MPC的因子共同贡献的因子图,可以充分挖掘定位和控制的互补性。为了保证可靠的系统动态参数,我们使用模拟四旋翼系统验证了所提出方法的有效性,该系统显示出显着改善的轨迹跟踪性能。 |
| Proactive Human-Robot Interaction using Visuo-Lingual Transformers Authors Pranay Mathur 人类拥有提取潜在视觉语言线索以通过人际互动推断上下文的天生能力。在协作过程中,这可以主动预测一系列任务的潜在意图。相比之下,与人类协作的机器人代理天真地遵循基本指令来完成任务,或者在努力完成目标时使用特定的手工触发器来启动主动协作。赋予此类机器人推理最终目标并主动建议中间任务的能力将为人类机器人协作带来一种更加直观的方法。为此,我们提出了一种基于学习的方法,该方法使用场景中的视觉提示、用户的语言命令以及先前对象交互的知识来识别并主动预测用户想要实现的潜在目标。具体来说,我们提出了 ViLing MMT,这是一种基于视觉语言多模态转换器的架构,它捕获模态间和模内依赖性,以提供准确的场景描述并在适用的情况下主动建议任务。 |
| Human-Like Autonomous Driving on Dense Traffic Authors Mustafa Yildirim, Saber Fallah, Alireza Tamaddoni Nezhad 本文提出了一种通过模仿人类驾驶员驾驶行为来实现高速公路交通自动驾驶的模仿学习模型。该研究利用了高维交通数据集,该数据集复杂、高维且车辆变化多样。模仿学习是自动高速公路驾驶的替代解决方案,与强化学习相比,它降低了学习具有挑战性的任务的样本复杂性。然而,模仿学习也有局限性,例如在未见过的状态下容易出现复合错误、泛化能力差以及无法预测异常驾驶员档案。为了解决这些问题,本文提出了混合密度网络行为克隆模型来管理输入和输出之间复杂的非线性关系,并对车辆的行为做出更明智的决策。其他改进是使用基于 GAIL 模型的碰撞惩罚。 |
| Improved Inference of Human Intent by Combining Plan Recognition and Language Feedback Authors Ifrah Idrees, Tian Yun, Naveen Sharma, Yunxin Deng, Nakul Gopalan, George Konidaris, Stefanie Tellex 会话辅助机器人可以帮助人们,特别是那些有认知障碍的人完成各种任务,例如做饭、进行锻炼或操作机器。然而,为了有效地与人互动,机器人必须从人类行为的嘈杂观察中识别人类的计划和目标,即使用户的行为不是最佳的。之前有关计划和目标识别 PGR 的工作作为规划,使用分层任务网络 HTN 来对人类参与者进行建模。然而,这些技术还不够,因为它们没有通过语言等自然交互模式来吸引用户。此外,他们没有机制让用户,特别是那些有认知障碍的用户,知道他们最初计划的偏差或为实现他们的目标而采取的任何次优行动。我们提出了一种在部分可观察领域中进行计划和目标识别的新颖框架------目标识别对话 D4GR,使机器人能够通过提出有关噪声传感器数据和次优人类行为的澄清问题来纠正其对人类进步的信念。我们评估了 D4GR 在厨房和街区两个模拟域上的性能。通过分层任务模型中的语言反馈和世界状态信息,我们表明,最高传感器噪声的 D4GR 框架在两个领域的目标准确度上都比 HTN 好 1。就计划准确性而言,与 HTN 相比,D4GR 在厨房领域的表现优于 HTN 4 倍,在街区领域的表现优于 HTN 2 倍。 ALWAYS ASK 预言机在目标认可度方面比我们的政策高出 3 分,在计划认可度方面比我们的政策高出 7 分。 D4GR 通过比 Oracle 基线少询问 68 个问题来实现这一点。 |
| Learning Diverse Skills for Local Navigation under Multi-constraint Optimality Authors Jin Cheng, Marin Vlastelica, Pavel Kolev, Chenhao Li, Georg Martius 尽管数据驱动控制在机器人技术中取得了许多成功的应用,但提取有意义的多样化行为仍然是一个挑战。通常,为了实现多样性,需要牺牲任务绩效。在许多场景中,任务要求被指定为多种奖励条件,每个奖励条件都需要不同的权衡。在这项工作中,我们对质量多样性权衡采取了约束优化的观点,并表明我们可以获得多样化的政策,同时对通过不同奖励定义的价值函数施加约束。与之前的工作一致,可以通过范德华力驱动的吸引排斥奖励项来实现对多样性水平的进一步控制。我们展示了我们的方法在本地导航任务中的有效性,其中四足机器人需要在有限的视野内到达目标。 |
| A 3D Mixed Reality Interface for Human-Robot Teaming Authors Jiaqi Chen, Boyang Sun, Marc Pollefeys, Hermann Blum 本文提出了一种混合现实人类机器人组队系统。它允许人类操作员实时查看机器人所在的位置,即使它们不在视线范围内。操作员还可以可视化机器人创建的环境地图,并可以轻松地将机器人发送到新的目标位置。该系统主要由测绘和控制模块组成。地图模块是一个实时多智能体视觉 SLAM 系统,它将所有机器人和混合现实设备共同定位到一个公共参考系。然后,混合现实设备中的可视化允许操作员看到叠加在真实环境上的累积 3D 地图的虚拟真人大小的表示。因此,操作员可以有效地透过墙壁看到其他房间。为了控制机器人并将它们发送到新位置,我们提出了一个拖放界面。操作员可以抓取 3D 迷你地图中的任何机器人全息图,并将其拖动到新的所需目标姿势。我们通过用户研究和现实世界的部署来验证所提出的系统。 |
| Event-Enhanced Multi-Modal Spiking Neural Network for Dynamic Obstacle Avoidance Authors Yang Wang, Bo Dong, Yuji Zhang, Yunduo Zhou, Haiyang Mei, Ziqi Wei, Xin Yang 自主避障对于移动机器人等智能代理在其环境中导航至关重要。现有最先进的方法使用深度强化学习 DRL 训练尖峰神经网络 SNN,以在复杂的未知场景中实现节能和快速的推理速度。这些方法通常假设环境是静态的,而现实世界场景中的障碍物通常是动态的。障碍物的移动增加了环境的复杂性,对现有的方法提出了巨大的挑战。在这项工作中,我们双重地实现了稳健的动态避障。首先,我们介绍神经形态视觉传感器,即事件相机,以提供与处理动态障碍物的传统激光深度数据互补的运动线索。其次,我们开发了一种基于 DRL 的事件增强型多模态尖峰参与者网络 EEM SAN,它通过无监督表示学习从运动事件数据中提取信息,并将激光和事件相机数据与可学习阈值融合。 |
| Autonomous Systems' Safety Cases for use in UK Nuclear Environments Authors Christopher R. Anderson, Louise A. Dennis 概述了为英国核电站部署自主机器人开发安全案例的过程,并介绍了结合人工智能的假设机器人的安全案例。这构成了部署的第一步,展示了现在的可能性以及工具开发的可能性。 |
| Adaptive Application Behaviour for Robot Swarms using Mixed-Criticality Authors Sven Signer University of York , Ian Gray University of York 通信是所有群体机器人应用的重要组成部分,当这种通信不可靠时,即使是简单的群体机器人行为也常常会崩溃。由于无线通信本质上会受到干扰和信号衰减,因此现实世界的群体机器人应用程序需要能够处理此类场景。本文主张应用程序层和网络层行为的更紧密集成,以便应用程序可以改变其行为以响应降级的网络。这是通过实施混合关键性系统模型来系统化的。我们将静态应用程序行为与能够改变其行为以响应混合关键性无线协议的当前关键性级别的应用程序行为进行比较。 |
| ALT-Pilot: Autonomous navigation with Language augmented Topometric maps Authors Mohammad Omama, Pranav Inani, Pranjal Paul, Sarat Chandra Yellapragada, Krishna Murthy Jatavallabhula, Sandeep Chinchali, Madhava Krishna 我们提出了一种自主导航系统,无需假设环境的高清 LiDAR 地图即可运行。我们的系统 ALT Pilot 仅依赖于公开的道路网络信息和一组稀疏且嘈杂的众包语言地标。借助车载传感器和语言增强地形图,ALT Pilot 可自动驾驶车辆前往路网上的任何目的地。我们通过利用在网络规模数据上预先训练的视觉语言模型来识别场景中的潜在地标、将视觉语言特征合并到递归贝叶斯状态估计堆栈中以生成全局路线计划以及在车辆中运行的反应式轨迹规划器和控制器来实现这一目标框架。 |
| CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity Authors Hao Shi, Chengshan Pang, Jiaming Zhang, Kailun Yang, Yuhao Wu, Huajian Ni, Yining Lin, Rainer Stiefelhagen, Kaiwei Wang 路边摄像头驱动的 3D 物体检测是智能交通系统中的一项关键任务,它可以扩展感知范围,超越以视觉为中心的车辆的限制,并增强道路安全。虽然以前的研究在仅使用深度或高度信息方面存在局限性,但我们发现深度和高度都很重要,而且它们实际上是互补的。深度特征包含精确的几何线索,而高度特征主要侧重于区分各种类别的高度间隔,本质上提供语义上下文。这一见解推动了 Complementary BEV CoBEV 的开发,这是一种新颖的端到端单目 3D 物体检测框架,它集成了深度和高度来构建强大的 BEV 表示。本质上,CoBEV 估计每个像素的深度和高度分布,并使用新提出的两级互补特征选择 CFS 模块将相机特征提升到 3D 空间中进行横向融合。还无缝集成了 BEV 特征蒸馏框架,以进一步提高融合模态 CoBEV 教师的先验知识的检测精度。我们对基于 DAIR V2X I 和 Rope3D 的路边摄像头的公共 3D 检测基准以及私有 Supremind Road 数据集进行了广泛的实验,证明 CoBEV 不仅达到了最新技术水平的准确性,而且还显着提高了以前的方法在具有挑战性的长距离场景和嘈杂的相机干扰中具有鲁棒性,并且在场景和相机参数发生剧烈变化的异源设置中大幅增强泛化能力。相机型号的车载 AP 分数在 DAIR V2X I 的简易模式上首次达到 80 分。 |
| Open Gimbal: A 3 Degrees of Freedom Open Source Sensing and Testing Platform for Nano and Micro UAVs Authors Suryansh Sharma, Tristan Dijkstra, R. Venkatesha Prasad 在不实际飞行的情况下测试微型和纳米无人机的空气动力学极具挑战性。为了解决这个问题,我们推出了 Open Gimbal,这是一个专门设计的 3 自由度平台,可满足微纳米无人机的独特要求。该平台允许不受限制的自由旋转运动,从而能够对这些无人机进行全面的实验和评估。我们的方法注重简单性和可访问性。我们开发了一种开源、可 3D 打印的机电设计,该设计具有最小的尺寸和较低的复杂性。这种设计有助于轻松复制和定制,使其可供研究人员和开发人员广泛使用。为了解决小规模传感飞行动态的挑战,我们设计了一种集成无线无电池传感器子系统。我们的创新解决方案无需复杂的接线,而是使用无线功率传输来接收传感器数据。为了验证开放式万向节的有效性,我们使用典型的纳米四旋翼飞行器彻底评估和测试其通信链路和传感性能。通过全面的测试,我们验证了开放式云台在现实场景中的可靠性和准确性。 |
| Distributionally Safe Reinforcement Learning under Model Uncertainty: A Single-Level Approach by Differentiable Convex Programming Authors Alaa Eddine Chriat, Chuangchuang Sun 对于存在巨大模型不确定性(例如分布变化)的安全关键环境,安全保证是不可妥协的,尤其是在人类参与的情况下。然而,在安全学习中纳入不确定性自然会导致双级问题,其中在较低级别上,在不确定性模糊集内评估最坏情况的安全约束。在本文中,我们提出了一种易于处理的分布式安全强化学习框架,以在 Wasserstein 指标测量的分布转移下增强安全性。为了提高可处理性,我们首先使用对偶理论将较低级别的优化从测量分布偏移的无限维概率空间转换为有限维参数空间。此外,通过可微凸规划,双层安全学习问题进一步简化为单层,具有两个连续计算高效的模块(凸二次规划以保证安全性),然后进行投影梯度上升以同时找到最坏情况的不确定性。据我们所知,这种具有安全约束的端到端可微框架是第一个解决分布式安全问题的易于处理的单级解决方案。 |
| Evaluating Heuristic Search Algorithms in Pathfinding: A Comprehensive Study on Performance Metrics and Domain Parameters Authors Aya Kherrour University of Trento , Marco Robol University of Trento , Marco Roveri University of Trento , Paolo Giorgini University of Trento 本文对自主系统和机器人技术背景下的一些启发式搜索算法进行了综合性能评估。该研究的目的是评估和比较不同搜索算法在寻路领域不同问题设置中的性能。实验让我们深入了解所评估的启发式搜索算法的行为、不同参数域大小、障碍物密度以及起始状态和目标状态之间的距离的变化。 |
| Runtime Verification for Trustworthy Computing Authors Robert Abela University of Malta , Christian Colombo University of Malta , Axel Curmi University of Malta , Mattea Fenech University of Malta , Mark Vella University of Malta , Angelo Ferrando University of Genoa 自主和机器人系统越来越受到敏感活动的信任,如果这种信任被打破,可能会产生严重后果。运行时验证技术为监控和实施适当的通信协议的理想属性提供了自然的灵感来源,为限制侵入性提供了正式的基础和方法。 |
| Safe and Robust Robot Behavior Planning via Constraint Programming Authors Jan Vermaelen, Tom Holvoet 自主系统的安全运行是一项复杂的工作,其中一个关键因素是其决策。可以使用模型检查或其他形式验证方法来形式化地分析决策逻辑。然而,现实环境的非确定性使得这些方法相当麻烦并且常常不切实际。基于约束的规划方法(例如 Tumato)已被证明能够为系统生成策略以达到既定目标并遵守安全约束,并保证构建的健全性和完整性。 |
| Chinese Abs From Machine Translation |