【AI视野·今日Robot 机器人论文速览 第六十三期】Thu, 26 Oct 2023

AI视野·今日CS.Robotics 机器人学论文速览

Fri, 27 Oct 2023
Totally 27 papers
👉上期速览更多精彩请移步主页

Daily Robotics Papers

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 6-DoF Stability Field via Diffusion Models Authors Takuma Yoneda, Tianchong Jiang, Gregory Shakhnarovich, Matthew R. Walter 机器人操纵的核心能力是推理在杂乱的环境中将物体稳定地放置在何处以及如何放置。传统上,机器人依赖于特定于对象的手工启发式方法来执行此类推理,除了少量对象实例和对象交互模式外,其通用性有限。最近的方法改为学习物理交互的概念,即运动预测,但需要以标记对象信息的形式进行监督,或者以高样本复杂性为代价,并且不会直接推理稳定性或对象放置。我们提出了 6 DoFusion,这是一种生成模型,能够生成对象的 3D 姿势,从而生成给定场景的稳定配置。 6 DoFusion 的底层是一个扩散模型,它逐步细化随机初始化的 SE 3 姿势,以根据稳定姿势上学习的、上下文相关的分布生成样本。 |
| Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models Authors Tsun Hsuan Wang, Alaa Maalouf, Wei Xiao, Yutong Ban, Alexander Amini, Guy Rosman, Sertac Karaman, Daniela Rus 随着自动驾驶技术的成熟,端到端方法已成为一种领先策略,有望通过深度学习实现从感知到控制的无缝集成。然而,现有系统面临着意外的开放环境和黑匣子模型的复杂性等挑战。与此同时,深度学习的发展引入了更大的多模态基础模型,提供了多模态的视觉和文本理解。在本文中,我们利用这些多模态基础模型来增强自动驾驶系统的鲁棒性和适应性,从而实现分布式、端到端、多模态和更可解释的自主性。具体来说,我们提出了一种应用端到端开放集任何环境场景自动驾驶的方法,该方法能够根据可通过图像和文本查询的表示提供驾驶决策。为此,我们引入了一种从转换器中提取细微的空间像素块对齐特征的方法,以实现空间和语义特征的封装。我们的方法 i 在不同的测试中展示了无与伦比的结果,同时在分布之外的情况下实现了显着更高的鲁棒性,并且 ii 允许通过文本合并潜在空间模拟,以便通过文本和策略调试改进训练数据增强。 |
| Grow Your Limits: Continuous Improvement with Real-World RL for Robotic Locomotion Authors Laura Smith, Yunhao Cao, Sergey Levine 深度强化学习 RL 可以使机器人自主获得复杂的行为,例如腿式运动。然而,现实世界中的强化学习由于效率、安全性和整体训练稳定性方面的限制而变得复杂,限制了其实际应用。我们提出了 APRL,一个策略正则化框架,可以在训练过程中调节机器人的探索,在灵活的改进潜力和集中、高效的探索之间取得平衡。 APRL 使四足机器人能够在几分钟内有效地学会完全在现实世界中行走,并通过更多的训练继续改进之前的工作性能饱和。 |
| Radar-Only Off-Road Local Navigation Authors Timothy Overbye, Srikanth Saripalli 由于其准确性和高分辨率,越野机器人传统上利用激光雷达进行本地导航。然而,激光雷达的局限性,例如在恶劣环境条件下性能下降和范围有限,促使人们探索替代传感技术。本文研究了雷达在越野本地导航方面的潜力,因为它具有距离较远以及穿透灰尘和浅植被的能力等优点。我们采用现有的基于激光雷达的雷达方法,并评估其在各种越野条件下与激光雷达的性能比较。我们证明,雷达可以提供比激光雷达显着的距离优势,同时保持地平面估计和障碍物检测的准确性。 |
| MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations Authors Ajay Mandlekar, Soroush Nasiriany, Bowen Wen, Iretiayo Akinola, Yashraj Narang, Linxi Fan, Yuke Zhu, Dieter Fox 事实证明,从大量人类演示中进行的模仿学习是构建有能力的机器人代理的有效范例。然而,收集演示的成本非常高且耗时。我们介绍了 MimicGen,这是一个系统,可以通过使数据适应新的环境,从少量的人类演示中自动合成大规模、丰富的数据集。我们使用 MimicGen 从 200 个人类演示中生成了跨 18 个任务的超过 50K 个演示,其中包含不同的场景配置、对象实例和机器人手臂。我们表明,机器人代理可以通过模仿学习在生成的数据集上进行有效训练,以在广泛的初始状态分布中在长期和高精度任务(例如多部件组装和咖啡准备)中实现强大的性能。我们进一步证明,MimicGen 数据的有效性和实用性优于收集额外的人类演示,这使其成为扩大机器人学习规模的强大且经济的方法。 |
| A Fabric-based Pneumatic Actuator for the Infant Elbow: Design and Comparative Kinematic Analysis Authors Ipsita Sahin, Mehrnoosh Ayazi, Caio Mucchiani, Jared Dube, Konstantinos Karydis, Elena Kokkoni 本文重点介绍基于织物的波纹管式软气动执行器的设计和系统评估,以帮助肘部弯曲和伸展,旨在用于婴儿可穿戴设备。最初,通过仿真探索了一系列执行器变体的性能。根据存在的细胞的形状、数量和大小对执行器变体进行参数化。随后,制造了从模拟中识别出的可行执行器变体,并在基于婴儿身体人体测量学的物理模型上进行了进一步测试。这些变体的性能是根据运动学分析使用运动平滑度、路径长度和肘关节角度等指标进行评估的。还获得了致动器的内部压力。 |
| Interactive Robot Learning from Verbal Correction Authors Huihan Liu, Alice Chen, Yuke Zhu, Adith Swaminathan, Andrey Kolobov, Ching An Cheng 当我们将机器人设计为在家庭等非结构化环境中运行时,部署后学习和改进行为的能力对于机器人来说变得越来越重要。在这项工作中,我们设计了一个基于大型语言模型 LLM OLAF 的新学习系统,该系统允许日常用户在机器人犯错时使用口头纠正来教导机器人,例如,通过说停止你正在做的事情。你应该靠近杯子。 OLAF 的一个关键特征是它能够根据语言反馈更新机器人的视觉运动神经策略,以避免将来重复错误。这与现有的基于法学硕士的机器人系统形成鲜明对比,后者仅遵循口头命令或纠正,但不从中学习。我们在实验中展示了我们设计的有效性,在实验中,用户教机器人在模拟和物理硬件上执行长期操作任务,策略成功率平均提高了 20.0。 |
| Model-Based Runtime Monitoring with Interactive Imitation Learning Authors Huihan Liu, Shivin Dass, Roberto Mart n Mart n, Yuke Zhu 机器人学习方法最近取得了长足的进步,但泛化性和鲁棒性挑战仍然阻碍了它们的广泛部署。未能检测和解决潜在故障导致最先进的学习系统无法为高风险任务做好准备。交互式模仿学习的最新进展为人类机器人团队提供了一个有前途的框架,使机器人能够安全运行并在长期部署中不断提高其性能。尽管如此,现有方法通常需要持续的人类监督和先发制人的反馈,限制了它们在现实领域的实用性。这项工作旨在赋予机器人在任务执行过程中监控和检测错误的能力。我们引入了一种基于模型的运行时监控算法,该算法从部署数据中学习来检测系统异常并预测故障。与无法预见未来故障或需要故障经验进行训练的先前工作不同,我们的方法学习潜在空间动力学模型和故障分类器,使我们的方法能够模拟未来的行动结果并预先检测分布异常和高风险状态。我们在交互式模仿学习框架内训练我们的方法,该框架根据人类机器人团队使用值得信赖的部署收集的经验不断更新模型。因此,我们的方法减少了随着时间的推移所需的人力工作量,同时确保可靠的任务执行。我们的方法在系统级和单元测试指标上都优于基线,在模拟和物理硬件上的成功率分别高出 23 和 40。 |
| Using Buckingham's π Theorem for Multi-System Learning Transfer: a Case-study with 3 Vehicles Sharing a Database Authors William Therrien, Olivier Lecompte, Alexandre Girard 用于规划和控制的学习方案受到收集大量实验数据的困难或必须依赖高保真度模拟的限制。本文探讨了所提出的学习方案的潜力,该方案利用基于白金汉 pi 定理的无量纲数来提高数据效率并促进相似系统之间的知识共享。使用汽车机器人的案例研究在模拟和实验数据上比较了传统和无量纲学习模型,以验证新的无量纲学习方法的好处。 |
| Test Bench Study on Attitude Estimation in Ground Effect Region Based on Motor Current for In-Flight Inductive Power Transfer of Drones Authors Kota Fujimoto, Sakahisa Nagai, Nguyen Binh Minh, Hiroshi Fujimoto 为了克服无人机飞行时间短的问题,飞行中感应电能传输的研究已被认为是一个重要的解决方案。因此,准确估计和控制靠近充电表面运行的无人机的姿态非常重要。为此,本文提出一种仅基于电机电流的姿态估计方法,用于地效区精密飞行控制。估计模型是根据以恒定转速旋转时的电机方程推导出来的。所提出的方法在仿真和实验中得到了验证。它可以同时估计高度和俯仰角,精度分别为 0.30 hspace 0.5mm m 和 0.04 rad。 |
| EqDrive: Efficient Equivariant Motion Forecasting with Multi-Modality for Autonomous Driving Authors Yuping Wang, Jier Chen 预测自动驾驶中的车辆运动需要深入了解代理交互以及在欧几里德几何变换下保持运动等方差。传统模型通常缺乏处理自动驾驶车辆固有的复杂动态以及场景中代理之间的交互关系所需的复杂性。结果,这些模型的模型容量较低,从而导致较高的预测误差和较低的训练效率。在我们的研究中,我们采用了 EqMotion(一种领先的等变粒子)和人类预测模型,该模型也考虑了不变的代理交互,用于多代理车辆运动预测的任务。此外,我们使用多模态预测机制以概率方式考虑多个可能的未来路径。 |
| CuRobo: Parallelized Collision-Free Minimum-Jerk Robot Motion Generation Authors Balakumar Sundaralingam, Siva Kumar Sastry Hari, Adam Fishman, Caelan Garrett, Karl Van Wyk, Valts Blukis, Alexander Millane, Helen Oleynikova, Ankur Handa, Fabio Ramos, Nathan Ratliff, Dieter Fox 本文通过将其表述为全局运动优化问题来探讨机械臂的无碰撞运动生成问题。我们开发了一种并行优化技术来解决这个问题,并在大规模并行 GPU 上展示了其有效性。我们证明,将简单的优化技术与许多并行种子相结合,可以在平均 50 毫秒内解决困难的运动生成问题,比最先进的 SOTA 轨迹优化方法快 60 倍。我们通过将 L BFGS 步长方向估计与新颖的并行噪声线搜索方案和基于粒子的优化求解器相结合来实现 SOTA 性能。为了进一步帮助轨迹优化,我们开发了一个并行几何规划器,可以在 20 毫秒内进行规划,还引入了一个可以解决超过 7000 个查询的无碰撞 IK 解算器。我们将我们的贡献打包到最先进的 GPU 加速运动生成库 CuRobo 中,并将其发布以丰富机器人社区。 |
| Lightweight High-Speed and High-Force Gripper for Assembly Authors Toshihiro Nishimura, Takeshi Takaki, Yosuke Suzuki, Tokuo Tsuji, Tetsuyou Watanabe 本文提出了一种新型工业机器人夹具,其抓取速度最大为1396 mm·s,抓取尖端力最大为80 N,运动范围大,轻量化设计为0.3 kg。为了实现这些功能,快速返回机构的高速部分和负载敏感无级变速机构安装在夹具中。夹具还配备有自动定心功能。高抓取速度和自定心功能提高了机器人操作的循环时间。此外,高尖端力有利于稳定地抓取和组装重物。而且,抓手的设计减少了抓手占机械手有效载荷的比例,从而增加了可抓取物体的重量。通过运动学和静态分析以及实验评估来验证夹具性能。 |
| Single-Motor Robotic Gripper With Three Functional Modes for Grasping in Confined Spaces Authors Toshihiro Nishimura, Tetsuyou Watanabe 这项研究提出了一种由单电机驱动的新型机器人夹具。主要任务是拾取密闭空间内的物体。为此,开发的夹具具有抓取、手指弯曲和拉入三种操作模式。使用这三种模式,所开发的夹具可以旋转和平移所抓取的物体,即可以进行手动操作。这种手动操作对于在极其狭窄的空间(例如架子上的盒子内部)进行抓取非常有效,以避免抓取的物体与障碍物之间的干扰。为了使用单个电机实现三种模式,所开发的夹具配备了两个新颖的自运动切换机构。当所产生的运动被阻止时,这些机构会自动切换其运动。分析了用于实现所需行为的机制和控制方法。此外,实验证明了分析和方法的有效性。 |
| Optimal Robotic Assembly Sequence Planning: A Sequential Decision-Making Approach Authors Kartik Nagpal, Negar Mehr 最佳机器人装配规划问题具有挑战性,因为必须在指数级数量的大量可能计划中找到最佳解决方案,同时满足一系列约束条件。传统上,机器人装配规划问题是使用启发式方法解决的,但这些方法特定于给定的目标结构或问题参数集。在本文中,我们提出了一种新的机器人装配规划方法,将装配排序视为一个顺序决策问题,使我们能够利用远远优于现有技术的方法。我们将问题表述为马尔可夫决策过程 MDP,并利用动态规划 DP 来找到适合中等大小限制的最佳装配策略。我们进一步扩展我们的框架,以利用装配规划的确定性本质,并引入一类最优图探索装配规划器 GEAP。对于较大的结构,我们展示了强化学习 RL 如何使我们能够学习生成高奖励组装序列的策略。我们评估了我们在各种机器人组装问题上的方法,例如哈勃太空望远镜、国际空间站和詹姆斯·韦伯太空望远镜的组装。我们进一步展示了我们的 DP、GEAP 和 RL 实现如何能够在各种不同的目标函数下找到最佳解决方案,以及我们的公式如何使我们能够将优先约束转化为分支修剪,从而进一步提高性能。 |
| Aplicacion de Robots Humanoides como Guias Interactivos en Museos: Una Simulacion con el Robot NAO Authors Hiago Sodre, Pablo Moraes, Monica Rodriguez, Victor Castelli, Pamela Barboza, Martin Mattos, Guillermo Vivas, Bruna de Vargas, Tobias D rnbach, Ricardo Grando 本文提出了一个应用程序,评估人形机器人作为艺术博物馆互动指南的可行性。该应用程序需要对 NAO 机器人和聊天机器人进行编程,以在模拟博物馆环境中提供有关艺术品的信息。在这个受控场景中,学习员工与机器人和聊天机器人进行交互。结果是熟练地参与交互,以及机器人和聊天机器人传达艺术品基本细节的有效性。您会看到学生和机器人之间自然流畅的互动。这表明,在博物馆中增加人形机器人可能会为游客提供更好的体验,但也需要继续做更多的事情来优化交互质量。 |
| Diseno y Desarrollo de Prototipos Roboticos para Competencias de Futbol utilizando Motores Dynamixel Authors Pablo Moraes, Hiago Sodre, Monica Rodriguez, Andre Kelbouscas, Jean Schuster, Cristiano Schuster, Ricardo Grando 本文介绍了使用 Dynamixel 电机进行机器人足球比赛的机器人原型的设计和开发。尽管原型机并非针对世界级比赛,但它们代表了运动机器人发展的重要一步。选择了 XL430 W250 Dynamixel 电机,并使用 OpenCR 和 Raspberry Pi 3 等控制板实现电子电路。引入了一个关键组件,即升压板,该升压板可为电容器充电,通过 Arduino Nano 控制的电磁体对球产生强大的踢球力。原型的编程和协调是使用ROS环境机器人操作系统进行的,该系统可以有效集成运动和通信。尽管原型机并未针对全球比赛进行优化,但它们经过了广泛的测试,评估了它们的速度和机动性,以及 GRSim 模拟器中的足球战术。 |
| Toward the use of proxies for efficient learning manipulation and locomotion strategies on soft robots Authors Etienne M nager, Quentin Peyron, Christian Duriez 软机器人自然被设计为与环境进行安全交互,例如运动和操纵。在文献中,现在有许多通常受生物启发的概念来提出新的运动或抓取模式。然而,仍然缺乏用于实现这些任务的运动规划(如刚性机器人)的方法。困难之一来自于这些机器人的建模,这是非常不同的,因为它是基于可变形体的力学。这些模型的维度通常非常大,使得学习和优化方法的成本非常高。在本文中,我们提出了一种代理方法,就像人形机器人一样。该代理是机器人的简化模型,可以实现运动策略的节俭学习。然后将该策略转移到完整的模型中以获得相应的驱动输入。 |
| TinyMPC: Model-Predictive Control on Resource-Constrained Microcontrollers Authors Anoushka Alavilli, Khai Nguyen, Sam Schoedel, Brian Plancher, Zachary Manchester 模型预测控制 MPC 是一种强大的工具,用于控制受复杂约束的高动态机器人系统。然而,MPC 的计算要求很高,并且在小型、资源受限的机器人平台上实施通常不切实际。我们推出 TinyMPC,这是一种高速 MPC 求解器,具有低内存占用,针对小型机器人上常见的微控制器。我们的方法基于乘子 ADMM 的交替方向方法,并利用 MPC 问题的结构来提高效率。 |
| The Teenager's Problem: Efficient Garment Decluttering With Grasp Optimization Authors Aviv Adler 1 , Ayah Ahmad 1 , Shengyin Wang 2 , Wisdom C. Agboh 1 and 2 , Edith Llontop 1 , Tianshuang Qiu 1 , Jeffrey Ichnowski 3 , Mehmet Dogar 2 , Thomas Kollar 4 , Richard Cheng 4 , Ken Goldberg 1 1 AUTOLab at the University of California, Berkeley, 2 University of Leeds, 3 Carnegie Mellon University, 4 Toyota Research Institute 本文解决了从平面上有效去除散落衣服的青少年问题。由于抓取和运输单件衣服的效率非常低,我们提出了分析策略,以使用高架摄像机选择多件衣服的抓取位置。两类方法被认为是基于深度的,它使用开销深度数据来找到有效的抓取,以及基于分段的,它在 RGB 开销图像上使用分割,而不需要任何深度数据。抓取效率是通过每次传输的对象数来衡量的,它表示平均数量每次移至洗衣篮的物品数量。实验表明,基于深度和分段的方法很容易将每个传输 OpT 的对象数减少 20,此外,这些方法相互补充,结合混合方法可产生 34 的改进。 |
| Exploring Behavior Discovery Methods for Heterogeneous Swarms of Limited-Capability Robots Authors Connor Mattson, Jeremy C. Clark, Daniel S. Brown 我们研究的问题是确定在功能有限的功能异构机器人群中可能出现的紧急行为。先前的工作考虑了对同质群体的行为搜索,并提出在手动指定或学习的行为空间上使用新颖性搜索,然后进行聚类以将紧急行为的分类返回给用户。在本文中,我们试图更好地理解新颖性搜索的作用以及使用聚类发现新颖的突发行为的功效。通过大量的实验和消融,我们分析了表征、进化搜索和各种聚类方法在异质群体中搜索新行为时的效果。我们的结果表明,先前的方法无法发现许多有趣的行为,并且迭代的人类循环发现过程比随机搜索、群体化学和自动行为发现发现了更多的行为。我们的实验综合发现揭示了 23 种突发行为,其中 18 种是新发现。据我们所知,这些是异构计算自由代理群的第一个已知的紧急行为。 |
| MimicTouch: Learning Human's Control Strategy with Multi-Modal Tactile Feedback Authors Kelin Yu, Yunhai Han, Matthew Zhu, Ye Zhao 在机器人和人工智能中,触觉处理的集成变得越来越关键,特别是在学习执行对齐和插入等复杂任务时。然而,现有的专注于插入任务的触觉方法的工作主要依赖于机器人遥操作数据和强化学习,而没有利用触觉反馈引导的人类控制策略提供的丰富见解。为了利用人类的感觉,与向人类学习相关的方法主要利用视觉反馈,常常忽视人类固有地用来完成复杂操作的宝贵的触觉反馈。为了解决这一差距,我们引入了 MimicTouch,这是一种模仿人类触觉引导控制策略的新颖框架。在此框架中,我们最初从人类演示者收集多模态触觉数据集,并结合人类触觉引导控制策略来完成任务。后续步骤包括使用多模态传感器数据和重新定位的人体运动通过模仿学习来指导机器人。为了进一步缩小人类和机器人之间的体现差距,我们在物理机器人上采用了在线残差强化学习。通过全面的实验,我们验证了 MimicTouch 将通过模仿学习学到的潜在策略从人类转移到机器人的安全性。 |
| Navigating to Success in Multi-Modal Human-Robot Collaboration: Analysis and Corpus Release Authors Stephanie M. Lukin, Kimberly A. Pollard, Claire Bonial, Taylor Hudson, Ron Arstein, Clare Voss, David Traum 人类引导的机器人探索是一种在偏远地区收集信息的有用方法,特别是那些对于人类来说风险太大、不适宜居住或无法到达的地区。保持远程合作伙伴之间的共同点是一项挑战,但可以通过多模式通信来促进这一挑战。在本文中,我们探讨了参与者如何在机器人伙伴的帮助下利用多种方式来调查远程位置。参与者发出自然语言语音指令,并从机器人接收基于文本的反馈、连续的 2D 激光雷达测绘以及根据要求提供的静态照片。我们注意到在使用模式方面采用了不同的策略,并假设这些差异可能与几个探索子任务的成功相关。我们发现,请求照片可能特别改善了一些关键实体门口的识别和计数,并且这种策略并没有妨碍整体区域探索的数量。未来对更大样本的研究可能会揭示更细致的照片和对话策略的影响,这可以为机器人代理的训练提供信息。 |
| Dialogue-based generation of self-driving simulation scenarios using Large Language Models Authors Antonio Valerio Miceli Barone, Alex Lascarides, Craig Innes 仿真是开发和评估自动驾驶汽车控制器的宝贵工具。当前的模拟框架是由高度专业的领域特定语言驱动的,因此自然语言界面将极大地提高可用性。但简洁的英语话语与捕获用户意图的可执行代码之间通常存在差距,其中包括用户所做的默认假设。在本文中,我们描述了一个通过支持扩展的多模式交互来解决此问题的系统,用户可以根据迄今为止从其话语生成的模拟来跟进先前的指令,进行改进或修订。 |
| Graphical Object-Centric Actor-Critic Authors Leonid Ugadiarov, Aleksandr I. Panov 最近,无监督的以对象为中心的表示学习问题及其在下游任务中的应用取得了重大进展。最新的工作支持这样的论点:在基于图像的以对象为中心的强化学习任务中采用解缠结的对象表示可以促进策略学习。我们提出了一种新颖的以对象为中心的强化学习算法,结合了演员批评家和基于模型的方法来有效地利用这些表示。在我们的方法中,我们使用变压器编码器来提取对象表示和图形神经网络来近似环境的动态。所提出的方法填补了开发有效的以对象为中心的世界模型的研究空白,该模型用于强化学习设置,可用于具有离散或连续动作空间的环境。 |
| Isometric Motion Manifold Primitives Authors Yonghyeon Lee 对于给定的任务,运动流形原始 MMP 会生成连续的轨迹流形,每个轨迹都可以成功完成该任务。它由参数化流形和潜在坐标空间中的概率密度的解码器函数组成。在本文中,我们首先表明,由于潜在空间中的几何失真,MMP 性能会显着下降,我们的意思是类似的运动不在潜在空间中附近。然后,我们提出等距运动流形基元 IMMP,其潜在坐标空间保留了流形的几何形状。为此,我们为运动空间(即参数曲线空间)制定并使用黎曼度量,我们将其称为 CurveGeom 黎曼度量。平面避障运动和推动操纵任务的实验表明,IMMP 显着优于现有的 MMP 方法。 |
| Conditionally Combining Robot Skills using Large Language Models Authors K.R. Zentner, Ryan Julian, Brian Ichter, Gaurav S. Sukhatme 本文结合了两个贡献。首先,我们介绍 Meta World 基准的扩展,我们称之为 Language World,它允许大型语言模型使用半结构化自然语言查询和使用自然语言描述的脚本技能在模拟机器人环境中运行。通过使用与 Meta World 相同的任务集,可以轻松地将 Language World 结果与 Meta World 结果进行比较,从而可以对使用大型语言模型 LLM 的最新方法与使用深度强化学习的方法进行比较。其次,我们引入了一种称为计划条件行为克隆 PCBC 的方法,该方法允许使用端到端演示来微调高级计划的行为。使用 Language World,我们证明 PCBC 能够在各种少数镜头方案中实现强大的性能,通常只需一次演示即可实现任务泛化。 |
| Chinese Abs From Machine Translation |

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

相关推荐
ZHOU_WUYI2 小时前
3.langchain中的prompt模板 (few shot examples in chat models)
人工智能·langchain·prompt
如若1232 小时前
主要用于图像的颜色提取、替换以及区域修改
人工智能·opencv·计算机视觉
老艾的AI世界3 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
DK221513 小时前
机器学习系列----关联分析
人工智能·机器学习
Robot2513 小时前
Figure 02迎重大升级!!人形机器人独角兽[Figure AI]商业化加速
人工智能·机器人·微信公众平台
浊酒南街4 小时前
Statsmodels之OLS回归
人工智能·数据挖掘·回归
畅联云平台4 小时前
美畅物联丨智能分析,安全管控:视频汇聚平台助力智慧工地建设
人工智能·物联网
加密新世界4 小时前
优化 Solana 程序
人工智能·算法·计算机视觉
hunteritself4 小时前
ChatGPT高级语音模式正在向Web网页端推出!
人工智能·gpt·chatgpt·openai·语音识别
Che_Che_5 小时前
Cross-Inlining Binary Function Similarity Detection
人工智能·网络安全·gnn·二进制相似度检测