WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents 面向可扩展的基于语言引导的真实世界网络交互

链接：https://arxiv.org/abs/2207.01206

摘要：现有的用于在交互环境中引导语言的基准测试要么缺乏真实世界的语言元素，要么由于数据收集或反馈信号中涉及大量人类参与而难以扩展。为了弥合这一差距，我们开发了WebShop------一个模拟的电子商务网站环境，拥有118万个真实世界的产品和12,087个众包文本指令。给定一个指定产品要求的文本指令，代理需要导航多种类型的网页并发出各种操作来查找、定制和购买商品。WebShop提供了几个语言引导的挑战，包括理解组合指令、查询（重新）构建、理解和处理网页中的嘈杂文本，以及进行战略性探索。我们收集了超过1600个人类示范任务，并使用强化学习、模仿学习和预训练的图像和语言模型训练和评估了各种不同类型的代理。我们最好的模型实现了29%的任务成功率，超过了基于规则的启发式方法（9.6%），但远低于人类专家的表现（59%）。我们还分析了代理和人类的轨迹，并对各种模型组件进行了消融分析，为开发具有更强语言理解和决策能力的未来代理提供了见解。最后，我们展示了在amazon.com和ebay.com上评估时，在WebShop上训练的代理表现出非平凡的模拟到真实世界的迁移，表明WebShop在开发能够在实际网络环境中运行的实用网络代理方面具有潜在价值。

关键词：grounding language, interactive environments, WebShop, e-commerce website, real-world products, text instructions, language grounding, reinforcement learning, imitation learning, pre-trained models, task success rate, sim-to-real transfer

关键见解：

WebShop是一个模拟的电子商务网站环境，具有118万个真实世界产品和12,087个众包文本指令。
WebShop提供了多种语言基础的挑战，包括理解组合指令、查询重构、理解和处理网页中的噪声文本，以及进行战略性探索。
通过强化学习、模仿学习和预训练的图像和语言模型，我们训练和评估了各种不同类型的代理模型。
最佳模型的任务成功率为29%，优于基于规则的启发式方法（9.6%），但远低于人类专家的表现（59%）。
通过分析代理和人类的轨迹，并对各种模型组件进行消融实验，为开发具有更强语言理解和决策能力的未来代理提供了见解。
最后，我们展示了在amazon.com和ebay.com上评估时，经过WebShop训练的代理表现出非平凡的模拟到真实世界的迁移能力，这表明了WebShop在开发能够在实际网络环境中运行的实用网络代理方面的潜在价值。

经验教训：

现有的基准测试环境在语言基础方面存在一些限制，需要更多真实世界的语言元素。
人类参与数据收集或反馈信号会导致基准测试环境难以扩展。
强化学习、模仿学习和预训练模型是训练和评估代理模型的有效方法。
代理模型的性能仍远低于人类专家，需要进一步提升语言理解和决策能力。
WebShop训练的代理在真实世界的网站上表现出了一定的迁移能力，这对于开发实用的网络代理具有潜在价值。

LoRA: Low-Rank Adaptation of Large Language Models 大型语言模型的低秩自适应

摘要：自然语言处理的主导范式包括对通用领域数据进行大规模预训练，以及对特定任务或领域进行适应。随着我们预训练的模型越来越大，传统的微调方法，即重新训练所有模型参数，变得不太可行。以GPT-3 175B为例，部署许多独立的微调模型实例，每个实例都有175B个参数，非常昂贵。我们提出了低秩自适应（LoRA）方法，它冻结了预训练模型的权重，并将可训练的秩分解矩阵注入到Transformer架构的每一层中，大大减少了下游任务的可训练参数数量。对于GPT-3，相比于完全微调，LoRA可以将可训练参数数量减少10,000倍，并将计算硬件需求减少3倍。尽管LoRA具有更少的可训练参数、更高的训练吞吐量和没有额外的推理延迟，但在GPT-3和GPT-2的模型质量上表现与微调相当甚至更好。我们还对语言模型自适应中的秩缺失进行了实证研究，这为LoRA的有效性提供了启示。我们在GPT-2中发布了我们的实现，网址为https://github.com/microsoft/LoRA。

关键词：LoRA, large language models, pre-training, fine-tuning, trainable parameters, rank decomposition matrices, Transformer architecture

关键见解：

传统的大规模预训练和微调模型的方法在处理越来越大的语言模型时变得不可行。
LoRA（Low-Rank Adaptation）通过在Transformer架构的每一层中注入可训练的秩分解矩阵，冻结预训练模型权重，从而大大减少了下游任务的可训练参数数量。
在GPT-3和GPT-2上，LoRA在模型质量上表现与微调相当甚至更好，尽管它具有更少的可训练参数、更高的训练吞吐量和没有额外的推理延迟。

经验教训：

LoRA方法可以显著减少大型语言模型的可训练参数数量和计算硬件需求，同时保持模型质量。
LoRA方法在处理大规模语言模型时具有更高的训练吞吐量，可以提高训练效率。
通过对语言模型自适应中的秩缺失进行实证研究，我们对LoRA的有效性有了更深入的了解。

注意：以上总结仅基于论文摘要，具体细节和结论可能需要进一步阅读完整论文来确认。

LLM 大语言模型 & Prompt Technique 论文精读-3

WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents 面向可扩展的基于语言引导的真实世界网络交互

LoRA: Low-Rank Adaptation of Large Language Models 大型语言模型的低秩自适应