WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents 面向可扩展的基于语言引导的真实世界网络交互
链接:https://arxiv.org/abs/2207.01206
摘要:现有的用于在交互环境中引导语言的基准测试要么缺乏真实世界的语言元素,要么由于数据收集或反馈信号中涉及大量人类参与而难以扩展。为了弥合这一差距,我们开发了WebShop------一个模拟的电子商务网站环境,拥有118万个真实世界的产品和12,087个众包文本指令。给定一个指定产品要求的文本指令,代理需要导航多种类型的网页并发出各种操作来查找、定制和购买商品。WebShop提供了几个语言引导的挑战,包括理解组合指令、查询(重新)构建、理解和处理网页中的嘈杂文本,以及进行战略性探索。我们收集了超过1600个人类示范任务,并使用强化学习、模仿学习和预训练的图像和语言模型训练和评估了各种不同类型的代理。我们最好的模型实现了29%的任务成功率,超过了基于规则的启发式方法(9.6%),但远低于人类专家的表现(59%)。我们还分析了代理和人类的轨迹,并对各种模型组件进行了消融分析,为开发具有更强语言理解和决策能力的未来代理提供了见解。最后,我们展示了在amazon.com和ebay.com上评估时,在WebShop上训练的代理表现出非平凡的模拟到真实世界的迁移,表明WebShop在开发能够在实际网络环境中运行的实用网络代理方面具有潜在价值。
关键词:grounding language, interactive environments, WebShop, e-commerce website, real-world products, text instructions, language grounding, reinforcement learning, imitation learning, pre-trained models, task success rate, sim-to-real transfer
关键见解:
- WebShop是一个模拟的电子商务网站环境,具有118万个真实世界产品和12,087个众包文本指令。
- WebShop提供了多种语言基础的挑战,包括理解组合指令、查询重构、理解和处理网页中的噪声文本,以及进行战略性探索。
- 通过强化学习、模仿学习和预训练的图像和语言模型,我们训练和评估了各种不同类型的代理模型。
- 最佳模型的任务成功率为29%,优于基于规则的启发式方法(9.6%),但远低于人类专家的表现(59%)。
- 通过分析代理和人类的轨迹,并对各种模型组件进行消融实验,为开发具有更强语言理解和决策能力的未来代理提供了见解。
- 最后,我们展示了在amazon.com和ebay.com上评估时,经过WebShop训练的代理表现出非平凡的模拟到真实世界的迁移能力,这表明了WebShop在开发能够在实际网络环境中运行的实用网络代理方面的潜在价值。
经验教训:
- 现有的基准测试环境在语言基础方面存在一些限制,需要更多真实世界的语言元素。
- 人类参与数据收集或反馈信号会导致基准测试环境难以扩展。
- 强化学习、模仿学习和预训练模型是训练和评估代理模型的有效方法。
- 代理模型的性能仍远低于人类专家,需要进一步提升语言理解和决策能力。
- WebShop训练的代理在真实世界的网站上表现出了一定的迁移能力,这对于开发实用的网络代理具有潜在价值。
相关建议:
- 进一步研究语言理解和决策能力:针对WebShop中的语言理解和决策能力的不足,可以进一步研究和改进模型,以提高任务成功率。可以探索使用更先进的强化学习算法、深度学习模型或结合图像和语言的方法来增强模型的能力。
- 改进数据收集方法:为了解决数据收集中的人力成本和困难问题,可以探索更高效的数据收集方法。例如,可以考虑使用自动化技术来生成更多的真实世界语言元素,并减少人工参与的程度。
- 深入分析模型组件:通过对模型组件进行深入分析,可以获得关于语言理解和决策能力的更多见解。可以通过消融实验等方法,研究不同模型组件对任务性能的影响,从而为未来开发更强大的语言理解和决策能力的代理提供指导。
- 探索实际应用场景:通过在实际网站(如amazon.com和ebay.com)上评估训练在WebShop上的代理模型,可以进一步验证WebShop在开发实际网络代理方面的潜在价值。可以研究如何进一步提高模型在真实环境中的泛化能力,以实现更好的实际应用效果。
- 拓展任务挑战:除了已有的任务挑战,可以考虑引入更多复杂的语言指令和操作,以提高任务的难度和多样性。可以探索如何处理更复杂的语言组合指令、更嘈杂的网页文本以及更具策略性的探索行为,从而推动语言理解和决策能力的进一步发展。
LoRA: Low-Rank Adaptation of Large Language Models 大型语言模型的低秩自适应
摘要:自然语言处理的主导范式包括对通用领域数据进行大规模预训练,以及对特定任务或领域进行适应。随着我们预训练的模型越来越大,传统的微调方法,即重新训练所有模型参数,变得不太可行。以GPT-3 175B为例,部署许多独立的微调模型实例,每个实例都有175B个参数,非常昂贵。我们提出了低秩自适应(LoRA)方法,它冻结了预训练模型的权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层中,大大减少了下游任务的可训练参数数量。对于GPT-3,相比于完全微调,LoRA可以将可训练参数数量减少10,000倍,并将计算硬件需求减少3倍。尽管LoRA具有更少的可训练参数、更高的训练吞吐量和没有额外的推理延迟,但在GPT-3和GPT-2的模型质量上表现与微调相当甚至更好。我们还对语言模型自适应中的秩缺失进行了实证研究,这为LoRA的有效性提供了启示。我们在GPT-2中发布了我们的实现,网址为https://github.com/microsoft/LoRA。
关键词:LoRA, large language models, pre-training, fine-tuning, trainable parameters, rank decomposition matrices, Transformer architecture
关键见解:
- 传统的大规模预训练和微调模型的方法在处理越来越大的语言模型时变得不可行。
- LoRA(Low-Rank Adaptation)通过在Transformer架构的每一层中注入可训练的秩分解矩阵,冻结预训练模型权重,从而大大减少了下游任务的可训练参数数量。
- 在GPT-3和GPT-2上,LoRA在模型质量上表现与微调相当甚至更好,尽管它具有更少的可训练参数、更高的训练吞吐量和没有额外的推理延迟。
经验教训:
- LoRA方法可以显著减少大型语言模型的可训练参数数量和计算硬件需求,同时保持模型质量。
- LoRA方法在处理大规模语言模型时具有更高的训练吞吐量,可以提高训练效率。
- 通过对语言模型自适应中的秩缺失进行实证研究,我们对LoRA的有效性有了更深入的了解。
注意:以上总结仅基于论文摘要,具体细节和结论可能需要进一步阅读完整论文来确认。
相关建议:
- 进一步研究和改进LoRA的性能:LoRA在GPT-3和GPT-2上表现出与fine-tuning相当甚至更好的模型质量,但仍有进一步改进的空间。可以通过实验和分析来探索不同的rank decomposition方法和参数设置,以提高LoRA在不同任务和领域上的适应性和性能。
- 探索LoRA在其他大型语言模型上的应用:LoRA的思想和方法可以尝试应用于其他大型语言模型,如BERT、RoBERTa等。通过在不同模型上的实验比较,可以进一步验证LoRA的通用性和有效性,并探索其在不同模型架构上的适应性。
- 研究LoRA在特定领域数据上的表现:本文主要关注LoRA在通用领域数据上的表现,但对于特定领域的数据,LoRA的适应性和性能如何仍需进一步研究。可以选择一些特定领域的数据集,如医疗、法律等,进行实验和评估,以验证LoRA在特定领域上的可行性和效果。
- 探索LoRA与其他模型压缩方法的结合:LoRA通过降低可训练参数的数量来减少计算硬件需求,但与其他模型压缩方法的结合可能会进一步提高性能和效率。可以尝试将LoRA与剪枝、量化等方法相结合,以进一步减少模型的存储和计算资源需求,同时保持模型的性能和质量。
- 推广和应用LoRA的开源实现:作者在GPT-2上实现了LoRA,并将其代码开源。可以进一步推广和应用这个开源实现,吸引更多的研究者和开发者使用LoRA,并在不同任务和领域上进行实验和应用,以验证和拓展LoRA的适用性和效果。
相关论文:
1\] [Initialization and Regularization of Factorized Neural Layers](https://www.semanticscholar.org/paper/5d866a10a7a9b9f784a618e9b48d03456e6282b0)
\[2\] [The Power of Scale for Parameter-Efficient Prompt Tuning](https://www.semanticscholar.org/paper/ffdbd7f0b03b85747b001b4734d5ee31b5229aa4)
\[3\] [GPT Understands, Too](https://www.semanticscholar.org/paper/128917425601a541c93c600a2f67d654512928bb)
\[4\] [WARP: Word-level Adversarial ReProgramming](https://www.semanticscholar.org/paper/5a2e45ce35fb26ab70a61b424a49f8e5b4532a8e)
\[5\] [Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning](https://www.semanticscholar.org/paper/e54ffc76d805c48660bb0fd20019ca82ac94ba0d)
\[6\] [Feature Learning in Infinite-Width Neural Networks](https://www.semanticscholar.org/paper/714e6104ea386367b97043884a43045c5c9d9508)
\[7\] [AdapterDrop: On the Efficiency of Adapters in Transformers](https://www.semanticscholar.org/paper/bdeec55f95fd6b73e3e4635459b14c7248543efb)
\[8\] [DART: Open-Domain Structured Data Record to Text Generation](https://www.semanticscholar.org/paper/6e3f8187f8fef3e11578a73f32da07d33dbf8235)
\[9\] [GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding](https://www.semanticscholar.org/paper/1882f194cb43828852cc052887671e55a80f945a)
\[10\] [When do neural networks outperform kernel methods?](https://www.semanticscholar.org/paper/00c3bfcc503e675e640cb92d71611f0e43bf43dc)
# FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets 基于对齐技能集的细粒度语言模型评估FLASK
链接: