摘要

尽管大型语言模型（LLM）表现出令人印象深刻的语言理解和上下文学习能力，但在解决现实世界任务时，它们的决策能力仍然严重依赖于特定任务专家知识的指导。为了释放LLM作为自主决策者的潜力，本文提出了一种JUDEC赋予LLM自我判断能力的方法，使LLM能够实现自主判断和决策探索。具体来说，在JUDEC中，基于Elo的自我判断机制被设计为将Elo分数分配给决策步骤，通过两个解决方案之间的成对比较来判断其价值和效用，然后相应地引导决策搜索过程走向最优解决方案。ToolBench数据集的实验结果表明，JUDEC优于基线，在不同任务上的通过率提高了10%以上。它提供更高质量的解决方案并降低成本（ChatGPT API调用），突出了其有效性和效率。

1 引言

2 前言

3 任务形式化

4 方法

5 实验

6 相关工作

7 结论

在这项工作中，我们引入了一种新的方法JUDEC，使大型语言模型（LLM）能够在不同的现实世界任务中作为自主决策者，而不需要特定任务的专家知识。基于Elo的自我判断机制的引入增强了LLM对决策步骤的自我判断，并指导决策探索过程。在ToolBench数据集上进行的大量实验已经证实了JUDEC的有效性，它通过显著提高通过率和产生更高质量的解决方案而优于基线方法。此外，LLM API调用的减少显示了我们方法的效率提高。通过赋予LLM自主决策能力，我们的工作为其在现实世界场景中的更广泛应用铺平了道路，消除了对特定任务知识的依赖。