LARGE LANGUAGE MODEL AS AUTONOMOUS DECISION MAKER

本文是LLM系列文章,针对《LARGE LANGUAGE MODEL AS AUTONOMOUS DECISION MAKER》的翻译。

作为自主决策者的大语言模型

  • 摘要
  • [1 引言](#1 引言)
  • [2 前言](#2 前言)
  • [3 任务形式化](#3 任务形式化)
  • [4 方法](#4 方法)
  • [5 实验](#5 实验)
  • [6 相关工作](#6 相关工作)
  • [7 结论](#7 结论)

摘要

尽管大型语言模型(LLM)表现出令人印象深刻的语言理解和上下文学习能力,但在解决现实世界任务时,它们的决策能力仍然严重依赖于特定任务专家知识的指导。为了释放LLM作为自主决策者的潜力,本文提出了一种JUDEC赋予LLM自我判断能力的方法,使LLM能够实现自主判断和决策探索。具体来说,在JUDEC中,基于Elo的自我判断机制被设计为将Elo分数分配给决策步骤,通过两个解决方案之间的成对比较来判断其价值和效用,然后相应地引导决策搜索过程走向最优解决方案。ToolBench数据集的实验结果表明,JUDEC优于基线,在不同任务上的通过率提高了10%以上。它提供更高质量的解决方案并降低成本(ChatGPT API调用),突出了其有效性和效率。

1 引言

2 前言

3 任务形式化

4 方法

5 实验

6 相关工作

7 结论

在这项工作中,我们引入了一种新的方法JUDEC,使大型语言模型(LLM)能够在不同的现实世界任务中作为自主决策者,而不需要特定任务的专家知识。基于Elo的自我判断机制的引入增强了LLM对决策步骤的自我判断,并指导决策探索过程。在ToolBench数据集上进行的大量实验已经证实了JUDEC的有效性,它通过显著提高通过率和产生更高质量的解决方案而优于基线方法。此外,LLM API调用的减少显示了我们方法的效率提高。通过赋予LLM自主决策能力,我们的工作为其在现实世界场景中的更广泛应用铺平了道路,消除了对特定任务知识的依赖。

相关推荐
冬奇Lab35 分钟前
让 AI Agent 更可靠:Harness Engineering 与多 Agent 系统工程实践
人工智能·llm·agent
放下华子我只抽RuiKe535 分钟前
React 从入门到生产(四):自定义 Hook
前端·javascript·人工智能·深度学习·react.js·自然语言处理·前端框架
想你依然心痛36 分钟前
HarmonyOS 6(API 23)实战:基于悬浮导航、沉浸光感与HMAF的“文思智脑“——PC端AI智能体沉浸式智能写作工作台
人工智能·ar·harmonyos·ai写作
冬奇Lab37 分钟前
一天一个开源项目(第108篇):Andrej Karpathy Skills - 用一个 CLAUDE.md 文件修复 LLM 编码的四个顽疾
人工智能·开源·资讯
涛声依旧-底层原理研究所37 分钟前
残差连接与层归一化通俗易懂的详解
人工智能·python·神经网络·transformer
fantasy_arch1 小时前
pytorch人脸匹配模型
人工智能·pytorch·python
科技那些事儿1 小时前
实时洞察,视觉赋能:国内情绪识别API公司推荐及计算机视觉流派深度解析
人工智能·计算机视觉
德思特1 小时前
从 Dify 配置页理解 RAG 的重要参数
java·人工智能·llm·dify·rag
火山引擎开发者社区1 小时前
ArkClaw AI 盯盘管家 —— 从手动口令到自动推送,4 套预置定时任务模版一键启用
人工智能