计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-20

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-20
- 目录
- [1. FLARE: Faithful Logic-Aided Reasoning and Exploration](#1. FLARE: Faithful Logic-Aided Reasoning and Exploration)
- [2. A Scalable Communication Protocol for Networks of Large Language Models](#2. A Scalable Communication Protocol for Networks of Large Language Models)
- [3. OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities](#3. OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities)
- [4. Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance](#4. Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance)
- [5. PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking](#5. PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking)
- 后记

1. FLARE: Faithful Logic-Aided Reasoning and Exploration

Authors: Erik Arakelyan, Pasquale Minervini, Pat Verga, Patrick Lewis, Isabelle Augenstein

https://arxiv.org/abs/2410.11900

FLARE: 忠实的逻辑辅助推理与探索

摘要

本文介绍了一种新的解释方法FLARE（Faithful Logic-Aided Reasoning and Exploration），它通过任务分解来遍历问题空间。FLARE利用大型语言模型（LLM）规划解决方案，将查询软形式化成事实和谓词，并使用逻辑编程代码，通过定义空间内的多跳搜索来模拟代码执行。该方法允许计算推理过程相对于生成代码的忠实度，并在不依赖外部求解器的情况下分析多跳搜索的步骤。FLARE在9个不同的推理基准测试中的7个上实现了最先进的结果，并展示了模型忠实度与整体性能的正相关性。

研究背景

现代基于大型语言模型（LLMs）的问答（QA）和推理方法通常使用提示技术，如链式思考（CoT），以期生成的输出能更细致地探索和推理问题空间。然而，这些方法在生成与模型产生的中间推理链忠实的输出方面存在困难。

问题与挑战

现有的方法在生成与中间推理链忠实的输出时存在挑战。
需要一种新的方法来结合LLMs与外部符号求解器，以提高推理的忠实度。

如何解决

FLARE通过以下步骤解决上述问题：

使用LLM生成解决方案的计划。
将查询软形式化为事实和谓词，使用逻辑编程代码。
通过定义空间内的多跳搜索来模拟代码执行。

创新点

提出了一种新的解释方法FLARE，它结合了LLMs的生成能力和逻辑编程的精确性。
能够在不依赖外部求解器的情况下，计算推理过程的忠实度，并分析多跳搜索的步骤。
展示了模型忠实度与整体性能的正相关性。

算法模型

FLARE方法包括三个模块：

计划生成：LLM生成任务解释、分析和计划，以形式化查询。
代码生成：LLM生成Prolog代码，将查询形式化为事实、关系和问题空间。
模拟搜索：LLM生成问题空间遍历的轨迹，模拟程序执行。

实验效果

FLARE在9个不同的推理基准测试中的7个上实现了最先进的结果。实验表明，模型忠实度与整体性能正相关，FLARE允许精确地检测模型幻觉和不一致的推理模式。

重要数据与结论

FLARE在7个基准测试中取得了最佳性能，显示出其有效性。
模型忠实度与性能正相关，强调了推理过程中忠实度的重要性。
FLARE提供了一种新的视角，将算法形式化与软推理结合起来，以提高LLMs的推理能力。

推荐阅读指数：★★★★☆

2. A Scalable Communication Protocol for Networks of Large Language Models

Authors: Samuele Marro, Emanuele La Malfa, Jesse Wright, Guohao Li, Nigel

Shadbolt, Michael Wooldridge, Philip Torr

https://arxiv.org/abs/2410.11905

适用于大型语言模型网络的可扩展通信协议

摘要

文章介绍了一种名为Agora的通信协议元协议，它通过利用现有的通信标准，使得由大型语言模型（LLM）驱动的智能体能够高效地解决复杂问题。在Agora中，智能体通常使用标准化的例行程序进行频繁通信，使用自然语言进行罕见通信，并使用LLM编写的例程处理两者之间的所有事务。Agora巧妙地避开了智能体通信的三难困境（Agent Communication Trilemma），并能够稳健地处理接口和成员的变化，实现了前所未有的可扩展性，完全去中心化，并且最小化了人类的参与。在大型Agora网络上，观察到出现了自组织、完全自动化的协议，这些协议在没有人类干预的情况下实现了复杂目标。

研究背景

人类语言的进化主要是为了通信目的，尽管存在固有的歧义，自然语言提供了极大的多样性，并允许人类和机器合作实现他们单独无法完成的复杂目标。几十年的计算机科学文献探索了如何促进被建模为程序的智能体之间的合作。随着大型语言模型（LLM）的出现，对协作智能体网络的兴趣重新燃起。