计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-20

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-20


目录

文章目录


1. FLARE: Faithful Logic-Aided Reasoning and Exploration

Authors: Erik Arakelyan, Pasquale Minervini, Pat Verga, Patrick Lewis, Isabelle Augenstein

https://arxiv.org/abs/2410.11900

FLARE: 忠实的逻辑辅助推理与探索

摘要

本文介绍了一种新的解释方法FLARE(Faithful Logic-Aided Reasoning and Exploration),它通过任务分解来遍历问题空间。FLARE利用大型语言模型(LLM)规划解决方案,将查询软形式化成事实和谓词,并使用逻辑编程代码,通过定义空间内的多跳搜索来模拟代码执行。该方法允许计算推理过程相对于生成代码的忠实度,并在不依赖外部求解器的情况下分析多跳搜索的步骤。FLARE在9个不同的推理基准测试中的7个上实现了最先进的结果,并展示了模型忠实度与整体性能的正相关性。

研究背景

现代基于大型语言模型(LLMs)的问答(QA)和推理方法通常使用提示技术,如链式思考(CoT),以期生成的输出能更细致地探索和推理问题空间。然而,这些方法在生成与模型产生的中间推理链忠实的输出方面存在困难。

问题与挑战

  • 现有的方法在生成与中间推理链忠实的输出时存在挑战。
  • 需要一种新的方法来结合LLMs与外部符号求解器,以提高推理的忠实度。

如何解决

FLARE通过以下步骤解决上述问题:

  1. 使用LLM生成解决方案的计划。
  2. 将查询软形式化为事实和谓词,使用逻辑编程代码。
  3. 通过定义空间内的多跳搜索来模拟代码执行。

创新点

  • 提出了一种新的解释方法FLARE,它结合了LLMs的生成能力和逻辑编程的精确性。
  • 能够在不依赖外部求解器的情况下,计算推理过程的忠实度,并分析多跳搜索的步骤。
  • 展示了模型忠实度与整体性能的正相关性。

算法模型

FLARE方法包括三个模块:

  1. 计划生成:LLM生成任务解释、分析和计划,以形式化查询。
  2. 代码生成:LLM生成Prolog代码,将查询形式化为事实、关系和问题空间。
  3. 模拟搜索:LLM生成问题空间遍历的轨迹,模拟程序执行。

实验效果

FLARE在9个不同的推理基准测试中的7个上实现了最先进的结果。实验表明,模型忠实度与整体性能正相关,FLARE允许精确地检测模型幻觉和不一致的推理模式。

重要数据与结论

  • FLARE在7个基准测试中取得了最佳性能,显示出其有效性。
  • 模型忠实度与性能正相关,强调了推理过程中忠实度的重要性。
  • FLARE提供了一种新的视角,将算法形式化与软推理结合起来,以提高LLMs的推理能力。

推荐阅读指数:★★★★☆

2. A Scalable Communication Protocol for Networks of Large Language Models

Authors: Samuele Marro, Emanuele La Malfa, Jesse Wright, Guohao Li, Nigel

Shadbolt, Michael Wooldridge, Philip Torr

https://arxiv.org/abs/2410.11905

适用于大型语言模型网络的可扩展通信协议

摘要

文章介绍了一种名为Agora的通信协议元协议,它通过利用现有的通信标准,使得由大型语言模型(LLM)驱动的智能体能够高效地解决复杂问题。在Agora中,智能体通常使用标准化的例行程序进行频繁通信,使用自然语言进行罕见通信,并使用LLM编写的例程处理两者之间的所有事务。Agora巧妙地避开了智能体通信的三难困境(Agent Communication Trilemma),并能够稳健地处理接口和成员的变化,实现了前所未有的可扩展性,完全去中心化,并且最小化了人类的参与。在大型Agora网络上,观察到出现了自组织、完全自动化的协议,这些协议在没有人类干预的情况下实现了复杂目标。

研究背景

人类语言的进化主要是为了通信目的,尽管存在固有的歧义,自然语言提供了极大的多样性,并允许人类和机器合作实现他们单独无法完成的复杂目标。几十年的计算机科学文献探索了如何促进被建模为程序的智能体之间的合作。随着大型语言模型(LLM)的出现,对协作智能体网络的兴趣重新燃起。

问题与挑战

LLM驱动的智能体网络面临的三个关键挑战是:

  1. LLM是异构的,不同的LLM具有不同的架构、制造商、能力和使用策略。
  2. LLM大多是通用工具,枚举和标准化它们可以执行的每个任务是不可行的。
  3. LLM是昂贵的,即使是"小型"LLM的计算足迹和推理时间也远远超过可比较的、专门的API。

如何解决

Agora通过以下方式解决这些问题:

  • 对于频繁的通信,使用传统的协议和标准、人类编写的实现。
  • 对于不太频繁的通信(或没有标准协议的通信),智能体可以使用结构化数据作为交换媒介。
  • 对于罕见的通信或例行程序意外失败的情况,智能体可以诉诸自然语言。


创新点

  • 提出了Agora,一个通信协议元协议,它通过结合自然语言和结构化协议来避开智能体通信的三难困境。
  • 实现了大型网络中智能体之间的自组织和自动化协议,无需人类干预即可实现复杂任务。
  • 展示了Agora在100个智能体网络中的可扩展性,并与仅使用自然语言的通信相比,实现了五倍的成本降低。

算法模型

Agora的核心是使用不同的通信格式来适应不同的情况。它引入了一种机器可读的方式来传输和引用协议,即协议文档(PD)。PD是通信协议的纯文本描述,是自包含的、与实现无关的,并包含了智能体支持协议所需的一切。

实验效果

在100个智能体的网络中测试了Agora的可扩展性,实现了与仅使用自然语言通信相比五倍的成本降低。实验结果表明,通过Agora,智能体可以协商、实现和使用协议,创建自组织的网络来解决复杂任务。

重要数据与结论

  • 在100个智能体的网络中,Agora相比于仅使用自然语言的通信,成本降低了五倍。
  • Agora展示了通过协商作为基础的高效、可扩展和去中心化的智能体网络的潜力。
  • 随着LLM的持续改进和它们之间的交互增加,LLM驱动的智能体网络有潜力超越单个LLM的规模限制。

推荐阅读指数:★★★★☆

3. OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities

Authors: Lichang Chen and Hexiang Hu and Mingda Zhang and Yiwen Chen and Zifeng

Wang and Yandong Li and Pranav Shyam and Tianyi Zhou and Heng Huang and

Ming-Hsuan Yang and Boqing Gong

https://arxiv.org/abs/2410.12219

Omni×R: 评估多模态语言模型在跨模态推理上的表现

摘要

文章介绍了Omni×R,这是一个评估套件,旨在测试最先进的多模态语言模型(OLMs),如GPT-4o和Gemini。这些模型整合了文本、视觉和音频等多种模态,但在评估时面临独特挑战。现有的基准测试仅限于单模态或双模态任务,忽略了模型在多模态推理方面的全面评估。Omni×R提供了两种评估变体:Omni×Rsynth(通过自动翻译文本到多种模态合成的数据集)和Omni×Rreal(由专家手动策划和注释的真实世界数据集)。Omni×R评估了OLMs在多种模态上的表现,提供了比现有基准测试更严格的跨模态推理测试平台。实验发现,所有最先进的OLMs在需要整合多模态信息以回答问题的Omni×R问题上都存在困难。进一步分析强调了推理行为的差异,并突出了多模态AI对齐的挑战。

研究背景

最近在多模态语言模型(OLMs)的进步推动了AI的边界,使得对真实世界输入的全面理解成为可能,并生成与人类通信更一致的输出。然而,评估这些复杂的OLMs提出了独特挑战。传统基准测试主要关注处理单模态或双模态的模型,未能捕捉到涉及多种模态时出现的复杂性。

问题与挑战

现有评估方法与最先进的OLMs的多模态能力之间的不匹配,留下了在评估这些模型时的重要空白。现有OLMs的一个常见缺陷是,在不同模态或模态混合呈现相同问题时表现出不一致的行为。

如何解决

为了弥补这一关键评估空白,研究者们引入了Omni×R,这是一个专门设计的评估套件,用于测试OLMs在多种模态上的推理表现。Omni×R提供了一个全面测试平台,包括复杂的模态组合,如视频+音频+文本和图像+音频+文本,提供了比现有基准测试更严格和全面的评估。

创新点

  • 提出了Omni×R,一个评估多模态语言模型跨模态推理能力的评估套件。
  • 引入了Omni×Rsynth和Omni×Rreal两个数据子集,分别用于合成和真实世界的跨模态推理评估。
  • 通过实验揭示了OLMs在处理复杂多模态输入时的性能下降,特别是在需要跨模态推理的任务上。

算法模型

Omni×R基于Omni-modality Language Models (OLMs),如GPT-4o和Gemini,这些模型整合了文本、视觉和音频等多种模态。评估套件包括:

  • Omni×Rsynth:通过Omnify!方法自动将文本翻译成多种模态(音频、图像、视频及其混合)合成的数据集。
  • Omni×Rreal:由专家手动收集和注释的真实世界数据集,用于评估自然设置中的跨模态推理。

实验效果

实验发现,所有最先进的OLMs在需要整合多模态信息以回答问题的Omni×R问题上都存在困难。通过进一步分析,研究者们强调了推理行为的差异,并突出了多模态AI对齐的挑战。

重要数据与结论

  • Omni×R是第一个定量测量多模态行为差异的基准,尤其是在需要深入跨模态推理的场景中。
  • 简单的提示策略(如Extract the information and Then Answer (ETA))可以显著提高OLMs在Omni×Rsynth上的行为一致性和最终答案的准确性。
  • 在Omni×Rreal上,由于信息在模态间自然分布并与噪声混合,OLMs无法仅依赖简单的提示策略来缓解多模态行为的不一致性,表明未来多模态语言模型需要进一步训练。

推荐阅读指数:★★★★☆

4. Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance

Authors: Yaxi Lu, Shenzhi Yang, Cheng Qian, Guirong Chen, Qinyu Luo, Yesai Wu,

Huadong Wang, Xin Cong, Zhong Zhang, Yankai Lin, Weiwen Liu, Yasheng Wang,

Zhiyuan Liu, Fangming Liu, Maosong Sun

https://arxiv.org/abs/2410.12361

代码链接: https://github.com/thunlp/ProactiveAgent

主动代理:将大型语言模型代理从被动响应转变为主动协助

摘要

本文介绍了一种新方法,用于开发能够预测并主动发起任务的主动代理,而无需明确的人类指令。我们提出了一种数据驱动的方法,通过收集现实世界中的人类活动来生成主动任务预测,然后通过人类标注者将其标记为接受或拒绝。这些标记数据用于训练一个奖励模型,该模型模拟人类判断并作为评估大型语言模型(LLM)代理主动性的自动评估器。我们开发了一个全面的数据生成管道,创建了一个多样化的数据集ProactiveBench,包含6,790个事件。最后,我们展示了使用ProactiveBench进行微调的模型可以显著激发LLM代理的主动性。实验结果表明,我们的微调模型在主动提供帮助方面达到了66.47%的F1-Score,超过了所有开源和闭源模型。

研究背景

大型语言模型(LLM)的出现显著推动了自主代理的发展。这些基于LLM的代理可以理解人类指令、制定计划、探索环境并使用工具来解决复杂任务。然而,大多数现有的LLM代理主要工作在反应模式下,需要明确的人类指令才能启动任务完成,这限制了它们在缺乏直接人类指令时提供主动协助和服务的能力。

问题与挑战

现有的LLM代理系统主要是反应性的,它们在提供服务方面处于休眠状态,直到被用户指令提示。这种模式限制了它们在没有直接人类指令的情况下提供主动协助和自主服务的能力。

如何解决

我们提出了一种新颖的数据驱动方法,通过构建ProactiveBench数据集来评估和增强代理的主动行为。我们收集了现实世界中的人类活动数据,并使用LLM驱动的gym来生成反映我们收集的原始现实世界上下文的事件。然后,我们通过迭代生成更多事件和预测,来优化代理的主动行为。

创新点

  • 提出了一种数据驱动的方法来开发能够预测用户需求并主动提出任务的主动代理。
  • 构建了ProactiveBench数据集,用于评估和改进LLM代理的主动行为。
  • 训练了一个奖励模型,该模型能够模拟人类判断并自动评估代理的主动性。
  • 通过微调模型,显著提高了代理的主动性,使其能够在没有明确指令的情况下主动提供帮助。

算法模型

我们提出了一个主动代理框架,该框架包括环境Gym、主动代理和用户代理三个组件。环境Gym用于模拟特定背景设置和示例事件中的事件。主动代理负责预测用户可能分配的任务。用户代理模拟用户对代理预测的反应。

实验效果

实验结果表明,即使最新的开源模型在有效预测主动任务方面也存在困难。例如,LLaMA-3.1-8B-Instruct模型在ProactiveBench上只达到了44.78%的F1-Score。相比之下,我们的微调模型表现出显著的改进,达到了61.74%的F1-Score。此外,我们的微调Qwen2-7B-Instruct模型达到了66.47%的F1-Score,超过了所有现有的开源和闭源LLM。


重要数据与结论

  • 微调后的Qwen2-7B-Instruct模型在ProactiveBench上达到了66.47%的F1-Score,显示出在主动提供帮助方面的有效性。
  • 研究结果强调了在创建更主动、更有效的代理系统方面的潜力,为未来人机协作的进展铺平了道路。

推荐阅读指数:★★★★☆

5. PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking

Authors: Markus J. Buehler

https://arxiv.org/abs/2410.12375


PRefLexOR:基于偏好的递归语言建模,用于探索性优化推理和代理思维

摘要

本文介绍了PRefLexOR(Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning),这是一个结合了偏好优化和强化学习(RL)概念的框架,使模型能够通过迭代推理改进自我教学,创建具有增强科学推理能力的合成智能。PRefLexOR的核心是递归方法,使模型在训练和推理阶段都参与多步推理、重新访问和完善中间步骤,最终产生最终输出。该框架的基础是多阶段训练,模型首先通过优化所偏好和非偏好响应之间的对数几率来学习与科学准确的决策路径对齐,通过一种新颖的现场数据集生成算法。对于即时训练数据生成,PRefLexOR通过生成随机文本块的问题,并利用检索增强来从整个语料库中上下文化相关细节,构建动态知识图,从而形成严格的推理链。在第二阶段,偏好优化策略通过使用拒绝采样来进一步增强模型性能,通过不断产生现场训练数据,同时掩盖推理步骤,专注于发现实现正确答案的新机制。这种混合方法模仿了RL的关键方面,模型不断受到反馈的指导以改进决策制定和推理,自适应过程使模型能够通过实时反馈和递归处理不断自我改进。该方法不使用预生成的数据集,而是训练模型实时连续适应和改进。在特殊的思维标记化中进行递归优化,引入了迭代反馈循环,模型细化其推理,类似于RL中的政策细化,实现更深层次的连贯性、一致性和适应性。通过反馈驱动的学习递归优化推理,PRefLexOR在处理复杂任务时具有显著的灵活性,学习和发展其认知能力自主地进化。PRefLexOR的递归优化类似于生物系统的适应和进化。通过在训练和/或推理期间使用反馈循环来完善推理路径,它模仿了自然的韧性和适应性,增强了其决策能力。在只有30亿参数的非常小的语言模型中实现,我们展示了即使是很小的模型也可以迭代地自我教学,以更大的深度和反思性进行推理,类似于基于RL的自我改进系统,能够解决具有优越推理深度和逻辑的开放领域问题。我们的实现简单,可以纳入任何现有的预训练LLM。我们专注于生物材料科学中的应用示例,并在从领域内到跨领域应用的各种案例研究中展示了该方法。

研究背景

大型语言模型(LLM)和许多变体不仅影响了自然语言处理(NLP)的格局,还解锁了可能最终能够推理、思考和在无与伦比的学科范围内产生洞察的科学专注模型的潜力。从通用任务到高度专业化的领域,如材料科学和工程,一个重大挑战仍然是开发能够执行以前认为远远超出机器能力范围的任务的更复杂的科学推理引擎。

问题与挑战

现有的LLM代理系统主要是反应性的,它们在提供服务方面处于休眠状态,直到被用户指令提示。这种模式限制了它们在没有直接人类指令的情况下提供主动协助和自主服务的能力。

如何解决

我们提出了一种新颖的数据驱动方法,通过构建ProactiveBench数据集来评估和增强代理的主动行为。我们收集了现实世界中的人类活动数据,并使用LLM驱动的gym来生成反映我们收集的原始现实世界上下文的事件。然后,我们通过迭代生成更多事件和预测,来优化代理的主动行为。

创新点

  • 提出了一种数据驱动的方法来开发能够预测用户需求并主动提出任务的主动代理。
  • 构建了ProactiveBench数据集,用于评估和改进LLM代理的主动行为。
  • 训练了一个奖励模型,该模型能够模拟人类判断并自动评估代理的主动性。
  • 通过微调模型,显著提高了代理的主动性,使其能够在没有明确指令的情况下提供帮助。

算法模型

我们提出了一个主动代理框架,该框架包括环境Gym、主动代理和用户代理三个组件。环境Gym用于模拟特定背景设置和示例事件中的事件。主动代理负责预测用户可能分配的任务。用户代理模拟用户对代理预测的反应。

实验效果

实验结果表明,即使最新的开源模型在有效预测主动任务方面也存在困难。例如,LLaMA-3.1-8B-Instruct模型在ProactiveBench上只达到了44.78%的F1-Score。相比之下,我们的微调模型表现出显著的改进,达到了61.74%的F1-Score。此外,我们的微调Qwen2-7B-Instruct模型达到了66.47%的F1-Score,超过了所有现有的开源和闭源LLM。

重要数据与结论

  • 微调后的Qwen2-7B-Instruct模型在ProactiveBench上达到了66.47%的F1-Score,显示出在主动提供帮助方面的有效性。
  • 研究结果强调了在创建更主动、更有效的代理系统方面的潜力,为未来人机协作的进展铺平了道路。

推荐阅读指数:★★★★☆

后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论 ),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

相关推荐
Renas_TJOvO5 分钟前
排序算法汇总
java·数据结构·算法
冬天的枫树5 分钟前
人工智能原理实验一:知识的表示与推理实验
c++·人工智能
Stardep6 分钟前
算法2—八大常用排序算法(下)
c语言·数据结构·笔记·算法·排序算法·1024程序员节
黑不溜秋的18 分钟前
C++ 模板专题 - 标签分派(Tag Dispatching)
开发语言·c++·算法
BH0425090920 分钟前
深度学习基础(2024-10-30更新到tensor相关)
人工智能·深度学习
QQ_77813297420 分钟前
关于深度学习方向学习的一些建议
人工智能·深度学习·学习
爱上语文23 分钟前
LeetCode每日一题
java·算法·leetcode
ProcedureStone34 分钟前
【算法】排序算法总结
c++·算法·排序算法
哦哦~92138 分钟前
Fluent和深度学习算法驱动的流体力学计算与应用
人工智能·深度学习·学习·算法