计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13
- 目录
- [1. The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks](#1. The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks)
- [2. WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents](#2. WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents)
- [3. Agent S: An Open Agentic Framework that Uses Computers Like a Human](#3. Agent S: An Open Agentic Framework that Uses Computers Like a Human)
- [4. Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines](#4. Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines)
- [5. Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation](#5. Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation)
- 后记

1. The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks

Authors: Isaac R. Galatzer-Levy, David Munday, Jed McGiffin, Xin Liu, Danny

Karmon, Ilia Labzovsky, Rivka Moroshko, Amir Zait, Daniel McDuff

生成式人工智能的认知能力：与人类基准的比较分析

摘要：

本研究对领先的大型语言模型和视觉语言模型在韦氏成人智力量表（WAIS-IV）上的表现进行了基准测试，该量表是评估人类认知和智力能力的全面、基于人群标准化的评估工具。研究重点关注了言语理解（VCI）、工作记忆（WMI）和知觉推理（PRI）三个领域。大多数模型在存储、检索和操纵符号（如任意字母和数字序列）方面表现出色，工作记忆指数（WMI）的表现达到或超过人类99.5百分位。然而，多模态模型在知觉推理指数（PRI）上的表现普遍较差，显示出对视觉信息的解释和推理能力存在显著缺陷。

研究背景 ：

随着生成式人工智能（GenAI）的发展，人们越来越关注其在模仿人类认知功能方面的潜力。GenAI模型通过学习大量数据集中的潜在模式和结构，生成新颖的输出，这些输出常常模仿人类的创造力。然而，人类认知包括一系列专门能力，涉及信息的处理、存储、解释和生成，这些能力在听觉和视觉通道上都有所体现。

算法模型 ：

研究中使用了多种大型语言模型（LLMs）和视觉语言模型（VLMs），包括OpenAI的GPT-3.5 Turbo、Google的Gemini系列等。这些模型通过转换传统的语言和视觉刺激为基于文本的提示，并解释模型生成的文本输出作为测试项的响应。

核心创新点：

提出了一种新的方法，通过WAIS-IV对GenAI模型进行评估，以直接与人类能力进行比较。
实现了一系列方法论适应，以适应这些模型独特的输入和输出方式。
通过比较GenAI模型在不同认知领域的性能，揭示了它们在工作记忆和言语理解方面的相对优势，以及在知觉推理方面的显著弱点。

实验效果：

在言语理解指数（VCI）上，大多数模型表现在99.5百分位以上。
在工作记忆指数（WMI）上，除了Gemini Nano外，大多数模型表现在99.5百分位以上。
在知觉推理指数（PRI）上，所有多模态模型的表现都在极低水平，表明在视觉信息处理方面存在显著缺陷。

后续潜在研究方向：

探索如何通过架构改进或训练方法提升GenAI模型在知觉推理方面的能力。
研究如何更好地模拟人类的多模态认知能力，包括视觉和听觉信息的处理。
进一步研究GenAI模型在特定领域的应用，如艺术、设计、研究和通信等。

推荐阅读指数：4.5

2. WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

Authors: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing

Jiang, Chengqi Zhang

https://arxiv.org/abs/2410.07484

WALL-E：通过规则学习实现世界对齐，提升基于世界模型的LLM代理

摘要：

本研究提出了一种新的方法，通过规则学习来对齐大型语言模型（LLMs）与特定环境的动态，从而提高LLM代理在开放世界任务中的成功率和效率。研究者们开发了一个神经符号方法，通过LLMs的归纳推理和代码生成能力来学习规则，而无需梯度更新。这种方法通过比较代理探索的轨迹和世界模型预测来学习新规则或更新现有规则，从而提高预测和实际轨迹之间的一致性。

研究背景 ：

LLMs在复杂推理、生成和规划任务中表现出色，但在特定开放世界环境中作为代理部署时，其可靠性不足。主要原因是LLMs的常识推理与预训练知识与特定环境的动态之间存在差距，导致对未来状态的预测错误或违反基本规则。

算法模型 ：

研究者们提出了一个名为WALL-E的神经符号世界模型，该模型结合了预训练的LLM和从与环境的交互轨迹中学习到的一组新规则。这种方法结合了LLMs的丰富先验知识和规则的硬约束和严格保证。

核心创新点：

提出了一种无需梯度更新的神经符号方法，通过LLMs的归纳推理和代码生成能力来学习规则。
通过比较代理探索的轨迹和世界模型预测来学习新规则或更新现有规则，从而提高预测和实际轨迹之间的一致性。
通过模型预测控制（MPC）框架，优化了基于精确世界模型的LLM代理的探索和学习效率。

实验效果：

在Minecraft和ALFWorld环境中，WALL-E在成功率、重规划时间和推理所用的令牌数量上均优于现有方法。
在Minecraft中，WALL-E的成功率比基线高出15-30%，同时重规划轮数减少8-20轮，令牌使用量为60-80%。
在ALFWorld中，WALL-E在6次迭代后成功率达到95%，创下新高。

后续潜在研究方向：

探索如何将WALL-E方法应用于更广泛的环境和任务，以及如何进一步提高规则学习的效果和效率。
研究如何结合更多的环境反馈和动态调整规则，以适应环境的快速变化。
进一步研究如何减少规则学习过程中的人工干预，提高自动化程度。

推荐阅读指数：4

3. Agent S: An Open Agentic Framework that Uses Computers Like a Human

Authors: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric

Wang

https://arxiv.org/abs/2410.08164

代码： https://github.com/simular-ai/Agent-S.

Agent S：一个像人类一样使用计算机的开放智能框架

摘要：

本文介绍了Agent S，这是一个能够通过图形用户界面（GUI）与计算机进行自主交互的开放智能框架，旨在通过自动化复杂、多步骤的任务来改变人机交互。Agent S 旨在解决在自动化计算机任务中面临的三个关键挑战：获取特定领域的知识、在长期任务规划中进行规划以及处理动态、不统一的界面。为此，Agent S 引入了经验增强的分层规划，通过外部知识搜索和内部经验检索在多个层面上进行学习，从而促进高效的任务规划和子任务执行。此外，它采用了一种特定的Agent-Computer Interface（ACI），以更好地激发基于多模态大型语言模型（MLLMs）的GUI代理的推理和控制能力。在OSWorld基准测试中的评估显示，Agent S 的成功率比基线高出9.37%（相对提高了83.6%），达到了新的最高水平。全面的分析突出了各个组成部分的有效性，并为未来的改进提供了见解。此外，Agent S 在新发布的WindowsAgentArena基准测试中展示了广泛的通用性，适用于不同的操作系统。代码可在GitHub上获得。

研究背景 ：

自从鼠标被发明以来，它一直由人类控制以与计算机进行交互。但是，这种交互是否必须如此？自主图形用户界面（GUI）代理提供了解决非常具体和高度多样化的用户查询的希望------例如，为个人用户进行数据输入、调度和文档创建，以及在商业环境中简化操作------以最通用的方式：通过直接UI交互使用鼠标和键盘。此外，通过消除对持续手动交互的需求，这些代理不仅提高了效率，还提高了可访问性，使残疾人能够以新的、变革性的方式与技术进行交互。最近在多模态大型语言模型（MLLMs）方面的进展，例如GPT-4o和Claude，为开发以人为中心的交互系统（如桌面操作系统）的GUI代理奠定了基础。

算法模型 ：

Agent S框架通过经验增强的分层规划、自我监督的持续记忆更新和精确的GUI感知和行动的Agent-Computer Interface（ACI），整合了三个主要策略来解决复杂的基于GUI的操作系统控制任务。这种分层规划方法利用在线Web知识和存储在叙事记忆中的过去经验，将复杂和长期的桌面任务分解成可管理的子任务。叙事记忆包含来自过去交互的高级、抽象的任务经验，为有效的任务规划提供了上下文理解。代理在每个子任务执行过程中监控任务完成进度，并检索详细的、逐步的子任务经验，以动态完善其行动并不断提高其规划能力。

核心创新点：

经验增强的分层规划：Agent S利用在线Web知识和存储在叙事记忆中的过去经验，将复杂和长期的桌面任务分解成可管理的子任务。
叙事记忆和情景记忆：叙事记忆包含成功和失败轨迹的摘要，而情景记忆包含完整的计划，具有特定的基础行动。
Agent-Computer Interface（ACI）：ACI定义了一种交互范式，使用视觉输入和图像增强的可访问性树进行精确的元素定位，并使用语言基础的原语来生成环境转换。

实验效果 ：

在OSWorld基准测试中，Agent S在成功率上比基线模型高出9.37%，相对提高了83.6%，达到了新的最高水平。在WindowsAgentArena基准测试中，Agent S在没有任何明确适应的情况下，性能从13.3%提高到18.2%，展示了对不同操作系统的广泛通用性。

后续潜在研究方向：

考虑任务完成所需的代理步骤和墙钟时间，未来的工作可以考虑GUI控制的最短路径导航公式，并在时间和准确性的维度上评估各种代理的帕累托最优性。
将经验增强和Agent Computer Interface的思想扩展到更小的、开源的MLLMs，这些MLLMs可以被微调以弥补差距。

推荐阅读指数：4

4. Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines

Authors: Junyu Lai, Jiahe Xu, Yao Yang, Yunpeng Huang, Chun Cao, Jingwei Xu

https://arxiv.org/abs/2410.07896

执行算术：将大型语言模型微调为图灵机

摘要：

本文提出了一个可组合的算术执行框架（CAEF），使大型语言模型（LLMs）能够通过模拟图灵机来学习逐步执行计算，从而真正理解计算逻辑。此外，该框架具有高度的可扩展性，允许通过组合学习到的运算符来显著降低学习复杂运算符的难度。在评估中，CAEF在七个常见的数学运算上实现了近100%的准确率，有效地支持了涉及多达100位操作数的计算，这是GPT-4o在某些设置中明显不足的。

研究背景 ：

尽管LLMs在自然语言处理和推理任务中表现出色，但在算术领域的性能仍然不尽人意。LLMs在处理算术任务时，往往通过记忆特定的例子而不是学习底层的计算逻辑，限制了它们对新问题的泛化能力。

算法模型 ：

CAEF框架包括执行器（executor）和对齐器（aligner）两个独立组件。执行器负责执行实际的计算，通过模拟相应算术图灵机的转移函数来学习底层的计算逻辑。对齐器作为接口，将原始算术表达式（例如89×2=）转换为执行器可以直接处理的格式。执行器完成后，对齐器将执行器的输出转换回最终结果。

核心创新点：

提出了一个三步流程，每个算术运算符都由执行器和对齐器支持。
设计了一个执行器作曲器，负责复杂运算符的高级执行程序，并允许函数调用来调用其他预学习的算术运算符。
实现了七个运算符：+、−、×、÷、>、<和==，以及两个辅助运算符。

实验效果：

CAEF在所有七个运算符上都实现了高准确率，即使在操作数长达100位的情况下。
与GPT-4o相比，配备CAEF的LLM在操作数长度变化时的影响最小，有效支持了长达100位的操作数计算。

后续潜在研究方向：

探索如何将CAEF框架应用于更复杂的数学问题和计算任务。
研究如何进一步优化执行器和对齐器的性能，以提高计算效率。
考虑如何将CAEF框架与其他类型的计算模型和算法相结合，以扩展其应用范围。

推荐阅读指数：4.5

5. Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation

Authors: Tomas Bueno Momcilovic, Beat Buesser, Giulio Zizzo, Mark Purcell,

Tomas Bueno Momcilovic

https://arxiv.org/abs/2410.07962

使用本体驱动论证确保LLM对抗性鲁棒性

摘要：

尽管大型语言模型（LLMs）在各种自然和领域特定语言任务中显示出了适应性，但在确保它们的安全性、透明度和可解释性方面仍存在挑战。鉴于LLMs对对抗性攻击的敏感性，需要通过不断演变的对抗性训练和防护措施来防御LLMs。然而，管理

隐含和异构知识以持续确保鲁棒性是困难的。我们引入了一种新的方法，基于形式化论证来确保LLMs的对抗性鲁棒性。使用本体论进行形式化，我们结构化了最先进的攻击和防御，促进了人类可读的保证案例的创建，以及机器可读的表示。我们通过英语语言和代码翻译任务中的示例展示了其应用，并针对工程师、数据科学家、用户和审计员提供了理论和实践上的影响。

研究背景 ：

LLMs在自然和编程语言任务中展现出了预测、翻译和生成文本的能力。然而，它们对对抗性攻击的脆弱性，如通过恶意提示绕过防护措施或模型对齐以获得有害输出，使得它们的安全性和鲁棒性成为研究的重点。

算法模型 ：

文章提出了一种基于本体论驱动论证的方法，通过形式化攻击和防御的关系，以及变量（如攻击成功率、字符类型）的值，来构建人类可读的保证案例和机器可读的语义网络。

核心创新点：

提出了一种新的方法，使用本体论来形式化LLMs的攻击和防御知识，并构建保证案例。
通过本体论模型，允许基于人类可读的保证案例进行形式化论证，从而创建共享的关于训练、防护措施和实施的理解。
展示了如何在自然语言任务和代码翻译任务中应用这种方法，以及如何通过查询中心仓库中的参数值来进行持续推理。

实验效果 ：

文章没有提供具体的实验数据，但通过示例展示了该方法在不同任务中的应用潜力。

后续潜在研究方向：

探索如何将这种方法应用于更广泛的LLM应用领域和任务。
研究如何进一步优化本体论模型和保证案例的结构，以提高其可扩展性和自动化程度。
考虑如何将这种方法与其他类型的AI技术和方法相结合，以提高整体系统的安全性和鲁棒性。

推荐阅读指数：3.5

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞、收藏、关注和评论 )，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13