计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-12
1. Autoregressive Large Language Models are Computationally Universal
D Schuurmans, H Dai, F Zanini - arXiv preprint arXiv:2410.03170, 2024
https://arxiv.org/pdf/2410.03170
自回归大型语言模型是计算通用的
摘要:
本文展示了基于变换器的语言模型的自回归解码能够实现通用计算,无需外部干预或修改模型权重。研究者通过考虑语言模型如何处理任意长输入的有界上下文来证明这一结果。他们提出了一种自回归解码的泛化,其中在处理每个连续的上下文后,发出的标记被附加到序列末尾。通过这种方式,研究者证明了一个通用图灵机可以通过一个具有2027个产生规则的Lag系统来模拟,并且现有的大型语言模型可以在确定性(贪婪)解码下模拟这种行为。
研究背景:
随着大型语言模型的出现,人们开始质疑它们相对于经典计算模型的计算能力。先前的工作已经研究了大型语言模型的计算能力,例如通过考虑变换器架构在表示电路方面的表达能力。本文考虑了一个更一般的问题,即大型语言模型是否能够在应用无界链思考时支持通用计算。
算法模型:
研究者提出了一种自回归解码的泛化,其中在处理每个连续的上下文后,发出的标记被附加到序列末尾。他们还介绍了Lag系统,这是一种简单的计算模型,由一组规则组成,每个规则将输入模式映射到输出。
核心创新点:
- 提出了一种自回归解码的泛化,允许处理任意长的输入和输出序列。
- 证明了一个通用图灵机可以通过一个具有2027个产生规则的Lag系统来模拟。
- 开发了一种特定的系统提示,可以驱动大型语言模型gemini-1.5-pro-001在贪婪解码下正确应用每一条2027规则。
实验效果:
实验表明,通过扩展自回归(贪婪)解码的gemini-1.5-pro-001能够精确模拟任何输入上的U15,2的执行,因此它是一个通用计算机。
后续潜在研究方向:
- 探索其他类型的语言模型是否也能实现通用计算。
- 研究如何进一步优化提示设计,以提高模型的计算效率。
- 考虑如何将这种计算能力应用于实际问题,例如自然语言处理以外的领域。
推荐阅读指数: ★★★★★
2. Neuron-Level Sequential Editing for Large Language Models
H Jiang, J Fang, T Zhang, A Zhang, R Wang, T Liang... - arXiv preprint arXiv ..., 2024
https://arxiv.org/pdf/2410.04045
大型语言模型的神经元级序列编辑
摘要:
本文探索了大型语言模型(LLMs)中的序列模型编辑,这是一个涉及通过多轮编辑持续修改LLMs内部知识的关键任务。现有模型编辑方法通常关注单轮编辑,并且在序列模型编辑中面临显著挑战,尤其是模型遗忘和失败问题。为了解决这些挑战,研究者介绍了一种新的模型编辑方法,即神经元级序列编辑(NSE),它通过优化目标层的隐藏状态来防止模型失败,并迭代选择多层中的神经元进行编辑,以减轻模型遗忘。
研究背景:
随着现实世界知识不断演变,这些模型中的信息可能变得过时或错误。重新训练LLMs以纳入新信息通常成本过高。因此,近年来出现了许多专注于修改特定知识的模型编辑方法。
算法模型:
NSE方法通过优化目标层的隐藏状态来防止模型失败,并迭代选择多层中的神经元进行编辑,以减轻模型遗忘。研究者还引入了迭代多层编辑来简化神经元选择过程,使NSE能够在单次编辑中有效进行大规模知识更新。
核心创新点:
- 提出了一种新的模型编辑方法NSE,它使用模型的原始权重来优化隐藏状态,有效减轻了先前编辑累积变化的影响。
- 通过选择多层中具有高激活值的神经元进行编辑,以减轻模型遗忘。
- 引入了迭代多层编辑来简化神经元选择过程。
实验效果:
通过在GPT2-XL、GPT-J和Llama3模型上进行的实验,NSE在五个常用指标(如特异性和一致性)方面显著优于当前的模型编辑方法。
后续潜在研究方向:
- 探索更有效的神经元归因方法。
- 提高编辑技术的效率,以应对大规模或时间敏感的应用。
推荐阅读指数: ★★★★☆
3. Quo Vadis, Motion Generation? From Large Language Models to Large Motion Models
Y Wang, S Zheng, B Cao, Q Wei, Q Jin, Z Lu - arXiv preprint arXiv:2410.03311, 2024
https://arxiv.org/pdf/2410.03311
运动生成何去何从?从大型语言模型到大型运动模型
摘要:
本文介绍了MotionBase,这是一个百万级别的运动生成基准数据集,提供了比以前最大数据集多15倍的数据量,并具有层次详细的文本描述。利用这个庞大的数据集,研究者的大型运动模型在广泛的运动上表现出色,包括以前未见过的运动。通过系统研究,强调了扩大数据和模型规模的重要性,合成数据和伪标签在减轻数据获取成本中发挥了关键作用。此外,研究揭示了现有评估指标的局限性,特别是在处理域外文本指令时------这是一个长期被忽视的问题。此外,研究者还介绍了一种新颖的2D查找自由运动标记方法,该方法保留了运动信息并扩展了码本容量,进一步增强了大型运动模型的表示能力。
研究背景:
运动生成是一个新兴领域,在视频游戏、电影制作和机器人动画中有多种应用。文本到运动生成(T2M)在这一领域中处于前沿,它在将自然语言转化为人体运动中起着关键作用。尽管近年来出现了一些高质量的数据集,但它们的有限规模限制了当前方法在处理多样化或未见过的运动会话中的性能。
算法模型:
研究者提出了一个大型运动模型,该模型建立在预训练的大型语言模型(LLM)上,作为一个生成模型,将运动标记器与LLM主干连接起来。运动标记器将原始运动剪辑特征编码为标记嵌入,然后LLM生成基于提供的文本输入标记的运动序列。
核心创新点:
- 提出了MotionBase,这是一个超过一百万运动序列的大规模运动生成基准数据集。
- 强调了扩大数据和模型规模的重要性,并发现合成数据和伪标签在减轻数据获取成本中的重要性。
- 引入了一种新颖的2D查找自由运动量化方法,将运动剪辑作为2D图像处理,构建了一个有限规模的码本,无需查找码本中的相应标记。
实验效果:
在HumanML3D和Motion-X数据集上的实验表明,随着模型规模和数据规模的增加,运动生成性能得到了显著提升。此外,研究者还展示了大型运动模型在处理未见过的域外数据时的优越性能。
后续潜在研究方向:
- 探索更有效的运动表示方法,以进一步提高运动生成的质量和多样性。
- 研究更鲁棒和公平的评估指标,以更好地评估大型运动模型在开放集上的性能。
- 将大型运动模型应用于更广泛的领域,如虚拟现实和增强现实。
推荐阅读指数: ★★★★★
4. Hyperbolic Fine-tuning for Large Language Models
M Yang, A Feng, B Xiong, J Liu, I King, R Ying - arXiv preprint arXiv:2410.04010, 2024
https://arxiv.org/pdf/2410.04010
大型语言模型的双曲微调
摘要:
大型语言模型(LLMs)在各种任务上表现出色。然而,默认的欧几里得空间是否是LLMs中标记嵌入的最佳选择仍然是一个开放问题。在这项研究中,研究者首先调查了LLMs的非欧几里得特性。他们的发现揭示了标记频率遵循幂律分布,高频标记聚集在原点附近,而低频标记则更远。此外,标记嵌入表现出高度的双曲性,表明嵌入空间中存在潜在的树状结构。基于这一观察,研究者提出了在双曲空间中有效微调LLMs的方法,以更好地利用这些复杂的结构。
研究背景:
尽管LLMs在理解和生成类人文本方面表现出色,但这些模型通常依赖于欧几里得几何来学习文本表示,这可能无法始终适应现实世界数据结构的复杂、层次化特性。
算法模型:
研究者提出了一种在双曲空间中进行LLM微调的新方法,称为HypLoRA,它在双曲流形上直接执行低秩适配,避免了指数和对数映射引起的抵消效应,从而保留了双曲建模能力。
核心创新点:
- 提出了HypLoRA,这是一种参数高效的微调方法,将双曲几何集成到LLMs中,同时保留了双曲建模能力。
- 通过在双曲域中进行适配,HypLoRA能够捕获更复杂的层次关系,特别是对于标记更具体的标记。
实验效果:
通过在推理任务上的广泛实验,HypLoRA显著提高了LLMs的性能,特别是在复杂的AQuA数据集上,性能提升了高达13.0%。
后续潜在研究方向:
- 探索更高效的双曲空间微调技术,以减少计算开销。
- 研究如何将双曲几何与LLMs的自注意力机制更好地结合,以提高模型的性能和泛化能力。
推荐阅读指数: ★★★★☆
5. Inductive Generative Recommendation via Retrieval-based Speculation
Y Ding, Y Hou, J Li, J McAuley - arXiv preprint arXiv:2410.02939, 2024
https://arxiv.org/pdf/2410.02939
通过检索式推测的归纳式生成推荐
摘要:
生成式推荐(GR)是一种新兴的范式,它将项目标记化为离散标记,并学习自回归地生成下一个标记作为预测。尽管有效,但GR模型在归纳设置中运行,这意味着它们只能生成训练期间见过的项目,而不应用启发式的重新排名策略。在本文中,研究者提出了SpecGR,一个即插即用的框架,使GR模型能够在归纳设置中推荐新项目。
研究背景:
GR模型在推荐系统中的应用受到了限制,因为它们只能生成训练期间见过的项目,而无法生成新的或未见过的项目。这在需要实时推荐的场景中是不切实际的,例如电子商务或短视频平台。
算法模型:
SpecGR框架包括两个主要模块:(1)一个归纳草稿模型来提出项目,(2)一个生成推荐验证器来接受或拒绝这些项目。研究者还引入了引导式重起草技术,以使提出的候选项目更符合生成推荐模型的输出,从而提高验证效率。
核心创新点:
- 提出了SpecGR框架,它通过使用归纳模型作为起草者来提出候选项目,并使用GR模型作为验证器来确保只有高质量的候选项目被推荐。
- 引入了引导式重起草技术,以提高后续批次中候选项目的接受率。
实验效果:
在三个真实世界数据集上的实验表明,SpecGR在归纳推荐能力和整体性能方面都表现出色。
后续潜在研究方向:
- 探索如何通过设计语义ID和解码机制来开发具有归纳能力的GR模型。
- 研究扩大模型参数规模是否能使GR模型展现出紧急的归纳能力。
推荐阅读指数: ★★★★☆
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论 ),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。