计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26
1. LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
Authors: Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati
LLMs仍然无法规划;LRMs可以吗?对OpenAI的o1在PlanBench上的初步评估
摘要
本文探讨了大型语言模型(LLMs)是否具备规划能力,并特别评估了OpenAI最新模型o1(草莓模型)在PlanBench基准上的表现。尽管o1在性能上相较于其他LLMs有显著提升,但仍未达到饱和状态,这引发了关于准确性、效率和保证的讨论。
创新点
- 提出了将大型推理模型(LRMs)与LLMs进行比较的新视角。
- 对o1模型在规划任务上的能力进行了初步评估。
算法模型
- o1模型:OpenAI开发的新型模型,旨在通过更深入的"思考"来解决科学、编码和数学领域的复杂任务。
实验效果
- Blocksworld Zero Shot: 准确率97.8%,执行时间40.43秒。
- Mystery Blocksworld One Shot: 准确率41.6%,执行时间82.03秒。
- Randomized Mystery Blocksworld Zero Shot : 准确率37.3%,执行时间111.11秒。
重要数据与结论:
- o1模型在PlanBench上的表现超过了现有的LLMs,但仍未达到最优。
- 在不同的规划任务中,o1显示出了改进,但仍然存在一定的局限性。
推荐阅读指数:
★★★★☆
推荐理由:
- 对于对AI规划能力和大型语言模型的最新进展感兴趣的研究者和从业者来说,这篇文章可以参考。
- 文章讨论了LRMs的潜力和当前的局限性,对于理解未来AI的发展方向具有启发性。
2. Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models
Authors: Gracjan G'oral, Alicja Ziarko, Michal Nauman, Maciej Wo{\l}czyk
https://arxiv.org/abs/2409.12969
通过他们的眼睛看:评估视觉语言模型中的视觉视角获取
摘要:
本文探讨了视觉语言模型(VLMs)是否具备理解他人视角的能力,这对于预测他人行为至关重要。研究者们开发了两个数据集Isle-Bricks和Isle-Dots来测试VLMs的视觉视角获取(VPT)技能,并评估了12种常用的VLMs。研究发现,当需要进行视角获取时,所有模型的性能都显著下降。
研究背景:
在现实世界中,理解他人的视角对于避免事故、有效协调行动或在社交环境中做出适当反应至关重要。尽管VLMs在许多任务上表现出色,但它们是否具备VPT能力尚不清楚。
技术挑战:
- 如何评估VLMs在VPT任务上的表现。
- 如何设计能够准确测试VPT技能的数据集。
创新点:
- 提出了两个新的数据集Isle-Bricks和Isle-Dots,用于测试VPT技能。
- 评估了12种不同的VLMs在VPT任务上的性能。
算法模型:
- Isle-Bricks和Isle-Dots数据集。
- 12种不同的VLMs,包括闭源和开源模型。
实验数据及实验效果:
- 数据集:Isle-Bricks和Isle-Dots。
- 实验结论:VLMs在需要视角获取的任务上性能显著下降,与物体检测任务的性能相关性弱。
推荐阅读指数:
★★★★☆
推荐理由:
这篇文章为理解视觉语言模型在处理视觉视角获取任务上的能力提供了新的视角,并提出了新的评估方法和数据集,对于VLMs的进一步研究和应用具有重要意义。
3. TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning
Authors: Shivam Shandilya, Menglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue
Zhang, Qianhui Wu, Victor R"uhle
https://arxiv.org/abs/2409.13035
TACO-RL:任务感知提示压缩优化与强化学习
摘要:
随着大型语言模型(LLMs)在各种应用中的普及,所需的提示大小不断增加,导致计算效率面临挑战。本文提出了一种基于强化学习的任务感知提示压缩方法,旨在通过最小化输入标记数量来降低推理成本,而不损害任务性能。
研究背景:
LLMs在自然语言处理任务上表现出色,但随着输入提示长度的增加,推理成本和延迟要求也在增加。
技术挑战:
- 如何在不损失任务性能的前提下,减少输入提示的长度。
创新点:
- 提出了一种新的基于强化学习的提示压缩方法,通过任务特定的奖励信号来指导学习过程。
算法模型:
- 基于Transformer的编码器模型。
- 轻量级REINFORCE算法。
实验数据及实验效果:
- 数据集:文本摘要、问答和代码摘要任务的开源基准数据集。
- 实验结论:在这些任务上,与现有压缩技术相比,提出的方法在任务性能上提高了8% - 260%。
推荐阅读指数:★★★★☆
推荐理由:
这篇文章提出了一种创新的提示压缩方法,通过强化学习来优化大型语言模型的推理效率,对于希望在保持性能的同时减少计算成本的研究者和工程师来说,具有很高的参考价值。
4. LLM Surgery: Efficient Knowledge Unlearning and Editing in Large Language Models
Authors: Akshaj Kumar Veldanda, Shi-Xiong Zhang, Anirban Das, Supriyo
Chakraborty, Stephen Rawls, Sambit Sahu, Milind Naphade
https://arxiv.org/abs/2409.13054
LLM外科手术:在大型语言模型中高效地忘却和编辑知识
摘要:
本文提出了一种名为LLM Surgery(外科手术)的框架,用于高效地修改大型语言模型(LLMs)的行为,通过优化一个包含三个部分的目标函数来实现:(1)对忘却数据集(问题和过时信息)执行反向梯度;(2)对更新数据集(新和更新的信息)执行梯度下降;(3)最小化保留数据集(一小部分未改变的文本)上的KL散度,确保预训练和修改后的模型输出之间的一致性。
研究背景:
LLMs在预训练过程中可能会嵌入过时或有问题的知识,需要一种方法来更新LLMs,使其保持相关性、准确性和合法性。
技术挑战:
- 如何在不从头开始重新训练的情况下,有效地从LLMs中忘却特定信息并整合新知识。
创新点:
- 提出了LLM Surgery框架,通过反向梯度和梯度下降以及KL散度最小化来实现知识的忘却和更新。
算法模型:
- LLM Surgery框架。
实验数据及实验效果:
- 数据集:使用Llama2-7B模型进行实验。
- 实验结论:LLM Surgery能够在忘却集上实现显著的忘却,在更新集上提高20%的准确率,并在保留集上保持性能。
推荐阅读指数:★★★★☆
推荐理由:
这篇文章提出了一种新颖的方法来更新大型语言模型中的知识,这对于确保模型的输出符合最新的数据和法律要求非常重要,对于LLMs的维护和更新具有实际应用价值。
5. Guided Profile Generation Improves Personalization with LLMs
Authors: Jiarui Zhang
https://arxiv.org/abs/2409.13093
引导式个人资料生成提高LLMs的个性化
摘要:
本文提出了一种名为Guided Profile Generation (GPG)的方法,旨在通过生成自然语言个人资料来增强大型语言模型(LLMs)在个性化任务中的表现。GPG通过引导式个人资料生成,使LLMs能够从个人上下文中提取重要且独特的特征,并将其转化为简洁、描述性的句子,从而更精确地定制生成内容以适应个体的独特习惯和偏好。
研究背景:
在个性化任务中,传统的个人资料建模技术依赖于大量数据集,这些资料往往需要额外的处理才能立即解释,并且可能限制了数据类型的多样性。
技术挑战:
- 如何在不牺牲准确性和效率的情况下,提高LLMs对原始个人上下文的解释能力。
创新点:
- 提出了GPG方法,通过引导式个人资料生成来增强LLMs的个性化能力。
算法模型:
- Guided Profile Generation (GPG)。
实验数据及实验效果:
- 数据集:亚马逊产品评论、LAMP-7(基于情感的推文集合)、PER-CHAT(Reddit上的开放式单轮对话数据集)。
- 实验结论:GPG在不同的任务中提高了LLMs的个性化能力,例如在预测个人偏好方面,与直接使用原始个人上下文相比,准确率提高了37%。
推荐阅读指数:
★★★★☆
推荐理由:
这篇文章提出了一种有效的方法来提高LLMs在个性化任务中的表现,通过生成描述性的个人资料来增强模型的个性化能力,对于希望利用LLMs进行个性化服务的研究者和开发者来说,具有很高的参考价值。
6. Are Large Language Models Good Essay Graders?
Authors: Anindita Kundu and Denilson Barbosa
https://arxiv.org/abs/2409.13120
大型语言模型是好的作文评分者吗?
摘要:
本文评估了大型语言模型(LLMs)在评估作文质量方面的有效性,特别关注它们与人工评分的一致性。研究比较了ChatGPT和Llama在自动作文评分(AES)任务中的表现,并考虑了零样本和少样本学习以及不同的提示方法。研究发现,与人工评分相比,LLMs通常给出较低的分数,并且分数之间的相关性不高。
研究背景:
自动作文评分(AES)是教育中自然语言处理(NLP)的一个关键应用,它使用基于计算机的评估系统自动评分学生生成的内容。
技术挑战:
LLMs在处理复杂任务时,如何与人类评分者保持一致性是一个挑战。
创新点:
- 提出了一种基于LLMs的AES方法。
- 比较了不同LLMs在AES任务中的表现。
算法模型:
- ChatGPT
- Llama
实验数据及效果:
- 使用ASAP数据集进行实验。
- 实验结果显示LLMs给出的分数与人工评分者给出的分数之间的相关性较低。
推荐阅读指数:
★★★☆☆
推荐理由: 对于研究LLMs在教育评估中的应用,对想要在教育领域使用LLM的朋友,可以参考下。
7. Exploring Scaling Laws for Local SGD in Large Language Model Training
Authors: Qiaozhi He, Xiaomin Zhuang, Zhihua Wu
https://arxiv.org/abs/2409.13198
探索大型语言模型训练中局部SGD的扩展规律
摘要:
本文研究了局部SGD在大型语言模型(LLM)训练中的扩展规律。研究表明,在相同的模型参数、数据集和计算资源条件下,局部SGD与传统方法相比具有竞争力。
研究背景:
LLMs的训练需要大规模的计算资源,这导致了对计算资源需求的快速增长。
技术挑战:
如何在计算资源有限的情况下,有效地训练大型语言模型。
创新点:
- 提出了局部SGD在LLM训练中的扩展规律。
- 探索了在多集群设置和边缘计算环境中应用局部SGD。
算法模型:
- 局部SGD
实验数据及效果:
- 使用SlimPajama和C4数据集进行实验。
- 实验结果表明局部SGD在多集群环境中是可行的。
推荐阅读指数: ★★★★☆
推荐理由: 对于研究如何高效训练大型语言模型,这篇文章提供了重要的见解。
8. CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance
Authors: Yupu Hao, Pengfei Cao, Zhuoran Jin, Huanxuan Liao, ubo Chen, Kang Liu,
Jun Zhao
https://arxiv.org/abs/2409.13202
CITI: 在不牺牲通用性能的情况下增强大型语言模型的工具使用能力
摘要:
本文提出了一种方法,通过检查模型组件的隐藏表示变化和梯度重要性分数,来解决LLMs在工具使用准确性和泛化能力上的权衡问题。
研究背景:
LLMs在理解和生成文本方面表现出色,但在与真实世界交互方面存在局限性。
技术挑战:
如何在不损害模型通用性能的情况下,增强LLMs的工具使用能力。
创新点:
- 提出了一种基于组件重要性的Tool-utilizing能力注入方法(CITI)。
算法模型:
- Mixture-Of-LoRA (MOLoRA)
实验数据及效果:
- 在API-Bank和ToolAlpaca数据集上进行实验。
- 实验结果表明CITI方法在提高工具使用能力的同时,保持了模型的通用性能。
推荐阅读指数: ★★★★☆
推荐理由: 对于研究如何增强LLMs的工具使用能力,这篇文章提供了有价值的方法。
9. Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks
Authors: Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Jun Zhao
https://arxiv.org/abs/2409.13203
代码: https://github.com/Xnhyacinth/NesyCD.
神经符号协作蒸馏:推进小型语言模型在复杂推理任务中的应用
摘要:
本文提出了一种新颖的知识蒸馏方法,用于学习大型语言模型(LLMs)的复杂推理能力。
研究背景:
复杂推理任务对于小型语言模型(SLMs)来说具有挑战性,因为这些任务不仅需要一般认知能力,还需要专业知识。
技术挑战:
如何在保持模型大小不变的情况下,提高SLMs在复杂推理任务中的性能。
创新点:
- 提出了一种结合神经网络和符号知识库的协作蒸馏方法。
算法模型:
- 神经符号协作蒸馏(NesyCD)
实验数据及效果:
- 在多个数据集上进行实验,包括BBH、GSM8K、AGIEval和ARC。
- 实验结果表明NesyCD显著提高了SLMs在复杂推理任务中的性能。
推荐阅读指数: ★★★★☆
推荐理由: 对于研究如何提高小型语言模型在复杂推理任务中的性能,这篇文章提供了创新的方法。
10. Large Language Model Should Understand Pinyin for Chinese ASR Error Correction
Authors: Yuang Li, Xiaosong Qiao, Xiaofeng Zhao, Huan Zhao, Wei Tang, Min
Zhang, Hao Yang
https://arxiv.org/abs/2409.13262
大型语言模型应理解拼音以纠正中文ASR错误
摘要:
本文提出了一种利用拼音增强的生成性错误纠正(PY-GEC)方法,通过多任务训练提高LLMs在中文自动语音识别(ASR)错误纠正中的性能。
研究背景:
ASR系统在处理普通话时,由于发音和书面形式之间没有直接联系,因此纠正错误具有挑战性。
技术挑战:
如何利用LLMs提高中文ASR错误纠正的准确性。
创新点:
- 提出了一种结合拼音特征的LLMs训练方法。
算法模型:
- PY-GEC
实验数据及效果:
- 在Aishell-1和Common Voice数据集上进行实验。
- 实验结果表明,结合拼音特征的方法在字符错误率(CER)和实体召回方面均优于仅使用文本的方法。
推荐阅读指数:
★★★☆☆
推荐理由:
对于研究如何利用LLMs改进中文ASR错误纠正,这篇文章提供了有价值的见解和方法。
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。