AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.20-2024.03.25

文章目录~

[1.Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback](#1.Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback)
[2.TrustAI at SemEval-2024 Task 8: A Comprehensive Analysis of Multi-domain Machine Generated Text Detection Techniques](#2.TrustAI at SemEval-2024 Task 8: A Comprehensive Analysis of Multi-domain Machine Generated Text Detection Techniques)
[3.Can Large Language Models (or Humans) Distill Text?](#3.Can Large Language Models (or Humans) Distill Text?)
[4.Harnessing the power of LLMs for normative reasoning in MASs](#4.Harnessing the power of LLMs for normative reasoning in MASs)
[5.LLMs Are Few-Shot In-Context Low-Resource Language Learners](#5.LLMs Are Few-Shot In-Context Low-Resource Language Learners)
[6.LARA: Linguistic-Adaptive Retrieval-Augmented LLMs for Multi-Turn Intent Classification](#6.LARA: Linguistic-Adaptive Retrieval-Augmented LLMs for Multi-Turn Intent Classification)
[7.InstUPR : Instruction-based Unsupervised Passage Reranking with Large Language Models](#7.InstUPR : Instruction-based Unsupervised Passage Reranking with Large Language Models)
[8. LinkPrompt \textit{LinkPrompt} LinkPrompt: Natural and Universal Adversarial Attacks on Prompt-based Language Models](#8. LinkPrompt \textit{LinkPrompt} LinkPrompt: Natural and Universal Adversarial Attacks on Prompt-based Language Models)
[9.Concurrent Linguistic Error Detection (CLED) for Large Language Models](#9.Concurrent Linguistic Error Detection (CLED) for Large Language Models)
[10.Can Language Models Pretend Solvers? Logic Code Simulation with LLMs](#10.Can Language Models Pretend Solvers? Logic Code Simulation with LLMs)
[11.LlamBERT: Large-scale low-cost data annotation in NLP](#11.LlamBERT: Large-scale low-cost data annotation in NLP)
[12.Leveraging Zero-Shot Prompting for Efficient Language Model Distillation](#12.Leveraging Zero-Shot Prompting for Efficient Language Model Distillation)
[13.TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions](#13.TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions)
[14.FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models](#14.FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models)
[15.SceneX:Procedural Controllable Large-scale Scene Generation via Large-language Models](#15.SceneX:Procedural Controllable Large-scale Scene Generation via Large-language Models)
[16.Large language models for crowd decision making based on prompt design strategies using ChatGPT: models, analysis and challenges](#16.Large language models for crowd decision making based on prompt design strategies using ChatGPT: models, analysis and challenges)
[17.Can large language models explore in-context?](#17.Can large language models explore in-context?)
[18.LimGen: Probing the LLMs for Generating Suggestive Limitations of Research Papers](#18.LimGen: Probing the LLMs for Generating Suggestive Limitations of Research Papers)
[19.Event Temporal Relation Extraction based on Retrieval-Augmented on LLMs](#19.Event Temporal Relation Extraction based on Retrieval-Augmented on LLMs)
[20.Imagination Augmented Generation: Learning to Imagine Richer Context for Question Answering over Large Language Models](#20.Imagination Augmented Generation: Learning to Imagine Richer Context for Question Answering over Large Language Models)
[21.Text clustering with LLM embeddings](#21.Text clustering with LLM embeddings)
[22.LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement](#22.LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement)
[23.AutoRE: Document-Level Relation Extraction with Large Language Models](#23.AutoRE: Document-Level Relation Extraction with Large Language Models)
[24.Evaluating the Performance of LLMs on Technical Language Processing tasks](#24.Evaluating the Performance of LLMs on Technical Language Processing tasks)
[25.Large Language Models for Multi-Choice Question Classification of Medical Subjects](#25.Large Language Models for Multi-Choice Question Classification of Medical Subjects)
[26.Less but Better: Enabling Generalized Zero-shot Learning Towards Unseen Domains by Intrinsic Learning from Redundant LLM Semantics](#26.Less but Better: Enabling Generalized Zero-shot Learning Towards Unseen Domains by Intrinsic Learning from Redundant LLM Semantics)
[27.Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection](#27.Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection)
[28.Improving the Robustness of Large Language Models via Consistency Alignment](#28.Improving the Robustness of Large Language Models via Consistency Alignment)
[29.LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models](#29.LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models)

1.Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback

标题:迭代完善项目级代码上下文，利用编译器反馈实现精确代码生成
author:Zhangqian Bi, Yao Wan, Zheng Wang, Hongyu Zhang, Batu Guan, Fangxin Lu, Zili Zhang, Yulei Sui, Xuanhua Shi, Hai Jin
date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16792v1

摘要：

大型语言模型（LLM）在自动代码生成方面取得了显著进展。然而，将基于 LLM 的代码生成融入现实生活中的软件项目却带来了挑战，因为生成的代码可能包含 API 使用、类、数据结构方面的错误，或者缺少项目特定的信息。由于这些项目特定上下文的大部分内容都无法纳入 LLM 的提示中，因此我们必须找到让模型探索项目级代码上下文的方法。为此，本文提出了一种名为 ProCoder 的新方法，它可以在编译器反馈的指导下，迭代地完善项目级代码上下文，以实现精确的代码生成。具体来说，ProCoder 首先利用编译器技术来识别生成代码与项目上下文之间的不匹配。然后，它利用从代码库中提取的信息，反复对齐并修正已识别的错误。我们将 ProCoder 与两个具有代表性的 LLM（即 GPT-3.5-Turbo 和 Code Llama (13B)）集成，并将其应用于 Python 代码生成。实验结果表明，在根据项目上下文生成代码方面，ProCoder 比 vanilla LLMs 明显改善了 80% 以上，并始终优于现有的基于检索的代码生成基线。

2.TrustAI at SemEval-2024 Task 8: A Comprehensive Analysis of Multi-domain Machine Generated Text Detection Techniques

标题:TrustAI在SemEval-2024上的任务8：全面分析多领域机器生成文本检测技术
author:Ashok Urlana, Aditya Saibewar, Bala Mallikarjunarao Garlapati, Charaka Vinayak Kumar, Ajeet Kumar Singh, Srinivasa Rao Chalamala
publish:8 pages, 1 Figure
date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16592v1

摘要：

大型语言模型（LLM）在生成各种用户查询的流畅内容方面表现出非凡的能力。然而，这种能力也引发了人们对错误信息和个人信息泄露的担忧。在本文中，我们介绍了针对 SemEval2024 任务8 的方法，该任务旨在检测单语言和多语言环境下各个领域的机器生成文本。我们的研究全面分析了检测机器生成文本的各种方法，包括统计、神经和预训练模型方法。我们还详细介绍了实验设置，并进行了深入的误差分析，以评估这些方法的有效性。我们的方法在单一任务 A 的测试集上获得了 86.9% 的准确率，在子任务 B 上获得了 83.7% 的准确率。此外，我们还强调了未来研究面临的挑战和需要考虑的基本因素。

3.Can Large Language Models (or Humans) Distill Text?

标题:大型语言模型（或人类）能否提炼文本？
author:Nicolas Audinet de Pieuchon, Adel Daoud, Connor Thomas Jerzak, Moa Johansson, Richard Johansson
date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16584v1

摘要：

我们研究了大型语言模型（LLM）在提炼文本方面的潜力：去除不受欢迎的禁止变量的文本痕迹。我们采用了一系列具有不同架构和训练方法的 LLM，通过识别和移除目标变量的信息来提炼文本，同时保留其他相关信号。我们的研究结果揭示了 LLM 在处理提炼问题时的优势和局限性，并为在涉及文本数据的计算社会科学研究中利用这些模型的策略提供了启示。特别是，我们表明，在去除情感的强测试中，经过 LLM 提炼后的机器学习分类器仍能清晰地检测到经过处理的文本与情感之间的统计关联。此外，我们还发现，人类注释者在保留其他语义内容的同时，也很难提炼出情感。这表明，在某些文本语境中，概念变量之间的可分离性可能有限，突出了依赖文本级转换方法的局限性，同时也提出了一个问题：如果对原始文本进行操作的人类编码员难以实现表征空间中的统计独立性，那么实现统计独立性的蒸馏方法是否稳健。

4.Harnessing the power of LLMs for normative reasoning in MASs

标题:利用 LLM 的力量在 MAS 中进行规范性推理
author:Bastin Tony Roy Savarimuthu, Surangika Ranathunga, Stephen Cranefield
publish:12 pages, 1 figure, accepted to COINE 2024 workshop at AAMAS 2024

(https://coin-workshop.github.io/coine-2024-auckland/accepted_papers.html)
date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16524v1

摘要：

软件代理，无论是人类代理还是计算代理，都不是孤立存在的，往往需要与他人合作或协调才能实现目标。在人类社会中，规范等社会机制可确保高效运作，多代理系统（MAS）研究人员也采用这些技术来创建具有社会意识的代理。然而，传统技术有其局限性，如在有限的环境中运行时，往往使用脆弱的符号推理。大型语言模型（LLMs）的出现提供了一种前景广阔的解决方案，它为规范提供了丰富而富有表现力的词汇，使具有规范能力的代理能够执行一系列任务，如规范发现、规范推理和决策。本文借鉴最近的自然语言处理（NLP）和 LLM 研究，探讨了基于 LLM 的代理获得规范能力的潜力。我们提出了创建规范性 LLM 代理的愿景。特别是，我们讨论了如何扩展最近提出的 "LLM 代理 "方法，以实现此类规范性 LLM 代理。我们还强调了这一新兴领域所面临的挑战。因此，本文旨在促进 MAS、NLP 和 LLM 研究人员之间的合作，以推动规范代理领域的发展。

5.LLMs Are Few-Shot In-Context Low-Resource Language Learners

标题:LLMs 是极少数在语境中学习低资源语言的人
author:Samuel Cahyawijaya, Holy Lovenia, Pascale Fung
date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16512v1

摘要：

上下文学习（ICL）使大型语言模型（LLM）只需使用简短的上下文信息就能在代表性不足的语言中执行各种任务，为缩小高资源语言和低资源语言之间的差距提供了重要途径。然而，目前只有少数作品对低资源语言的 ICL 进行了探索，其中大部分作品都集中在相对高资源的语言上，如法语和西班牙语。在这项工作中，我们广泛研究了 25 种低资源语言和 7 种资源相对较高的语言的 ICL 及其跨语言变体（X-ICL）。我们的研究不仅评估了在低资源语言中使用 LLM 的 ICL 的有效性，还发现了上下文标签对齐的缺点，并引入了一种更有效的替代方法：查询对齐。此外，我们还对低资源语言 ICL 的各个方面提出了有价值的见解。我们的研究得出结论：通过缩小目标语言中的语言差距，并对目标低资源语言和模型所精通的高资源语言之间的语义进行对齐，少量的上下文信息通过语义相关信息提高了低资源语言理解质量。我们的工作凸显了推进 ICL 研究的重要性，尤其是针对低资源语言的研究。

6.LARA: Linguistic-Adaptive Retrieval-Augmented LLMs for Multi-Turn Intent Classification

标题:LARA：用于多转弯意图分类的语言自适应检索增强型 LLMs
author:Liu Junhua, Tan Yong Keat, Fu Bin
date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16504v1

摘要：

继大型语言模型（LLM）取得重大成就之后，研究人员又将上下文学习用于文本分类任务。不过，这些研究主要集中在单语、单转分类任务上。在本文中，我们介绍了 LARA（语言自适应检索增强语言模型），旨在提高六种语言的多转分类任务的准确性，以适应聊天机器人交互中的众多意图。由于对话语境的复杂性和不断变化的性质，多轮意图分类具有显著的挑战性。LARA 将微调的较小模型与检索增强机制相结合，并集成到 LLM 的架构中，从而解决了这些问题。这种整合使 LARA 能够动态地利用过去的对话和相关意图，从而提高对语境的理解。此外，我们的自适应检索技术增强了 LLM 的跨语言能力，无需进行大量的再培训和微调。综合实验证明，LARA 在多轮意图分类任务中取得了一流的性能，与现有方法相比，平均准确率提高了 3.67%。

7.InstUPR : Instruction-based Unsupervised Passage Reranking with Large Language Models

标题:InstUPR：利用大型语言模型进行基于指令的无监督段落重排
author:Chao-Wei Huang, Yun-Nung Chen
publish:Preprint. This manuscript was originally written and submitted in

June 2023
date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16435v1

摘要：

本文介绍了一种基于大型语言模型（LLM）的无监督段落重排方法--InstUPR。与依赖查询-文档对或特定检索指令进行大量训练的现有方法不同，我们的方法利用指令调整 LLM 的指令跟随能力进行段落重排，而无需任何额外的微调。为此，我们引入了软分数聚合技术，并采用成对重排法进行无监督段落重排。在 BEIR 基准上进行的实验表明，InstUPR 优于无监督基线和指令调整重排器，凸显了其有效性和优越性。重现所有实验的源代码已在 https://github.com/MiuLab/InstUPR 上开源。

8. LinkPrompt \textit{LinkPrompt} LinkPrompt: Natural and Universal Adversarial Attacks on Prompt-based Language Models

标题: LinkPrompt \textit{LinkPrompt} LinkPrompt：对基于提示的语言模型的自然和通用对抗性攻击
author:Yue Xu, Wenjie Wang
publish:Accepted to the main conference of NAACL2024
date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16432v1

摘要：

基于提示的学习是一种新的语言模型训练范式，它将预训练语言模型（PLMs）与下游任务相适应，使各种自然语言处理（NLP）任务的性能基准焕然一新。一些研究表明，通过优化来搜索提示词是有效的，而不是使用固定的提示词模板来微调模型。基于提示的 PLMs 学习的这种提示优化过程还能洞察到生成对抗性提示来误导模型的情况，从而引发了人们对这种范式的对抗脆弱性的担忧。最近的研究表明，在基于提示的学习范式下，通用对抗性触发器（UAT）不仅能改变目标 PLM 的预测，还能改变相应的基于提示的微调模型（PFM）的预测。然而，以往工作中发现的 UAT 通常是不可读的标记或字符，很容易与具有自适应防御功能的自然文本区分开来。在这项工作中，我们考虑了 UAT 的自然性，并开发了一种对抗性攻击算法 LinkPrompt \textit{LinkPrompt} LinkPrompt，通过基于梯度的波束搜索算法生成 UAT，该算法不仅能有效攻击目标 PLM 和 PFM，还能保持触发标记之间的自然性。大量结果证明了 LinkPrompt \textit{LinkPrompt} LinkPrompt的有效性，同时也证明了由\textit{LinkPrompt}生成的UAT可以移植到开源的大语言模型（LLM）Llama2和API访问的LLM GPT-3.5-turbo中。

9.Concurrent Linguistic Error Detection (CLED) for Large Language Models

标题:大型语言模型的并发语言错误检测 (CLED)
author:Jinhua Zhu, Javier Conde, Zhen Gao, Pedro Reviriego, Shanshan Liu, Fabrizio Lombardi
publish:11 pages, 6 figures, 30 references
date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16393v1

摘要：

大语言模型（LLMs）的广泛应用使其可靠性成为一个亟待解决的问题。错误检测是减轻错误对系统影响的第一步，因此，高效的 LLM 错误检测是一个重要问题。在许多情况下，LLM 被视为一个无法访问内部节点的黑盒子；这就阻碍了许多需要访问模型内部节点的错误检测方案的使用。一个有趣的现象是，LLM 在无差错运行时的输出应该是有效和正常的文本。因此，当文本无效或与正常文本有显著差异时，很可能存在错误。基于这一观点，我们提出了并行语言错误检测（CLED）方案；该方案从 LLM 生成的文本中提取一些语言特征，并将其输入并行分类器以检测错误。由于拟议的错误检测机制仅依赖于模型的输出，因此可用于无法访问内部节点的 LLM。建议的 CLED 方案在用于新闻摘要的 T5 模型和用于翻译的 OPUS-MT 模型上进行了评估。在这两种情况下，都使用了相同的语言特征集进行错误检测，以说明建议方案在特定情况之外的适用性。结果表明，CLED 能够以较低的开销代价检测出大部分错误。使用并发分类器还能在错误检测效果和相关开销之间进行权衡，从而为设计者提供灵活性。

10.Can Language Models Pretend Solvers? Logic Code Simulation with LLMs

标题:语言模型能假装求解器吗？用 LLM 模拟逻辑代码
author:Minyu Chen, Guoqiang Li, Ling-I Wu, Ruibang Liu, Yuxin Su, Xi Chang, Jianxin Xue
publish:12 pages, 8 figures
date Time:2024-03-24

paper pdf:http://arxiv.org/pdf/2403.16097v1

摘要：

基于变换器的大型语言模型（LLMs）在解决逻辑问题方面展现出了巨大的潜力。利用 LLMs 在代码相关活动中的强大能力，最近提出了几个利用逻辑解算器进行逻辑推理的框架。现有研究主要侧重于将逻辑解算器视为自然语言逻辑解算器或翻译器，而对其作为逻辑代码解释器和执行器的作用关注有限。本研究深入探讨了一个新的方面，即逻辑代码仿真，它迫使 LLM 在预测逻辑程序结果时模仿逻辑求解器。为了进一步研究这项新任务，我们提出了三个研究问题：LLM 能否高效地模拟逻辑代码的输出？逻辑代码仿真有哪些优势？有哪些缺陷？为了解决这些问题，我们为逻辑代码仿真任务定制了三个新数据集，并进行了全面的实验，以确定 LLM 在代码仿真中的基准性能。随后，我们介绍了一种基于 LLM 的开创性代码仿真技术--双逻辑链 (DCoL)。与其他 LLM 提示策略相比，该技术表现出了最先进的性能，与 GPT-4-Turbo 相比，准确率显著提高了 7.06%。

11.LlamBERT: Large-scale low-cost data annotation in NLP

标题:LlamBERT：NLP 中的大规模低成本数据注释
author:Bálint Csanády, Lajos Muzsai, Péter Vedres, Zoltán Nádasdy, András Lukács
publish:11 pages, 1 figure
date Time:2024-03-23

paper pdf:http://arxiv.org/pdf/2403.15938v1

摘要：

大型语言模型（LLM），如 GPT-4 和 Llama 2，在广泛的自然语言处理（NLP）任务中表现出非凡的能力。尽管它们非常有效，但使用它们所带来的高成本也是一个挑战。我们介绍的 LlamBERT 是一种混合方法，它利用 LLM 对大型无标注数据库的一小部分进行标注，并利用标注结果对 BERT 和 RoBERTa 等转换编码器进行微调。我们在两个不同的数据集上对这一策略进行了评估：IMDb 评论数据集和 UMLS 元词库。我们的结果表明，LlamBERT 方法在准确性方面略有妥协，但成本效益更高。

12.Leveraging Zero-Shot Prompting for Efficient Language Model Distillation

标题:利用 "零点提示 "实现高效语言模型提炼
author:Lukas Vöge, Vincent Gurgul, Stefan Lessmann
date Time:2024-03-23

paper pdf:http://arxiv.org/pdf/2403.15886v1

摘要：

本文介绍了一种新颖的方法，可有效地将 LLM 简化为更小的、针对特定应用的模型，从而大幅降低运营成本和人工劳动。为了应对在特定应用或边缘设备中部署计算密集型 LLM 的挑战，该技术利用 LLM 的推理能力为未标记数据生成标签和自然语言理由。我们的方法通过采用多任务训练框架来加强微调和提炼，在该框架中，学生模型与教师预测一起模仿这些理由。我们的主要贡献包括：采用 "零镜头 "提示来诱导教师模型的理由，从而减少了手工制作 "零镜头 "示例的必要性，并降低了所需的总体令牌数量，鉴于主要科技公司的 LLM API 均采用按令牌付费的计费模式，这就直接节省了成本。此外，论文还研究了解释属性对蒸馏效率的影响，证明即使不在整个数据集上应用理由增强，性能损失也微乎其微，从而有助于进一步减少令牌数量。这项研究标志着我们朝着在最少人工干预的情况下高效训练特定任务模型的方向迈出了一步，在保持甚至提高性能的同时节省了大量成本。

13.TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions

标题:TrustSQL：具有多种无法回答问题的文本到 SQL 模型的可靠性基准
author:Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi
publish:Work in Progress
date Time:2024-03-23

paper pdf:http://arxiv.org/pdf/2403.15879v1

摘要：

大型语言模型（LLM）的最新进展大大提高了将自然语言问题翻译成 SQL 查询的能力。虽然实现高精度 SQL 生成至关重要，但人们对这些文本到 SQL 模型能在多大程度上可靠地处理实际部署过程中遇到的各种类型的问题（包括无法回答的问题）知之甚少。为了探索这方面的问题，我们提出了 TrustSQL，这是一个新的基准，旨在评估文本到 SQL 模型在单数据库和跨数据库设置中的可靠性。该基准要求模型提供两种结果之一：1) SQL 预测；或 2) 在生成的 SQL 中存在潜在错误或面临无法回答的问题时放弃预测。为了对模型进行评估，我们探索了专门为这项任务设计的各种建模方法。这些方法包括1) 对可回答性检测、SQL 生成和错误检测的单独模型进行优化，然后将其集成到一个单一的管道中；以及 2) 开发一种统一的方法，对单一模型进行优化，以解决提出的任务。使用我们的新可靠性评分的实验结果表明，应对这一挑战涉及许多不同的研究领域，并为模型开发开辟了新的途径。尽管如此，没有一种方法的可靠性能超过天真基线，因为天真基线无法回答所有问题。

14.FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models

标题:FEEL：利用大型语言模型评估情感支持能力的框架
author:Huaiwen Zhang, Yu Chen, Ming Wang, Shi Feng
publish:14 pages,3 figures and 4 tables
date Time:2024-03-23

paper pdf:http://arxiv.org/pdf/2403.15699v1

摘要：

情感支持对话（ESC）是一种能够有效帮助用户减轻情感压力的典型对话。然而，由于情绪分析本身具有主观性，目前的非人工方法在有效评估情绪支持能力方面面临挑战。这些指标与人类判断的相关性较低。同时，人工评估方法极易导致高成本。为了解决这些问题，我们提出了一种新型模型 FEEL（用大型语言模型评估情感支持能力的框架），采用大型语言模型（LLM）作为评估工具来评估情感支持能力。该模型细致地考虑了情感支持能力的各种评价因素，从而为情感支持能力提供了一种更全面、更准确的评价方法。此外，该模型还采用了概率分布法以获得更稳定的结果，并整合了集合学习策略，利用多个具有指定权重的 LLM 来提高评估的准确性。为了评估 FEEL 的性能，我们在现有的 ESC 模型对话中进行了大量实验。实验结果表明，与基线相比，我们的模型大大提高了与人类评价的一致性。我们的源代码见 https://github.com/Ansisy/FEEL。

15.SceneX:Procedural Controllable Large-scale Scene Generation via Large-language Models

标题:SceneX：通过大型语言模型生成程序可控的大规模场景
author:Mengqi Zhou, Jun Hou, Chuanchen Luo, Yuxi Wang, Zhaoxiang Zhang, Junran Peng
date Time:2024-03-23

paper pdf:http://arxiv.org/pdf/2403.15698v1

摘要：

由于其巨大的应用潜力，大规模场景生成引起了学术界和工业界的广泛关注。最近的研究采用了功能强大的生成模型来创建所需的场景，并取得了可喜的成果。然而，这些方法大多使用与工业流水线不兼容的三维基元（如点云或辐射场）来表示场景，这导致学术研究与工业部署之间存在巨大差距。程序化可控生成（PCG）是一种创建可扩展高质量资产的高效技术，但它对普通用户并不友好，因为它需要深厚的领域专业知识。为了解决这些问题，我们采用大语言模型（LLM）来驱动程序建模。本文介绍了一个大型场景生成框架 SceneX，它可以根据设计者的文字描述自动生成高质量的程序模型。前者包含大量可访问的程序资产和数以千计的手工 API 文档。后者旨在为 Blender 生成可执行的操作，以便在用户指令的指导下生成可控且精确的 3D 资产。我们的 SceneX 可以生成一个 2.5 千米乘以 2.5 千米的城市，并具有精细的布局和几何结构，大大降低了时间成本，从专业 PCG 工程师的数周时间缩短到普通用户的几小时。广泛的实验证明了我们的方法在可控大规模场景生成和编辑方面的能力，包括资产放置和季节转换。

16.Large language models for crowd decision making based on prompt design strategies using ChatGPT: models, analysis and challenges

标题:基于 ChatGPT 的提示设计策略的人群决策大语言模型：模型、分析与挑战
author:Cristina Zuheros, David Herrera-Poyatos, Rosana Montes, Francisco Herrera
date Time:2024-03-22

paper pdf:http://arxiv.org/pdf/2403.15587v1

摘要：

社交媒体和互联网有可能被用作丰富决策解决方案的意见来源。群体决策（CDM）是一种能够通过情感分析从普通文本（如社交媒体平台上发布的评论）中推断意见和决策的方法。目前，大型语言模型（LLM）的出现和潜力使我们开始探索自动理解书面文本的新方案，也就是所谓的自然语言处理。本文分析了基于提示设计策略的 ChatGPT 的使用，以协助 CDM 流程提取意见并做出决策。我们将 ChatGPT 集成到 CDM 流程中，作为一种灵活的工具，推断文本中表达的观点，提供数字或语言评估，其中决策模型基于提示设计策略。我们将多标准决策情景与标准类别本体相结合。我们还将 ChatGPT 视为端到端的 CDM 模型，它能够提供一般意见和对备选方案的评分。我们在 TripAdvisor 的真实数据 TripR-2020Large 数据集上进行了实证实验。结果分析表明，使用 ChatGPT 开发高质量决策模型的前景广阔。最后，我们讨论了在清洁发展机制过程中使用 LLMs 所面临的一致性、敏感性和可解释性方面的挑战，并提出了未来研究的开放性问题。

17.Can large language models explore in-context?

标题:大型语言模型能否在语境中进行探索？
author:Akshay Krishnamurthy, Keegan Harris, Dylan J. Foster, Cyril Zhang, Aleksandrs Slivkins
date Time:2024-03-22

paper pdf:http://arxiv.org/pdf/2403.15371v1

摘要：

我们研究了当代大型语言模型（LLM）能够在多大程度上进行探索，这是强化学习和决策制定的核心能力。我们将重点放在现有 LLM 在没有训练干预的情况下的本地性能上。我们将 LLM 作为代理部署在简单的多臂匪徒环境中，完全在上下文中（即在 LLM 提示中）指定环境描述和交互历史。我们使用各种提示设计对 GPT-3.5、GPT-4 和 Llama2 进行了实验，发现这些模型在没有实质性干预的情况下并不能稳健地进行探索：i) 在我们的所有实验中，只有一种配置产生了令人满意的探索行为：i) 在我们所有的实验中，只有一种配置产生了令人满意的探索行为：具有思维链推理和外部总结的交互历史的 GPT-4，以充分的统计数据呈现；ii) 所有其他配置都没有产生强有力的探索行为，包括那些具有思维链推理但没有总结历史的配置。虽然这些发现可以从正面解释，但它们表明，外部总结（在更复杂的环境中可能无法实现）对于从 LLM 代理中获得理想的行为非常重要。我们的结论是，要在复杂环境中增强基于 LLM 的决策制定代理的能力，可能需要进行非同小可的算法干预，例如微调或数据集整理。

18.LimGen: Probing the LLMs for Generating Suggestive Limitations of Research Papers

标题:LimGen：探究 LLMs 以生成研究论文的建议性局限性
author:Abdur Rahman Bin Md Faizullah, Ashok Urlana, Rahul Mishra
publish:16 pages, 3 figures
date Time:2024-03-22

paper pdf:http://arxiv.org/pdf/2403.15529v1

摘要：

审查局限性是学术研究审查过程中的一个关键步骤，它揭示了研究可能缺乏决定性或需要改进的方面。这有助于读者考虑进一步研究的广泛意义。在本文中，我们提出了一项新颖而具有挑战性的任务--研究论文的建议性限制生成（SLG）。我们汇编了一个名为 LimGen 的数据集，其中包含 4068 篇来自 ACL 文集的研究论文及其相关限制。通过深入研究相关挑战、实践启示和潜在机遇，我们研究了利用大型语言模型（LLM）生成提示性限制的几种方法。我们的 LimGen 数据集和代码可通过 https://github.com/armbf/LimGen 访问。

19.Event Temporal Relation Extraction based on Retrieval-Augmented on LLMs

标题:基于检索的事件时空关系提取--在 LLM 上进行增强
author:Xiaobin Zhang, Liangjun Zang, Qianwen Liu, Shuchong Wei, Songlin Hu
publish:8 pages,6 figures.Accepted to the International Joint Conference on

Neural Networks (IJCNN2024)
date Time:2024-03-22

paper pdf:http://arxiv.org/pdf/2403.15273v1

摘要：

事件时间关系（TempRel）是事件关系提取任务的主要对象。然而，TempRel 本身的模糊性增加了任务的难度。随着提示工程的兴起，设计有效的提示模板和口头化器来提取相关知识就显得尤为重要。传统的人工设计模板很难提取精确的时间知识。本文介绍了一种新颖的检索增强型 TempRel 提取方法，利用从大型语言模型（LLM）中检索到的知识来增强提示模板和口头化器。我们的方法利用了各种大型语言模型的不同能力，为模板和口头化器的设计提供了广泛的思路。我们提出的方法充分挖掘了 LLMs 在生成任务中的潜力，并为我们的设计贡献了更多知识。在三个广泛认可的数据集上进行的实证评估证明了我们的方法在提高事件时间关系提取任务性能方面的功效。

20.Imagination Augmented Generation: Learning to Imagine Richer Context for Question Answering over Large Language Models

标题:想象力增强生成：在大型语言模型上学习想象更丰富的问题解答语境
author:Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Shengping Liu, Jun Zhao
date Time:2024-03-22

paper pdf:http://arxiv.org/pdf/2403.15268v1

摘要：

有人提出了检索-增强-生成和生成-增强-生成方法，以增强大语言模型（LLM）问题解答所需的知识。但是，前者依赖于外部资源，而后者都需要将显式文档纳入上下文，从而导致上下文更长，消耗更多资源。最近的研究表明，LLMs 已经建立了丰富的知识模型，尽管没有被有效地触发或激活。受此启发，我们提出了一个新颖的知识增强框架--想象力增强生成（IAG），它模拟了人类在不依赖外部资源、仅靠想象力回答问题时弥补知识缺陷的能力。在 IAG 的指导下，我们提出了一种用于问题解答的想象力丰富语境方法（IMcQA），该方法通过以下两个模块获得更丰富的语境：通过生成具有长语境压缩功能的简短虚文档来实现显式想象力；利用超级网络生成适配器权重来实现隐式想象力。在三个数据集上的实验结果表明，IMcQA 在开域和闭卷设置中，以及在分布内性能和分布外泛化方面都表现出显著优势。我们的代码将发布在 https://github.com/Xnhyacinth/IAG 网站上。

21.Text clustering with LLM embeddings

标题:使用 LLM 嵌入进行文本聚类
author:Alina Petukhova, Joao P. Matos-Carvalho, Nuno Fachada
date Time:2024-03-22

paper pdf:http://arxiv.org/pdf/2403.15112v1

摘要：

文本聚类是组织日益增长的数字内容的一种重要方法，有助于在未分类的数据中建立结构和发现隐藏的模式。在这项研究中，我们研究了不同的文本嵌入（尤其是大型语言模型（LLM）中使用的嵌入）和聚类算法如何影响文本数据集的聚类。我们进行了一系列实验，以评估嵌入如何影响聚类结果、通过归纳降维以及嵌入大小调整所发挥的作用。结果显示，LLM 嵌入擅长捕捉结构化语言的细微差别，而 BERT 在性能上领先于轻量级选项。此外，我们还发现，增加嵌入维度和总结技术并不能统一地提高聚类效率，这表明在实际模型中使用这些策略时需要仔细分析。这些结果凸显了在文本聚类应用中，细致入微的文本表示需求与计算可行性之间的复杂平衡。本研究通过纳入 LLM 的嵌入，扩展了传统的文本聚类框架，从而为改进方法铺平了道路，并为未来各类文本分析的研究开辟了新的途径。

22.LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

标题:LLM2LLM：利用新颖的迭代数据增强技术提升 LLM
author:Nicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipali, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
publish:Our code is available at https://github.com/SqueezeAILab/LLM2LLM
date Time:2024-03-22

paper pdf:http://arxiv.org/pdf/2403.15042v1

摘要：

预训练大型语言模型（LLM）是目前解决绝大多数自然语言处理任务的最先进方法。虽然现实世界中的许多应用仍需要微调才能达到令人满意的性能水平，但其中许多应用的数据量较少，这使得微调具有挑战性。为了解决这个问题，我们提出了 LLM2LLM，这是一种有针对性的迭代数据增强策略，它使用教师 LLM 来增强小型种子数据集，通过增强额外的数据来对特定任务进行微调。LLM2LLM (1) 在初始种子数据上微调基准学生 LLM，(2) 评估并提取模型出错的数据点，(3) 使用教师 LLM 根据这些错误数据点生成合成数据，然后将其添加回训练数据中。这种方法放大了 LLM 在训练过程中预测错误的数据点所产生的信号，并将其重新整合到数据集中，以便 LLM 专注于更具挑战性的示例。我们的研究结果表明，LLM2LLM 显著提高了 LLM 在低数据机制中的性能，其表现优于传统的微调和其他数据增强基线。LLM2LLM 减少了对劳动密集型数据整理的依赖，为更具可扩展性和性能的 LLM 解决方案铺平了道路，使我们能够应对数据受限的领域和任务。与使用 LLaMA2-7B 学生模型在低数据条件下进行常规微调相比，我们在 GSM8K 数据集上取得了高达 24.2% 的改进，在 CaseHOLD 上取得了 32.6% 的改进，在 SNIPS 上取得了 32.0% 的改进，在 TREC 上取得了 52.6% 的改进，在 SST-2 上取得了 39.8% 的改进。

23.AutoRE: Document-Level Relation Extraction with Large Language Models

标题:AutoRE：利用大型语言模型进行文档级关系提取
author:Xue Lilong, Zhang Dan, Dong Yuxiao, Tang Jie
publish:11 pages
date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14888v1

摘要：

大型语言模型（LLM）在理解和生成文本方面表现出了卓越的能力，这促使众多研究人员将其用于信息提取（IE）目的，包括关系提取（RE）。然而，大多数现有方法主要是为句子级关系提取（SentRE）任务而设计的，这些任务通常只包含单句中有限的一组关系和三重事实。此外，某些方法将关系作为候选选项整合到提示模板中，导致处理效率低下，在处理文档级关系提取（DocRE）任务时性能不佳，因为文档级关系提取需要处理分布在给定文档中的多种关系和三重事实，这带来了独特的挑战。为了克服这些局限性，我们引入了 AutoRE，这是一种端到端的 DocRE 模型，它采用了一种名为 RHF（关系-头部-事实）的新型关系提取范式。与现有方法不同，AutoRE 不依赖于已知关系选项的假设，因此更能反映真实世界的场景。此外，我们还利用参数高效微调（PEFT）算法（QLoRA）开发了一个易于扩展的 RE 框架。我们在 RE-DocRED 数据集上的实验展示了 AutoRE 的最佳性能，取得了最先进的结果，在开发集和测试集上分别超过 TAG 10.03% 和 9.03%。

24.Evaluating the Performance of LLMs on Technical Language Processing tasks

标题:评估 LLM 在技术语言处理任务中的表现
author:Andrew Kernycky, David Coleman, Christopher Spence, Udayan Das
date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.15503v1

摘要：

本文介绍了对技术语言处理任务中 LLM 性能的评估研究结果。人类经常会遇到这样的任务：他们必须从不同来源收集信息，并需要理解大量文本。这些任务对人类来说非常复杂，往往需要深入研究，包括重读部分文本。为了简化收集信息的任务，我们对带有聊天界面的 LLM 进行了评估，以确定它们是否能够回答人类在阅读文本后有望回答的标准问题。我们研究的文本是《美国联邦法规汇编》（CFR）第 47 篇，其中描述了由联邦通信委员会（FCC）管理的商业电信法规。我们之所以对这一文本感兴趣，是因为我们更广泛的研究涉及如何以自动化方式理解与无线频谱管理和使用相关的信息，以支持动态频谱接入。有关这一无线频谱领域的信息可在许多不同的来源中找到，《美国联邦法规汇编》第 47 篇只是其中之一。通过使用一系列 LLM，并提供所需的 CFR 文本作为背景，我们能够量化这些 LLM 在回答以下问题的具体任务中的表现。

25.Large Language Models for Multi-Choice Question Classification of Medical Subjects

标题:用于医学主题多选题分类的大型语言模型
author:Víctor Ponce-López
date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14582v1

摘要：

本文旨在评估在多选题数据上训练的大型语言模型是否可用于区分医学科目。这是自动问题解答的一项重要而具有挑战性的任务。为了实现这一目标，我们训练了深度神经网络，用于将问题分为推断出的医学主题的多类分类。使用我们的多问题（MQ）序列-BERT 方法，我们在 MedMCQA 数据集上的准确率超过了最先进的结果，在其开发集和测试集上的准确率分别为 0.68 和 0.60。从这个意义上说，我们展示了人工智能和 LLMs 在医疗保健领域的多重分类任务中的能力。

26.Less but Better: Enabling Generalized Zero-shot Learning Towards Unseen Domains by Intrinsic Learning from Redundant LLM Semantics

标题:少而精：通过从冗余 LLM 语义中进行内在学习，实现面向未知领域的通用零点学习
author:Jiaqi Yue, Jiancheng Zhao, Chunhui Zhao
publish:This work is submitted to IEEE TNNLS and is subject to IEEE copyright
date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14362v1

摘要：

广义零点学习（Generalized zero-shot learning，GZSL）主要针对领域转移问题（domain shift problem，DSP），即未见类别的数据可能会被误分类为已见类别，识别已见和未见类别。然而，现有的 GZSL 仍局限于已见域。在当前的工作中，我们开创了跨域 GZSL（CDGZSL），解决了 GZSL 在未见域中的问题。现有的 GZSL 方法是通过生成具有语义的未见类特征来减轻 DSP，与此不同，CDGZSL 需要构建跨域的公共特征空间，并获取域间共享的相应内在语义，以便从可见域转移到未见域。考虑到用大型语言模型（LLM）注释的冗余类语义所造成的信息不对称问题，我们提出了元域对齐语义提炼（MDASR）。从技术上讲，MDASR 由两部分组成：类间相似性对齐（ISA）：在类间特征关系的指导下，消除所有领域中不共享的非内在语义；未见类元生成（UMG）：通过模拟特征生成，保留内在语义以保持可见类和未见类之间的连接。MDASR 能有效地将冗余语义空间与通用特征空间相一致，从而缓解 CDGZSL 中的信息不对称问题。MDASR 的有效性在 Office-Home 和 Mini-DomainNet 上得到了验证，我们还分享了这些数据集的基于 LLM 的语义作为基准。

27.Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection

标题:从反思反馈中强化学习（RLRF）：通过细粒度自我反思调整和改进 LLM
author:Kyungjae Lee, Dasol Hwang, Sunghyun Park, Youngsoo Jang, Moontae Lee
publish:22 pages, 5 figures, Submitted to ACL 2024
date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14238v1

摘要：

尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为，但它往往会导致表面上的一致，优先考虑风格上的改变，而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战，我们提出了一个新颖的框架：从反思反馈中强化学习（RLRF），它利用基于详细标准的细粒度反馈来提高 LLM 的核心能力。RLRF 采用自我反思机制来系统地探索和完善 LLM 的反应，然后通过 RL 算法对模型进行微调，同时对有前途的反应进行微调。我们在 "公正-评价"、"事实性 "和 "数学推理 "方面的实验证明，RLRF 的功效和变革潜力超出了表面的调整。

28.Improving the Robustness of Large Language Models via Consistency Alignment

标题:通过一致性对齐提高大型语言模型的稳健性
author:Yukun Zhao, Lingyong Yan, Weiwei Sun, Guoliang Xing, Shuaiqiang Wang, Chong Meng, Zhicong Cheng, Zhaochun Ren, Dawei Yin
publish:Accepted by LREC-COLING 2024
date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14221v2

摘要：

大型语言模型（LLM）在遵循用户指令并生成有用的响应方面取得了巨大成功。然而，它们的鲁棒性还远未达到最佳状态，因为它们可能会因为口头指令的细微变化而生成明显不一致的响应。最近有文献探讨了这一不一致性问题，强调了持续改进应答生成鲁棒性的重要性。然而，目前仍缺乏系统的分析和解决方案。在本文中，我们对不一致性问题进行了定量定义，并提出了一个由指令增强监督微调和一致性对齐训练组成的两阶段训练框架。第一阶段通过类似指令增强帮助模型泛化后续指令。在第二阶段，我们通过区分类似反应中的细微差别来提高多样性，并帮助模型理解哪些反应更符合人类的期望。训练过程由第一阶段训练好的模型推断出的自我奖励完成，无需参考外部的人类偏好资源。我们在最近公开发布的 LLM 上就指令遵循任务进行了大量实验，证明了我们的训练框架的有效性。

29.LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

标题:LlamaFactory：统一高效地微调 100 多种语言模型
author:Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo, Yongqiang Ma
publish:12 pages, preprint
date Time:2024-03-20

paper pdf:http://arxiv.org/pdf/2403.13372v2

摘要：

高效的微调对大型语言模型（LLM）适应下游任务至关重要。然而，在不同的模型上实现这些方法需要付出非同小可的努力。我们提出的 LlamaFactory 是一个统一的框架，它集成了一整套最先进的高效训练方法。它允许用户通过内置的网络用户界面 LlamaBoard 灵活定制 100 多种 LLM 的微调，而无需编码。我们通过经验验证了我们的框架在语言建模和文本生成任务中的效率和有效性。该框架已在 https://github.com/hiyouga/LLaMA-Factory 上发布，并已获得 13,000 多颗星和 1,600 多个分叉。