AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.09.05-2024.09.10

文章目录～

[1.E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning](#1.E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning)
[2.Alleviating Hallucinations in Large Language Models with Scepticism Modeling](#2.Alleviating Hallucinations in Large Language Models with Scepticism Modeling)
[3.Enhancing Long Video Understanding via Hierarchical Event-Based Memory](#3.Enhancing Long Video Understanding via Hierarchical Event-Based Memory)
[4.Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models](#4.Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models)
[5.Can Large Language Models Unlock Novel Scientific Research Ideas?](#5.Can Large Language Models Unlock Novel Scientific Research Ideas?)
[6.FLoRA: Federated Fine-Tuning Large Language Models with Heterogeneous Low-Rank Adaptations](#6.FLoRA: Federated Fine-Tuning Large Language Models with Heterogeneous Low-Rank Adaptations)
[7.MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery](#7.MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery)
[8.SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning](#8.SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning)
[9.Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models](#9.Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models)
[10.OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs](#10.OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs)
[11.Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models](#11.Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models)
[12.Customizing Large Language Model Generation Style using Parameter-Efficient Finetuning](#12.Customizing Large Language Model Generation Style using Parameter-Efficient Finetuning)
[13.Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages](#13.Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages)
[14.Learning vs Retrieval: The Role of In-Context Examples in Regression with LLMs](#14.Learning vs Retrieval: The Role of In-Context Examples in Regression with LLMs)
[15.Combining LLMs and Knowledge Graphs to Reduce Hallucinations in Question Answering](#15.Combining LLMs and Knowledge Graphs to Reduce Hallucinations in Question Answering)
[16.Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation](#16.Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation)
[17.AnyMatch -- Efficient Zero-Shot Entity Matching with a Small Language Model](#17.AnyMatch -- Efficient Zero-Shot Entity Matching with a Small Language Model)
[18.On The Role of Prompt Construction In Enhancing Efficacy and Efficiency of LLM-Based Tabular Data Generation](#18.On The Role of Prompt Construction In Enhancing Efficacy and Efficiency of LLM-Based Tabular Data Generation)

1.E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning

标题:E2LLM：用于长语境理解和推理的编码器拉长大语言模型
author:Zihan Liao, Jun Wang, Hang Yu, Lingxiao Wei, Jianguo Li, Jun Wang, Wei Zhang
publish:12 pages, 4 figures
date Time:2024-09-10

paper pdf:http://arxiv.org/pdf/2409.06679v1

摘要：

在大型语言模型（LLM）领域，处理长语境的能力对于多轮对话、代码生成和文档摘要等任务越来越重要。本文探讨了提高长语境性能、降低计算复杂度和利用预训练模型（统称为 "不可能三角"）等难题。我们介绍了 E2LLM（编码器拉长大语言模型），这是一种有效解决这一矛盾的新方法。该方法包括将长上下文分割成块，通过预训练的文本编码器将每个块压缩成嵌入向量，并利用适配器将这些表示与仅解码器的 LLM 对齐。为了便于 LLM 理解软提示，我们采用了两个训练目标，分别侧重于编码器输出的重构和长语境指令的微调。实验结果表明，E2LLM 在长语境场景中实现了卓越的性能，同时兼顾了效率、性能以及与预训练模型的兼容性。因此，我们的框架代表了该领域的一大进步，有助于实现有效的长文本建模。

2.Alleviating Hallucinations in Large Language Models with Scepticism Modeling

标题:用怀疑论建模缓解大型语言模型中的幻觉
author:Yetao Wu, Yihong Wang, Teng Chen, Chenxi Liu, Ningyuan Xi, Qingqing Gu, Hongyang Lei, Zhonglin Jiang, Yong Chen, Luo Ji
publish:11 pages, 6 figures
date Time:2024-09-10

paper pdf:http://arxiv.org/pdf/2409.06601v1

摘要：

幻觉是大型语言模型（LLM）面临的一大挑战，阻碍了其在各个领域的应用。不确定性估计可用于减轻幻觉带来的损害。人类的怀疑情绪有助于提高自我估计能力。受此启发，我们提出了一种名为 "怀疑建模"（SM）的新方法。这种方法通过结合标记信息和对数信息来进行自我估计。我们构建了怀疑情绪感知数据，进行持续的预训练，然后对 LLM 进行微调，提高它们的自我估计能力。实验结果表明，这种新方法能有效提高模型估计其不确定性的能力，并通过域外实验验证了其对其他任务的泛化能力。

3.Enhancing Long Video Understanding via Hierarchical Event-Based Memory

标题:通过分层事件记忆增强长视频理解能力
author:Dingxin Cheng, Mingda Li, Jingyu Liu, Yongxin Guo, Bin Jiang, Qingbin Liu, Xi Chen, Bo Zhao
date Time:2024-09-10

paper pdf:http://arxiv.org/pdf/2409.06299v1

摘要：

最近，将视觉基础模型集成到大型语言模型（LLM）中以形成视频理解系统的做法引起了广泛关注。现有的大多数模型都会压缩整个视频中的各种语义信息，并将其输入 LLM 进行内容理解。虽然这种方法在短视频理解方面表现出色，但在长视频中，由于压缩粗糙，可能会导致多种事件信息的混合，从而造成信息冗余。因此，关键事件的语义可能会被大量信息所掩盖，从而影响模型的理解能力。为了解决这个问题，我们提出了一种基于分层事件记忆的增强型 LLM（HEM-LLM），以更好地理解长视频。首先，我们设计了一种新颖的自适应序列分割方案来分割长视频中的多个事件。这样，我们就可以对每个事件进行单独的记忆建模，建立事件内部的上下文联系，从而减少信息冗余。其次，在对当前事件建模的同时，我们压缩并注入了前一事件的信息，以增强视频中事件间的长期依赖性。最后，我们在各种视频理解任务中进行了大量实验，结果表明我们的模型达到了最先进的性能。

4.Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

标题:Ferret：针对大型语言模型的大规模联合全参数调整
author:Yao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu
date Time:2024-09-10

paper pdf:http://arxiv.org/pdf/2409.06277v2

摘要：

大型语言模型（LLM）已成为众多实际应用中不可或缺的工具。遗憾的是，对这些模型进行大规模微调，尤其是在数据隐私和通信效率至关重要的联合环境中进行微调，面临着巨大的挑战。现有方法通常采用参数高效微调（PEFT）来减少通信开销，但这通常是以牺牲模型准确性为代价的。为了解决这些局限性，我们提出了大规模联合全参数调整 LLMs（Ferret），这是第一种具有共享随机性的一阶方法，可以在分散数据源中对 LLMs 进行可扩展的全参数调整，同时保持有竞争力的模型精度。Ferret 通过三个方面实现了这一目标：（1）采用广泛应用的一阶方法进行高效的局部更新；（2）将这些更新投影到一个低维空间，以大大减少通信开销；（3）利用共享随机性从这个低维空间重建局部更新，以促进有效的全参数全局聚合，确保快速收敛和具有竞争力的最终性能。我们严谨的理论分析和见解以及广泛的实验表明，Ferret 通过实现高计算效率、减少通信开销和快速收敛，显著增强了现有联合全参数调整方法的可扩展性，同时保持了具有竞争力的模型精度。我们的实现方法可在 https://github.com/allen4747/Ferret 上查阅。

5.Can Large Language Models Unlock Novel Scientific Research Ideas?

标题:大型语言模型能否开启科研新思路？
author:Sandeep Kumar, Tirthankar Ghosal, Vinayak Goyal, Asif Ekbal
publish:24 pages, 12 figures, 6 tables
date Time:2024-09-10

paper pdf:http://arxiv.org/pdf/2409.06185v1

摘要：

"一个想法无非是旧元素的新组合"（Young, J.W.）。大型语言模型（LLMs）和公开可用的 ChatGPT 的广泛应用标志着人工智能（AI）与人们日常生活融合的一个重要转折点。本研究根据研究论文中的信息，探讨了 LLM 在产生新颖研究想法方面的能力。我们对五个领域（如化学、计算机、经济学、医学和物理学）的 4 名法律硕士进行了深入研究。我们发现，与 GPT-3.5 和 Gemini 相比，Claude-2 和 GPT-4 产生的未来研究想法更符合作者的观点。我们还发现，与 GPT-4、GPT-3.5 和 Gemini 1.0 相比，Claude-2 生成的未来研究想法更加多样化。我们还对所生成的未来研究想法的新颖性、相关性和可行性进行了人工评估。这项调查深入揭示了 LLM 在创意生成中不断演变的作用，同时强调了其能力和局限性。我们的工作为评估和利用语言模型生成未来研究想法的持续努力做出了贡献。我们公开我们的数据集和代码。

6.FLoRA: Federated Fine-Tuning Large Language Models with Heterogeneous Low-Rank Adaptations

标题:FLoRA：利用异构低库库适配对大型语言模型进行联合微调
author:Ziyao Wang, Zheyu Shen, Yexiao He, Guoheng Sun, Hongyi Wang, Lingjuan Lyu, Ang Li
date Time:2024-09-09

paper pdf:http://arxiv.org/pdf/2409.05976v1

摘要：

大型语言模型（LLMs）的快速发展对人工智能的进步起到了关键作用，预先训练的 LLMs 可通过微调适应各种下游任务。联邦学习（FL）通过就地计算利用客户的本地数据，无需移动数据，从而以隐私感知的方式进一步增强了微调能力。然而，由于 LLMs 的参数规模庞大，因此对 FL 中资源有限且异构的客户端来说，微调 LLMs 是一项挑战。以前的方法采用低阶适配（LoRA）进行高效的联合微调，但在 LoRA 适配器上使用传统的 FL 聚合策略。这些方法导致了数学上不准确的聚合噪声，降低了微调的有效性，也无法解决异构 LoRA 的问题。在这项工作中，我们首先强调了现有联合微调方法中 LoRA 聚合的数学不正确性。我们引入了一种名为 FLORA 的新方法，该方法通过一种基于堆叠的新型聚合方法，在跨客户端的异构 LoRA 适配器上实现联合微调。我们的方法无噪声，可无缝支持异构 LoRA 适配器。广泛的实验证明，FLORA 在同构和异构环境中均表现出色，超越了最先进的方法。我们将这项工作视为高效、保护隐私和精确联合微调 LLM 的里程碑。我们的代码见 https://github.com/ATP-1010/FederatedLLM。

7.MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery

标题:MemoRAG：通过受记忆启发的知识发现实现下一代 RAG
author:Hongjin Qian, Peitian Zhang, Zheng Liu, Kelong Mao, Zhicheng Dou
publish:Technical Report. Codes and models are in

https://github.com/qhjqhj00/MemoRAG
date Time:2024-09-09

paper pdf:http://arxiv.org/pdf/2409.05591v2

摘要：

检索增强生成（RAG）利用检索工具访问外部数据库，从而通过优化上下文提高大型语言模型（LLM）的生成质量。然而，现有的检索方法受到内在限制，因为它们只能在明确提出的查询和格式化的知识之间进行相关性匹配，而无法处理涉及模糊信息需求或非结构化知识的任务。因此，现有的 RAG 系统主要适用于简单的问题解答任务。在这项工作中，我们提出了 MemoRAG，一种由长期记忆支持的新型检索增强生成范例。MemoRAG 采用双系统架构。一方面，它采用轻型但长程的 LLM 来形成数据库的全局记忆。一旦提出任务，它就会生成答案草稿，并将检索工具集群化，以便在数据库中找到有用的信息。另一方面，它利用昂贵但富有表现力的 LLM，根据检索到的信息生成最终答案。在这一总体框架的基础上，我们通过增强聚类机制和记忆能力，进一步优化了 MemoRAG 的性能。在我们的实验中，MemoRAG 在各种评估任务中都取得了优异的性能，包括传统 RAG 失效的复杂任务和 RAG 常用的简单任务。

8.SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning

标题:科学代理人：通过多代理智能图推理实现科学发现自动化
author:Alireza Ghafarollahi, Markus J. Buehler
date Time:2024-09-09

paper pdf:http://arxiv.org/pdf/2409.05556v1

摘要：

人工智能领域的一个关键挑战是创建能够通过探索新领域、识别复杂模式以及在庞大的科学数据中发现以前从未见过的联系来自主推进科学理解的系统。在这项工作中，我们提出了科学代理（SciAgents）这一方法，它利用了三个核心概念：（1）使用大规模本体知识图谱来组织和连接不同的科学概念；（2）一套大型语言模型（LLM）和数据检索工具；以及（3）具有现场学习能力的多代理系统。应用于生物启发材料，SciAgents 能够揭示隐藏的跨学科关系，而这些关系以前被认为是不相关的，其规模、精确度和探索能力超越了传统的人工驱动研究方法。该框架可自主生成和完善研究假设，阐明潜在机制、设计原理和意想不到的材料特性。通过以模块化的方式整合这些功能，智能系统可以发现材料、批判和改进现有假设、检索有关现有研究的最新数据，并突出其优势和局限性。我们的案例研究展示了将生成式人工智能、本体表征和多代理建模相结合的可扩展能力，利用了与生物系统类似的 "智能群"。这为材料发现提供了新途径，并通过发掘大自然的设计原理加速了先进材料的开发。

9.Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models

标题:利用大型语言模型构建稳健的知识密集型问题解答模型
author:Hong Xingyun Hong, Shao Yan Shao, Wang Zhilin Wang, Duan Manni Duan, Jin Xiongnan
publish:This paper has been accepted by NLPCC-2024
date Time:2024-09-09

paper pdf:http://arxiv.org/pdf/2409.05385v2

摘要：

LLM 的发展大大提高了问题解答的智能性和流畅性，而检索增强技术的出现则使模型能够更好地利用外部信息。然而，检索信息中存在的噪音和错误给 LLM 的鲁棒性带来了挑战。在这项工作中，为了评估模型在多重干扰下的性能，我们首先基于机器阅读理解数据集构建了一个数据集，模拟了各种情况，包括关键信息缺失、噪声和冲突。针对噪声外部信息导致模型准确性下降的问题，我们提出了一种基于数据增强的微调方法，以增强 LLM 对噪声的鲁棒性。此外，我们还利用对比学习方法来保持模型对外部信息的辨别能力。我们对现有的 LLM 和我们的方法进行了实验，实验结果通过 GPT-4 进行了评估，结果表明我们提出的方法在提高模型鲁棒性的同时，还增强了模型的辨别能力。

10.OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

标题:OneGen：LLM 的高效单程统一生成和检索
author:Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang
publish:Work in progress; code is available at

https://github.com/zjunlp/OneGen
date Time:2024-09-08

paper pdf:http://arxiv.org/pdf/2409.05152v1

摘要：

尽管近年来大语言模型（LLM）取得了长足的进步，极大地增强了各种 NLP 任务的生成能力，但 LLM 在直接处理检索任务方面仍然面临着局限性。然而，许多实际应用都需要检索和生成的无缝集成。本文介绍了一种新颖、高效的 "一次生成和检索 "框架（OneGen），旨在提高 LLM 在同时需要生成和检索的任务中的性能。所提出的框架通过结合自回归生成的检索标记，在传统的生成和检索分离训练方法之间架起了一座桥梁。这使得单个 LLM 可以在统一的前向传递中同时处理这两项任务。我们对 RAG 和实体链接这两种不同类型的复合任务进行了实验，以验证 OneGen 在训练和推理中的可插拔性、有效性和效率。此外，我们的结果表明，将生成和检索整合在同一上下文中，既保留了 LLM 的生成能力，又提高了检索性能。据我们所知，OneGen 是第一个能让 LLM 在生成过程中进行向量检索的工具。

11.Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models

标题:选择性自我演练：改进大型语言模型泛化的微调方法
author:Sonam Gupta, Yatin Nandwani, Asaf Yehudai, Mayank Mishra, Gaurav Pandey, Dinesh Raghu, Sachindra Joshi
publish:14 pages, 8 figures
date Time:2024-09-07

paper pdf:http://arxiv.org/pdf/2409.04787v1

摘要：

在特定数据集上对大型语言模型（LLM）进行微调是提高目标任务性能的常见做法。然而，这种性能提升往往会导致过拟合，即模型在任务或训练数据特征方面变得过于专业化，从而导致泛化损失。本文介绍了选择性自我演练（SSR），这是一种微调方法，可在提高泛化能力的同时实现与标准监督微调（SFT）相当的性能。SSR 利用了一个查询可能有多个有效响应这一事实。通过利用模型的正确响应，SSR 在微调阶段减少了模型的特殊化。SSR 首先通过部署一个合适的 LLM 作为法官，从训练集中识别出正确的模型响应。然后，它使用正确的模型响应和剩余样本的黄金响应对模型进行微调。通过在各种数据集上识别无法回答的查询任务的实验，证明了 SSR 的有效性。结果表明，标准 SFT 会导致 MMLU 和 TruthfulQA 等多个基准的平均性能下降高达 16.7 美元。相比之下，SSR 的平均性能下降接近 2 美元，这表明与标准 SFT 相比，SSR 具有更好的泛化能力。

12.Customizing Large Language Model Generation Style using Parameter-Efficient Finetuning

标题:利用参数高效微调定制大型语言模型生成风格
author:Xinyue Liu, Harshita Diddee, Daphne Ippolito
date Time:2024-09-06

paper pdf:http://arxiv.org/pdf/2409.04574v1

摘要：

一刀切 "式的大型语言模型（LLM）越来越多地被用于帮助人们进行写作。然而，这些模型训练出来的写作风格可能并不适合所有用户或使用情况。如果能根据每个用户的具体情况定制 LLM，那么它们作为写作助手将更加有用。在本文中，我们探讨了参数高效微调（PEFT）与低秩自适应（Low-Rank Adaptation）能否有效地指导 LLM 的生成风格。我们使用这种方法为十位不同的作者定制了 LLaMA-2，结果表明生成的文本在词法、句法和表面方面与目标作者一致，但在内容记忆方面却很困难。我们的研究结果凸显了 PEFT 在支持高效的用户级 LLM 定制方面的潜力。

13.Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages

标题:翻译链提示（CoTR）：低资源语言的新型提示技术
author:Tejas Deshpande, Nidhi Kowtal, Raviraj Joshi
date Time:2024-09-06

paper pdf:http://arxiv.org/pdf/2409.04512v1

摘要：

本文介绍了翻译提示链（CoTR），这是一种新颖的策略，旨在提高语言模型在低资源语言中的性能。CoTR 对提示进行了重组，首先将输入上下文从低资源语言翻译成高资源语言，如英语。然后在翻译后的文本上执行指定的任务，如生成、分类或任何其他 NLP 功能，如有需要，还可将输出翻译回原始语言。所有这些步骤都在一个提示中指定。我们通过对低资源印度语马拉地语的案例研究证明了这种方法的有效性。CoTR 策略适用于各种任务，包括情感分析、仇恨言论分类、主题分类和文本生成，并通过与常规提示方法的比较展示了其功效。我们的研究结果凸显了基于翻译的提示策略在低资源语言中显著提高多语言 LLM 性能的潜力，为未来的研究和应用提供了宝贵的见解。特别是在仇恨言论检测任务中，我们发现准确率的提高幅度最大。该技术还有可能提高使用 LLM 生成代表性不足语言的合成数据的质量。

14.Learning vs Retrieval: The Role of In-Context Examples in Regression with LLMs

标题:学习与检索：使用 LLM 进行回归时上下文示例的作用
author:Aliakbar Nafar, Kristen Brent Venable, Parisa Kordjamshidi
date Time:2024-09-06

paper pdf:http://arxiv.org/pdf/2409.04318v1

摘要：

生成式大语言模型（LLM）能够成为上下文学习器。然而，语境中学习（ICL）的基本机制仍然是一个重大的研究问题，而关于模型如何利用语境中学习的实验研究结果也并非总是一致的。在这项工作中，我们提出了一个评估上下文学习机制的框架，我们声称这种机制是检索内部知识和从上下文示例中学习的结合，重点是回归任务。首先，我们证明 LLM 可以在真实世界的数据集上进行回归，然后设计实验来衡量 LLM 检索内部知识与从上下文示例中学习的程度。我们认为，这一过程介于这两个极端之间。我们深入分析了这些机制的触发程度取决于各种因素，例如有关任务的先前知识以及上下文示例所提供信息的类型和丰富程度。我们采用了三种 LLM，并利用多个数据集来证实我们研究结果的稳健性。我们的研究结果揭示了如何设计提示来利用上下文示例中的元学习，并根据所要解决的问题促进知识检索。

15.Combining LLMs and Knowledge Graphs to Reduce Hallucinations in Question Answering

标题:结合 LLM 和知识图谱减少问题解答中的幻觉
author:Larissa Pusch, Tim O. F. Conrad
date Time:2024-09-06

paper pdf:http://arxiv.org/pdf/2409.04181v1

摘要：

自然语言处理技术的进步彻底改变了我们与数据库等数字信息系统的交互方式，使它们更易于访问。然而，挑战依然存在，尤其是当准确性至关重要时，例如在生物医学领域。一个关键问题是幻觉问题，即模型生成的信息缺乏基础数据的支持，可能导致危险的错误信息。本文以生物医学知识图谱（KG）为例，介绍了一种旨在弥合这一差距的新方法，即结合大型语言模型（LLM）和知识图谱（KG）来提高问题解答系统的准确性和可靠性。我们的方法以 LangChain 框架为基础，包含一个查询检查器，可确保 LLM 生成的查询在语法和语义上的有效性，然后用于从知识图谱中提取信息，从而大大减少幻觉等错误。我们使用一个包含 50 个生物医学问题的新基准数据集对整体性能进行了评估，并测试了多个 LLM，包括 GPT-4 Turbo 和 llama3:70b。我们的结果表明，GPT-4 Turbo 在生成准确查询方面优于其他模型，而 llama3:70b 等开源模型则通过适当的提示工程显示了前景。为了使这种方法易于使用，我们开发了一个用户友好型网络界面，允许用户输入自然语言查询，查看生成和修正的 Cypher 查询，并验证生成路径的准确性。总之，这种混合方法有效地解决了数据缺口和幻觉等常见问题，为问题解答系统提供了可靠而直观的解决方案。生成本文结果和用户界面的源代码可在我们的 Git 代码库中找到： https://git.zib.de/lpusch/cyphergenkg-gui

16.Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation

标题:开源能否击败 ChatGPT？-- 用于文本到代码生成的大型语言模型比较研究
author:Luis Mayer, Christian Heumann, Matthias Aßenmacher
publish:Conference Paper accepted at the 9th SwissText Conference (2024)
date Time:2024-09-06

paper pdf:http://arxiv.org/pdf/2409.04164v1

摘要：

近年来，大型语言模型（LLM）已成为在软件工程等多个领域具有潜在应用价值的强大工具。在本研究范围内，我们评估了 Bard、BingChat、ChatGPT、Llama2 和 Code Llama 这五种最先进的大型语言模型在文本到代码生成方面的能力。在一项实证研究中，我们从编程网站 LeetCode 上获取了编码问题的文字描述，并将这些文字描述的提示输入到模型中，让模型用 Python 语言创建解决方案。随后，我们使用 LeetCode 的测试功能对生成输出的质量进行了评估。结果表明，所调查模型之间的性能差异很大。ChatGPT 能够最有效地处理这些典型的编程挑战，甚至超过了代码 Llama 等代码专业模型。为了进一步了解情况，我们测量了生成输出的运行时间和内存使用情况，并将其与 Leetcode 上提交的其他代码进行了比较。详细的错误分析包括比较生成代码的正确缩进和形式方面的差异，以及将错误解决的任务分配到特定的错误类别，这使我们能够更细致地了解结果和改进潜力。结果还显示了一个明显的模式，即当模型面对大量的上下文（以较长提示的形式）时，生成的代码越来越不正确。

17.AnyMatch -- Efficient Zero-Shot Entity Matching with a Small Language Model

标题:AnyMatch -- 利用小型语言模型进行高效的零点实体匹配
author:Zeyu Zhang, Paul Groth, Iacer Calixto, Sebastian Schelter
publish:12 pages excluding references, 3 figures, and 5 tables
date Time:2024-09-06

paper pdf:http://arxiv.org/pdf/2409.04073v2

摘要：

实体匹配（EM）是确定两条记录是否指向同一现实世界实体的问题，这在数据集成（如产品目录或地址数据库）中至关重要。许多 EM 方法的一个主要缺点是依赖于标记示例。因此，我们将重点放在具有挑战性的 "零次实体匹配 "环境上，在这种环境下，没有标记的示例可用于未见过的目标数据集。最近，大型语言模型（LLM）在零拍 EM 方面取得了可喜的成果，但其低吞吐量和高部署成本限制了其适用性和可扩展性。我们利用 AnyMatch（一种在迁移学习设置中进行微调的小型语言模型）重新审视了零点 EM 问题。我们提出了几种新颖的数据选择技术，以便为我们的模型生成微调数据，例如，通过 AutoML 过滤器选择难以匹配的配对，生成额外的属性级示例，以及控制数据中的标签不平衡。我们在九个基准数据集上与 13 个基线进行了比较，对我们模型的预测质量和部署成本进行了广泛评估。我们发现，尽管参数规模较小，AnyMatch 却能提供有竞争力的预测质量：它获得了第二高的 F1 总分，并优于其他几种采用千亿参数模型的方法。此外，我们的方法在成本方面也有很大的优势：AnyMatch 的平均预测质量与采用专有万亿参数模型 GPT-4 的最先进方法 MatchGPT 相比，相差不到 4.4%，但 AnyMatch 所需的参数却比后者少了四个数量级，推理成本也低了 3899 倍（按每千个代币美元计算）。

18.On The Role of Prompt Construction In Enhancing Efficacy and Efficiency of LLM-Based Tabular Data Generation

标题:论及时构建在提高基于 LLM 的表格式数据生成效率中的作用
author:Banooqa Banday, Kowshik Thopalli, Tanzima Z. Islam, Jayaraman J. Thiagarajan
date Time:2024-09-06

paper pdf:http://arxiv.org/pdf/2409.03946v1

摘要：

由于用于描述列的特征名称缺乏足够的语义上下文，基于 LLM 的真实世界表格数据生成可能会面临挑战。我们假设，用特定领域的见解来丰富提示语可以提高数据生成的质量和效率。为了验证这一假设，我们探索了三种提示构建协议：专家指导、LLM 指导和新颖映射。通过使用最近提出的 GReaT 框架进行实证研究，我们发现丰富语境的提示能显著提高数据生成质量和训练效率。