AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.04.10-2024.04.15

文章目录~

[1.Unveiling Imitation Learning: Exploring the Impact of Data Falsity to Large Language Model](#1.Unveiling Imitation Learning: Exploring the Impact of Data Falsity to Large Language Model)
[2.Are Large Language Models Reliable Argument Quality Annotators?](#2.Are Large Language Models Reliable Argument Quality Annotators?)
[3.LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models](#3.LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models)
[4.Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection](#4.Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection)
[5.Large language models and linguistic intentionality](#5.Large language models and linguistic intentionality)
[6.Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models](#6.Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models)
[7.Bridging the Gap between Different Vocabularies for LLM Ensemble](#7.Bridging the Gap between Different Vocabularies for LLM Ensemble)
[8.Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning](#8.Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning)
[9.Towards Practical Tool Usage for Continually Learning LLMs](#9.Towards Practical Tool Usage for Continually Learning LLMs)
[10.Self-Selected Attention Span for Accelerating Large Language Model Inference](#10.Self-Selected Attention Span for Accelerating Large Language Model Inference)
[11.Large Language Models are as persuasive as humans, but why? About the cognitive effort and moral-emotional language of LLM arguments](#11.Large Language Models are as persuasive as humans, but why? About the cognitive effort and moral-emotional language of LLM arguments)
[12.TransformerFAM: Feedback attention is working memory](#12.TransformerFAM: Feedback attention is working memory)
[13.Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models](#13.Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models)
[14.Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation](#14.Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation)
[15.EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM](#15.EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM)
[16.LLM In-Context Recall is Prompt Dependent](#16.LLM In-Context Recall is Prompt Dependent)
[17.Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length](#17.Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length)
[18.LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning](#18.LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning)
[19.CATS: Contextually-Aware Thresholding for Sparsity in Large Language Models](#19.CATS: Contextually-Aware Thresholding for Sparsity in Large Language Models)
[20.Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts](#20.Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts)
[21.Small Models Are (Still) Effective Cross-Domain Argument Extractors](#21.Small Models Are (Still) Effective Cross-Domain Argument Extractors)
[22.RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs](#22.RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs)
[23.Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain](#23.Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain)
[24.Reducing hallucination in structured outputs via Retrieval-Augmented Generation](#24.Reducing hallucination in structured outputs via Retrieval-Augmented Generation)
[25.Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs](#25.Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs)
[26.Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models](#26.Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models)
[27.Large Language Model Can Continue Evolving From Mistakes](#27.Large Language Model Can Continue Evolving From Mistakes)
[28.Guiding Large Language Models to Post-Edit Machine Translation with Error Annotations](#28.Guiding Large Language Models to Post-Edit Machine Translation with Error Annotations)
[29.Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models](#29.Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models)
[30.Generating Games via LLMs: An Investigation with Video Game Description Language](#30.Generating Games via LLMs: An Investigation with Video Game Description Language)
[31.Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain](#31.Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain)
[32.UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs](#32.UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs)
[33.Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective](#33.Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective)
[34.From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples](#34.From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples)
[35."Confidently Nonsensical?'': A Critical Survey on the Perspectives and Challenges of 'Hallucinations' in NLP](#35."Confidently Nonsensical?'': A Critical Survey on the Perspectives and Challenges of 'Hallucinations' in NLP)

1.Unveiling Imitation Learning: Exploring the Impact of Data Falsity to Large Language Model

标题:揭开模仿学习的神秘面纱：探索数据虚假性对大型语言模型的影响
author:Hyunsoo Cho
publish:Under review @ *ACL
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09717v1

摘要：

最近的许多研究都在努力通过模仿学习以及对来自 ChatGPT 和 GPT-4 等最先进的专有模型的合成指令数据进行再训练来改进开源语言模型。然而，合成数据与生俱来就含有噪声数据，这就导致了大量低质量数据的存在，其中充斥着错误的回答和有缺陷的推理。虽然我们直观地了解到噪声数据的潜在危害，但对其影响却缺乏定量了解。为此，本文通过指令调整来探索噪声程度与其对语言模型的影响之间的相关性。我们首先介绍了虚假性可控（FACO）数据集，该数据集由真答案对和相应的推理以及假答案对组成，用于手动控制数据集的虚假性比例：具体来说，我们验证了指令的虚假性与各种基准分数高度相关。此外，当使用虚假指令训练 LLM 时，即使它们知道用户请求的正确答案，也会学会撒谎并生成虚假的不真实答案。此外，我们还注意到，一旦语言模型用受噪声污染的数据集进行训练，恢复其原有性能是可能的，但却无法达到完全性能。

2.Are Large Language Models Reliable Argument Quality Annotators?

标题:大型语言模型是可靠的论证质量注释器吗？
author:Nailia Mirzakhmedova, Marcel Gohsen, Chia Hao Chang, Benno Stein
publish:18 pages, 5 figures, 5 tables
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09696v1

摘要：

评估论据的质量是任何利用论据挖掘的系统的一个重要方面。然而，要获得可靠、一致的论据质量注释是一项挑战，因为这通常需要注释者具备特定领域的专业知识。即使是专家，由于这项任务固有的主观性，对论证质量的评估也往往不一致。在本文中，我们研究了使用最先进的大型语言模型（LLM）作为论证质量注释者的代理的潜力。为了评估 LLM 在这方面的能力，我们根据已建立的论证质量维度分类法，分析了模型、人类专家和人类新手注释者之间的一致性。我们的研究结果表明，LLM 可以生成一致的注释，在大多数质量维度上与人类专家具有中等程度的一致性。此外，我们还发现，使用 LLM 作为额外的注释者可以显著提高注释者之间的一致性。这些结果表明，LLM 可以作为论证质量自动评估的重要工具，从而简化和加速大型论证数据集的评估。

3.LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models

标题:LoRAP：转换器子层需要对大型语言模型进行有区别的结构化压缩
author:Guangyan Li, Yongqiang Tang, Wensheng Zhang
publish:8 pages,4 figures
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09695v1

摘要：

大型语言模型（LLMs）在高难度任务中表现出卓越的性能，但它们往往需要庞大的内存和计算资源。如何缩小 LLM 的参数规模已成为研究热点。在本研究中，我们发现了一个重要现象：Transformer 的多头自注意（MHA）子层表现出明显的低秩结构，而前馈网络（FFN）子层则没有。有鉴于此，我们设计了一种混合压缩模型，将低秩矩阵逼近和结构化剪枝（LoRAP）有机地结合在一起。对于 MHA 子层，我们提出了一种输入激活加权奇异值分解方法，以强化低阶特性。此外，我们还发现 MHA 子层中的权重矩阵具有不同的低阶度。因此，我们根据低阶度的差异设计了一种新的参数分配方案。对于 FFN 子层，我们提出了一种无梯度结构化信道剪枝方法。在剪枝过程中，我们发现了一个有趣的现象，即最不重要的 1%参数实际上对模型性能起着至关重要的作用。对零镜头困惑度和零镜头任务分类的广泛评估表明，在多种压缩比下，我们的建议优于之前的结构化压缩对手。

4.Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection

标题:LLM 能否理解视觉异常？揭示 LLM 在零点异常检测中的能力
author:Jiaqi Zhu, Shaofeng Cai, Fang Deng, Junran Wu
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09654v1

摘要：

大型视觉语言模型（LVLMs）在以自然语言为指导推导视觉表征方面具有明显的优势。最近的探索利用 LVLMs 应对零镜头视觉异常检测（VAD）挑战，将图像与指示正常和异常情况的文本描述（称为异常提示）配对。然而，现有方法依赖于静态异常提示，容易产生跨语义歧义，并且优先考虑全局图像级表征，而非精确异常定位所必需的关键局部像素级图像到文本对齐。在本文中，我们介绍了 ALFA，这是一种无需训练的方法，旨在通过统一的模型应对这些挑战。我们提出了一种运行时提示适应策略，首先生成信息丰富的异常提示，以充分利用大型语言模型（LLM）的功能。这一策略通过上下文评分机制得到加强，以实现每幅图像异常提示的适应和跨语义歧义的缓解。我们进一步引入了一种新颖的细粒度对齐器，通过将图像-文本对齐从全局语义空间投射到局部语义空间，融合局部像素级语义以实现精确的异常定位。在极具挑战性的 MVTec 和 VisA 数据集上进行的广泛评估证实了 ALFA 在利用语言潜力进行零镜头 VAD 方面的有效性，与最先进的零镜头 VAD 方法相比，ALFA 在 MVTec AD 和 VisA 数据集上的 PRO 分别显著提高了 12.1% 和 8.9%。

5.Large language models and linguistic intentionality

标题:大型语言模型和语言意向性
author:Jumbly Grindrod
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09576v1

摘要：

像 Chat-GPT 或 LLaMa 这样的大型语言模型会有意义地使用它们生成的单词吗？或者它们只是聪明的预测机器，通过产生统计上可信的文本来模拟语言的使用？为了回答这个问题，我们已经做了一些初步尝试，证明这些模型符合根据心理内容元语义理论进入有意义状态的标准。在本文中，我将论证一种不同的方法--我们应该考虑语言模型是否符合我们最好的语言内容元语义理论所给出的标准。为此，我将通过把两种元语义理论应用于语言模型来说明如何做到这一点：这两个理论是：加雷斯-埃文斯（Gareth Evans，1982 年）的命名实践理论和露丝-米利肯（Ruth Millikan，1984 年，2004 年，2005 年）的目的语义学理论。在此过程中，我将论证，认为语言模型无法满足心理意向性的可信条件从而使其输出毫无意义的观点是错误的，而语言意向性的一个显著特点--对先前存在的语言系统的依赖--使得语言模型的输出是有意义的这一可信结果成为可能。

6.Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models

标题:预填充：快速预填充和提高大型语言模型吞吐量的简单方法
author:Siyan Zhao, Daniel Israel, Guy Van den Broeck, Aditya Grover
publish:18 pages, code in https://github.com/siyan-zhao/prepacking
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09529v1

摘要：

在基于转换器的大型语言模型（LLM）的推理过程中，预填充是指在自回归生成之前计算提示符中输入标记的键值（KV）缓存。对于较长的输入提示符长度，预填充会给解码时间带来很大的开销。在这项工作中，我们强调了预填充的以下隐患：对于包含高变化提示长度的批次，将序列填充到最大长度的标准做法会浪费大量计算。随着 LLM 越来越多地支持更长的上下文长度（可能高达 1,000 万个标记），批次内提示符长度的变化会变得更加明显。为了解决这个问题，我们提出了预填充（Prepacking）技术，这是一种优化预填充计算的简单而有效的方法。为了避免对垫标记的冗余计算，预填充将不同长度的提示合并成一个序列，并使用分仓打包算法将多个序列打包成一个紧凑的批次。然后，它修改注意力掩码和位置编码，为单个序列中的多个提示计算多个预填充 KV 缓存。在包含不同长度提示的标准策划数据集上，与 Huggingface 默认的基于填充的预填充计算相比，我们在一系列基础模型配置和推理服务场景中都获得了显著的速度和内存效率改进。

7.Bridging the Gap between Different Vocabularies for LLM Ensemble

标题:弥合 LLM 词库之间的差距
author:Yangyifan Xu, Jinliang Lu, Jiajun Zhang
publish:Accepted to the main conference of NAACL 2024
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09492v1

摘要：

将不同的大型语言模型（LLMs）进行组合以释放其互补潜力并利用其各自的优势是非常有价值的。然而，由于各种 LLM 之间存在词汇差异，以往的研究只能选择或混合完全生成的输出结果。这种限制妨碍了在生成过程中对输出结果进行动态修正和增强，导致有效组合的能力有限。为了解决这个问题，我们提出了一种通过词汇对齐（EVA）来组合 LLM 的新方法。EVA 弥补了各种 LLM 之间的词汇差距，使每个生成步骤都能进行细致的集合。具体来说，我们首先借助重叠标记来学习不同 LLM 词库之间的映射。随后，利用这些映射将 LLM 的输出分布投射到统一的空间中，从而促进精细的合集。最后，我们设计了一种过滤策略，以排除生成不忠实标记的模型。在常识推理、算术推理、机器翻译和数据到文本的生成任务上的实验结果表明，与单个 LLM 和以前在完整输出上进行的集合方法相比，我们的方法更具优势。进一步的分析证实，我们的方法可以利用来自不同语言模型的知识，并获得持续的改进。

8.Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning

标题:大型语言模型可自动设计特征，以便进行少量表格学习
author:Sungwon Han, Jinsung Yoon, Sercan O Arik, Tomas Pfister
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09491v1

摘要：

大型语言模型（LLM）在解决具有挑战性和未知的推理问题方面具有非凡的能力，在表格学习方面具有巨大的潜力，这对许多现实世界的应用至关重要。在本文中，我们提出了一种新颖的上下文学习框架--FeatLLM，它将 LLM 用作特征工程师，生成最适合表格预测的输入数据集。生成的特征可用于使用简单的下游机器学习模型（如线性回归）推断类的可能性，并产生高性能的少量学习。拟议的 FeatLLM 框架只在推理时使用这个带有已发现特征的简单预测模型。与现有的基于 LLM 的方法相比，FeatLLM 无需在推理时为每个样本向 LLM 发送查询。此外，它只需要对 LLM 进行 API 级访问，并克服了提示大小的限制。正如在众多领域的表格数据集上所展示的那样，FeatLLM 生成的规则质量很高，明显（平均 10%）优于 TabLLM 和 STUNT 等其他方法。

9.Towards Practical Tool Usage for Continually Learning LLMs

标题:实现持续学习 LLM 的实用工具用法
author:Jerry Huang, Prasanna Parthasarathi, Mehdi Rezagholizadeh, Sarath Chandar
publish:20 pages, 11 tables, 7 figures
date Time:2024-04-14

paper pdf:http://arxiv.org/pdf/2404.09339v1

摘要：

大型语言模型（LLMs）在解决基于语言的任务方面显示出与生俱来的技能。但有研究表明，大型语言模型无法适应信息或任务解决技能的过时，因为它们直接存储在参数中的知识在时间上是静态的。工具的使用可以将工作卸载到语言学家可以通过界面访问的系统上，从而起到帮助作用，但使用工具的语言学家仍然必须适应长期使用的非稳定环境，因为新工具会出现，现有工具也会改变。不过，工具需要的专业知识较少，因此我们假设它们更适合持续学习（CL），因为它们在解决任务时对参数记忆的依赖较少，而是侧重于学习何时应用预定义的工具。为了验证这一点，我们开发了一个合成基准，并在此基础上汇总了现有的 NLP 任务，形成了一个更真实的测试场景。尽管我们证明了无论使用何种工具，扩大模型规模都不是解决办法，但持续学习技术可以使工具 LLM 更快地适应环境，同时减少遗忘，从而凸显其作为持续学习者的潜力。

10.Self-Selected Attention Span for Accelerating Large Language Model Inference

标题:加速大型语言模型推理的自选注意力范围
author:Tian Jin, Wanzin Yazar, Zifei Xu, Sayeh Sharify, Xin Wang
date Time:2024-04-14

paper pdf:http://arxiv.org/pdf/2404.09336v1

摘要：

大型语言模型（LLM）可以解决具有挑战性的任务。然而，由于在生成新的标记时必须处理越来越多的标记，它们在现代 GPU 上的推理计算效率非常低。为了解决这种低效问题，我们利用 LLMs 解决问题的能力来优化它们自己的推理时间效率。我们用两个具体任务进行了演示：(a) 评估复杂的算术表达式和 (b) 总结新闻文章。对于这两项任务，我们都创建了自定义数据集来微调 LLM。微调的目的有两个：首先，让 LLM 学会解决评估或摘要任务；其次，训练 LLM 识别任务每一步所需的最小注意力跨度。因此，经过微调的模型能够在推理过程中将这些自我识别的最小注意力跨度即时转换为稀疏注意力掩码。我们开发了一个定制的 CUDA 内核，以利用减少的关注上下文。我们证明，使用这种定制的 CUDA 内核可将 LLM 推断的吞吐量提高 28%。我们的工作提供了一个端到端的演示，表明在解决实际任务时，训练 LLM 自我选择注意力跨度可加快自回归推理的速度。

11.Large Language Models are as persuasive as humans, but why? About the cognitive effort and moral-emotional language of LLM arguments

标题:大型语言模型与人类一样有说服力，但为什么？关于大型语言模型论证的认知努力和道德情感语言
author:Carlos Carrasco-Farre
date Time:2024-04-14

paper pdf:http://arxiv.org/pdf/2404.09329v1

摘要：

大型语言模型（LLM）已经和人类一样具有说服力。然而，我们对其原因知之甚少。本文研究了大型语言模型的说服策略，并将其与人类生成的论据进行了比较。我们使用一个由 1,251 名实验参与者组成的数据集，通过认知努力（词汇和语法复杂性）和道德情感语言（情感和道德分析）的测量，分析了 LLM 生成的论据和人类生成的论据的说服策略。研究结果表明，与人类相比，语言学习者生成的论据需要更多的认知努力，表现出更复杂的语法和词汇结构。此外，LLMs 还表现出更深入地使用道德语言的显著倾向，比人类更频繁地使用积极和消极的道德基础。与以往的研究不同，在 LLMs 和人类产生的情感内容方面没有发现明显的差异。这些研究结果为人工智能与说服的讨论做出了贡献，凸显了 LLM 通过数字说服的交流策略增强和破坏信息完整性的双重潜力。

12.TransformerFAM: Feedback attention is working memory

标题:TransformerFAM：反馈注意力就是工作记忆
author:Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar
publish:24 pages, 12 figures, 14 tables
date Time:2024-04-14

paper pdf:http://arxiv.org/pdf/2404.09173v1

摘要：

虽然变形器给深度学习带来了革命性的变化，但其二次注意复杂性阻碍了其处理无限长输入的能力。我们提出的反馈注意力记忆（FAM）是一种新型变形金刚架构，它利用反馈环路使网络能够关注自身的潜在表征。这种设计促进了变形器工作记忆的出现，使其能够处理无限长的序列。TransformerFAM 不需要额外的权重，因此可以与预训练模型无缝集成。我们的实验表明，TransformerFAM 显著提高了 Transformer 在各种模型大小（1B、8B 和 24B）的长语境任务中的性能。这些结果展示了大型语言模型 (LLM) 处理无限长度序列的潜力。

13.Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models

标题:后语义思维：从大型语言模型中提炼推理能力的稳健策略
author:Xiao Chen, Sihang Zhou, Ke Liang, Xinwang Liu
date Time:2024-04-14

paper pdf:http://arxiv.org/pdf/2404.09170v1

摘要：

思维链微调的目的是赋予小型学生模型以推理能力，使它们能够模仿大型语言模型（LLM）的推理过程，而不仅仅是预测问题的答案，从而提高它们在特定任务中的表现。然而，现有的方法：1）在答案之前生成推理，使其答案的正确性对推理中的幻觉敏感；2）强迫学生模型逐字逐句地重复 LLMs 的精确推理表达，这可能使模型偏向于学习推理中的表达，但不利于模型理解其背后的核心逻辑。因此，我们提出了一种稳健的语义后思考（PST）策略，在理由之前生成答案。得益于这种答案优先的设置，1）答题过程可以摆脱理由中的幻觉所带来的不利影响；2）复杂的推理过程与相对简洁的答案紧密结合，使问题的推理更容易获得答案中的先验信息；3）由于用户可以在推理进行时在答案输出后立即停止生成，因此该方法的效率也可以从这种设置中受益。此外，PST 策略还放松了对生成的推理的限制，即在隐藏语义空间而非词汇空间接近 LLM 黄金标准，从而使小型学生模型更好地理解推理中的语义推理逻辑。在 12 个推理任务中进行的大量实验证明了 PST 的有效性。

14.Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation

标题:LLM 玩骰子吗？探索行为模拟大型语言模型中的概率分布采样
author:Jia Gu, Liang Pang, Huawei Shen, Xueqi Cheng
date Time:2024-04-13

paper pdf:http://arxiv.org/pdf/2404.09043v1

摘要：

随着大型语言模型（LLMs）的快速发展及其在处理复杂语言任务方面的卓越能力，越来越多的研究将 LLMs 作为代理来模拟人类的顺序决策过程（通常表现为马尔可夫决策过程（MDPs））。这种决策框架中的行动遵循特定的概率分布，并需要迭代采样。这引起了我们对 LLM 代理理解概率分布的能力的好奇，从而通过概率采样和生成行为序列来指导代理的行为决策。为了回答上述问题，我们将问题分为两个主要方面：已知确切概率分布的模拟和概率分布模糊的序列生成。在第一种情况下，代理需要通过问题描述给出概率分布的类型和参数，然后给出采样序列。然而，我们的分析表明，LLM 代理在这种情况下表现不佳，但可以通过编程工具提高采样成功率。现实世界中的场景往往包含未知的概率分布。因此，在第二种情况下，我们要求代理改变在线社交网络的活跃程度，并分析行动频率。最终，我们的分析表明，即使使用编程工具，LLM 代理也无法对概率分布进行采样。因此，在将 LLM 代理直接用作模拟人类行为的代理之前，仍需慎重考虑。

15.EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM

标题:EIVEN：利用多模态 LLM 高效提取隐含属性值
author:Henry Peng Zou, Gavin Heqing Yu, Ziwei Fan, Dan Bu, Han Liu, Peng Dai, Dongmei Jia, Cornelia Caragea
publish:Accepted by NAACL 2024 Industry Track
date Time:2024-04-13

paper pdf:http://arxiv.org/pdf/2404.08886v1

摘要：

在电子商务中，从多模态数据中准确提取产品属性值对于改善用户体验和提高零售商的运营效率至关重要。然而，以往的多模态属性值提取方法往往难以处理嵌入在图像或文本中的隐含属性值，严重依赖大量标签数据，而且很容易混淆相似的属性值。为了解决这些问题，我们推出了 EIVEN，这是一种数据和参数效率高的生成框架，率先将多模态 LLM 用于隐式属性值提取。EIVEN 利用预先训练的 LLM 和视觉编码器的丰富固有知识，减少了对标记数据的依赖。我们还引入了一种新颖的 "比较学习"（Learning-by-Comparison）技术，通过强制属性值比较和差异识别来减少模型混淆。此外，我们还构建了用于多模态隐式属性值提取的初始开源数据集。我们的大量实验表明，在提取隐式属性值方面，EIVEN 明显优于现有方法，同时所需的标注数据更少。

16.LLM In-Context Recall is Prompt Dependent

标题:LLM 情境内召回与提示有关
author:Daniel Machlab, Rick Battle
date Time:2024-04-13

paper pdf:http://arxiv.org/pdf/2404.08865v1

摘要：

大型语言模型（LLMs）的激增凸显了进行全面评估的重要性，以确定其比较优势、局限性和最佳使用案例。其中尤为重要的是评估它们准确检索特定提示信息的能力。一个模型能否做到这一点，将极大地影响其利用上下文细节的效率，从而影响其在实际应用中的实际效果和可靠性。我们的研究使用 "大海捞针 "法分析了各种 LLM 在上下文中的召回性能。在这种方法中，一个事实（"针"）被嵌入到一个填充文本块（"干草堆"）中，要求模型对其进行检索。我们评估了每个模型在不同的干草堆长度和不同的 "针 "位置下的召回性能，以确定性能模式。这项研究表明，LLM 的召回能力不仅取决于提示内容，还可能受到训练数据偏差的影响。相反，调整模型架构、训练策略或微调可以提高性能。我们的分析深入揭示了 LLM 的行为，为开发更有效的 LLM 应用提供了方向。

17.Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

标题:巨齿鲨无限制上下文长度的高效 LLM 预训练和推理
author:Xuezhe Ma, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu, Hao Zhang, Jonathan May, Luke Zettlemoyer, Omer Levy, Chunting Zhou
publish:9 pages, 6 figures and 8 tables
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08801v1

摘要：

Transformers 的二次方复杂性和较弱的长度外推能力限制了其扩展至长序列的能力，虽然存在线性注意和状态空间模型等二次方以下的解决方案，但根据经验，它们在预训练效率和下游任务准确性方面都不如 Transformers。我们介绍的 Megalodon 是一种用于高效序列建模的神经架构，其上下文长度不受限制。Megalodon 继承了 Mega（具有门控注意力的指数移动平均）的架构，并进一步引入了多种技术组件来提高其能力和稳定性，包括复杂指数移动平均（CEMA）、时间步归一化层、归一化注意力机制和具有两跳残差配置的预归一化。在与 Llama2 的对照正面比较中，Megalodon 在 70 亿个参数和 2 万亿个训练代币的规模上比 Transformer 取得了更好的效率。Megalodon 的训练损失为 1.70，介于 Llama2-7B (1.75) 和 13B (1.67) 之间。代码：https://github.com/XuezheMax/megalodon

18.LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning

标题:LLM-Seg：图像分割与大型语言模型推理的桥梁
author:Junchi Wang, Lei Ke
publish:Github: https://github.com/wangjunchi/LLMSeg
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08767v1

摘要：

理解人类识别目标对象的指令对感知系统至关重要。近年来，大型语言模型（LLM）的发展为图像分割带来了新的可能性。在这项工作中，我们深入研究了推理分割，这是一项新颖的任务，它能让分割系统通过大型语言模型推理来推理和解释隐含的用户意图，然后分割相应的目标。我们的推理分割工作在方法设计和数据集标注两方面都有所贡献。在模型方面，我们提出了一个名为 LLM-Seg 的新框架。LLM-Seg 通过掩码建议选择有效地连接了当前的基础分割 Anything Model 和 LLM。在数据集方面，我们提出了一个自动数据生成管道，并构建了一个名为 LLM-Seg40K 的新推理分割数据集。实验证明，与现有方法相比，我们的 LLM-Seg 表现出了极具竞争力的性能。此外，我们提出的管道可以高效地生成高质量的推理分割数据集。通过该管道开发的 LLM-Seg40K 数据集可作为训练和评估各种推理分割方法的新基准。我们的代码、模型和数据集见 https://github.com/wangjunchi/LLMSeg。

19.CATS: Contextually-Aware Thresholding for Sparsity in Large Language Models

标题:CATS：针对大型语言模型稀疏性的语境感知阈值法
author:Je-Yong Lee, Donghyun Lee, Genghan Zhang, Mo Tiwari, Azalia Mirhoseini
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08763v1

摘要：

大型语言模型（LLM）极大地推动了人工智能的应用，但由于其推理成本巨大，其部署仍面临挑战。最近的研究通过增加 LLM 的激活稀疏性来改善其计算成本，但在下游任务中却出现了明显的性能下降。在这项工作中，我们引入了一个新的框架，用于稀疏化基础 LLM 的激活并降低推理成本，该框架被称为 "稀疏化上下文感知阈值法"（Conttextually Aware Thresholding for Sparsity，CATS）。CATS 相对简单，易于实现，而且非常有效。我们框架的核心是一个新的非线性激活函数。我们证明，CATS 可以应用于各种基础模型，包括 Mistral-7B 和 Llama2-7B，并且在下游任务性能方面优于现有的稀疏化技术。更确切地说，基于 CATS 的模型在下游任务中的表现通常在其基础模型的 1-2% 以内，无需任何微调，甚至在激活稀疏度达到 50% 的情况下也是如此。此外，在应用微调时，基于 CATS 的模型收敛速度更快，任务性能也优于竞争技术。最后，我们开发了一种定制的 GPU 内核，用于高效实施 CATS，将 CATS 的激活稀疏性转化为真正的壁钟时间加速。我们的 CATS 定制内核实现使 Llama-7B 和 Mistral-7B 上的令牌生成墙钟推理延迟提高了约 15%。

20.Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts

标题:以问题驱动的图片说明为提示，增强视觉问题解答能力
author:Övgü Özdemir, Erdem Akagündüz
publish:The paper has been accepted for presentation at CVPR 2024 Workshop on

Prompting in Vision
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08589v1

摘要：

视觉问题解答（VQA）需要对视觉和语言内容进行理解、推理和推断，因此被称为人工智能完整任务。过去几年中，针对视觉问题解答问题提出了许多神经架构。然而，由于需要高级的概括和推理技能，在零镜头 VQA 中取得成功仍然是一项挑战。本研究探讨了在 VQA 流程中将图像字幕作为中间过程的影响。具体来说，我们探索了利用图像字幕而不是图像，以及利用大型语言模型（LLM）建立零镜头设置的功效。由于图像标题是这一过程中最关键的一步，我们比较了最先进的图像标题模型在结构和语义方面对不同问题类型的 VQA 性能的影响。我们在这一流程中提出了一种直接、高效的问题驱动型图像字幕方法，可将上下文信息转移到问题解答（QA）模型中。这种方法包括从问题中提取关键字，使用关键字为每个图像-问题对生成标题，并将问题驱动的标题纳入 LLM 提示。我们评估了在 VQA 管道中使用通用和问题驱动图像标题的功效。我们的研究强调了使用图像标题和利用 LLM 功能的潜力，从而在零镜头设置下实现具有竞争力的 GQA 性能。我们的代码可在\url{https://github.com/ovguyo/captions-in-VQA}上获取。

21.Small Models Are (Still) Effective Cross-Domain Argument Extractors

标题:小模型（仍然）是有效的跨域论据提取器
author:William Gantt, Aaron Steven White
publish:ACL Rolling Review Short Paper
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08579v1

摘要：

有效的本体转移是近期事件论据提取（EAE）工作的主要目标。其中有两种方法--问题解答（QA）和模板填充（TI）--已成为解决这一问题的有前途的方法。然而，目前还缺乏对这些技术实际实现这种转移的能力的详细探索。在这项工作中，我们提供了这样一项研究，在六个主要的 EAE 数据集上使用这两种技术在句子和文档两个层面上探索零镜头转移。此外，我们还对越来越多地依赖 LLMs 进行零镜头提取的做法提出了质疑，并表明在适当的源本体上训练出来的更小的模型也能产生优于 GPT-3.5 或 GPT-4 的零镜头性能。

22.RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs

标题:解密 RLHF：从人类反馈中强化学习 LLM 的批判性分析
author:Shreyas Chaudhari, Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan, Ameet Deshpande, Bruno Castro da Silva
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08555v1

摘要：

最先进的大型语言模型（LLM）已成为各种任务不可或缺的工具。然而，要训练 LLM 使其成为人类的有效助手，还需要慎重考虑。从人类反馈中强化学习（RLHF）是一种很有前途的方法，它可以利用人类反馈，根据人类的偏好更新模型，减轻毒性和幻觉等问题。然而，对 LLM 的 RLHF 的理解在很大程度上与最初的设计选择纠缠在一起，而最初的设计选择推广了这种方法，目前的研究主要集中在增强这些选择，而不是从根本上改进框架。在本文中，我们从强化学习原理的角度分析了 RLHF，以了解其基本原理，并将大量精力集中在 RLHF 的核心部分--奖励模型上。我们的研究调查了建模选择、函数逼近的注意事项及其对 RLHF 训练算法的影响，并强调了对奖励的表现力所做的基本假设。我们的分析加深了人们对奖励模型的作用及其训练方法的理解，同时也揭示了当前方法的局限性。我们描述了这些局限性的特点，包括不正确的泛化、模型的错误规范和反馈的稀疏性，以及它们对语言模型性能的影响。我们对现有文献进行了分类综述，为讨论和分析提供了依据，为研究人员和从业人员了解 RLHF 所面临的挑战并在现有基础上继续努力提供了参考。

23.Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain

标题:预训练和更新特定语言和特定领域的大型语言模型：日本商业领域案例研究
author:Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Tatsuya Ishigaki
publish:9 pages. preprint of COLM2024
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08262v1

摘要：

以往的一些研究将特定语言和特定领域的大型语言模型（LLM）视为不同的主题。本研究探讨了非英语语言与高需求行业领域的结合，重点是日本商业特定 LLM。这类模型要求具备商业领域的专业知识、较强的语言技能以及定期的知识更新。我们使用新的商业文本和专利数据集，从零开始训练了一个 130 亿参数的 LLM，并不断使用最新的商业文档对其进行预训练。此外，我们还为日本商业领域的问题解答（QA）提出了一个新的基准，并在此基础上对我们的模型进行了评估。结果表明，我们的预训练模型在提高 QA 准确率的同时不会丢失常识，而且持续的预训练增强了对新信息的适应性。我们的预训练模型和商业领域基准可以公开获取。

24.Reducing hallucination in structured outputs via Retrieval-Augmented Generation

标题:通过检索增强生成减少结构化输出中的幻觉
author:Patrice Béchard, Orlando Marquez Ayala
publish:To be presented at NAACL 2024. 11 pages and 4 figures
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08189v1

摘要：

生成式人工智能（GenAI）的一个常见和基本的局限性是容易产生幻觉。虽然大型语言模型（LLM）已风靡全球，但如果不消除或至少减少幻觉，现实世界中的 GenAI 系统在用户采用方面可能会面临挑战。在部署基于自然语言需求生成工作流的企业应用程序的过程中，我们设计了一个利用检索增强生成（RAG）的系统，大大提高了代表此类工作流的结构化输出的质量。得益于 RAG 的实现，我们提出的系统大大减少了输出中的幻觉，并提高了 LLM 在域外环境中的通用性。此外，我们还表明，使用一个小型的、训练有素的检索编码器可以减少随附的 LLM 的大小，从而降低基于 LLM 的系统部署的资源密集度。

25.Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs

标题:通过解释求解程序从 LLM 中提炼算法推理
author:Jierui Li, Raymond Mooney
publish:pre-print
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.08148v1

摘要：

提炼明确的思维链推理路径已成为提高大型语言模型（LLM）在各种任务中的推理能力的有效方法。然而，在处理对最新模型构成重大挑战的复杂任务时，这种技术往往难以产生有效的思维链，从而导致正确的答案。在这项工作中，我们提出了一种新方法，利用 LLM 解释解决方案的能力，从 LLM 中提炼推理能力。我们将我们的方法应用于解决竞争级编程挑战。更具体地说，我们利用 LLM 为一组 <问题、解决方案-程序> 对生成解释，然后使用 <问题、解释> 对微调较小的语言模型（我们称之为推理者），以学习算法推理，从而为未见问题生成 "如何解决 "的提示。我们的实验证明，从解释中学习能使推理者更有效地指导编码者执行程序，从而在竞争级编程问题上比强思维链基线的解题率更高。它的表现也优于直接从<问题、解决方案-程序>对中学习的模型。我们以 CodeContests 的格式策划了一个额外的测试集，其中包括 246 个在模型知识截止后发布的最新问题。

26.Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

标题:Ferret-v2：使用大型语言模型进行引用和接地的改进基线
author:Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
publish:Preprint. 14 pages, 4 figures
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07973v1

摘要：

虽然 Ferret 将区域理解无缝集成到大语言模型（LLM）中，以促进其引用和接地能力，但它也存在一定的局限性：受限于预先训练的固定视觉编码器，在更广泛的任务中表现不佳。在这项工作中，我们推出了 Ferret-v2，这是对 Ferret 的重大升级，有三个关键设计。(1) 任何分辨率的接地和引用：这是一种灵活的方法，可以毫不费力地处理更高的图像分辨率，从而提高模型处理和理解更详细图像的能力。(2) 多粒度视觉编码：通过整合额外的 DINOv2 编码器，该模型能更好地学习全局和细粒度视觉信息的不同底层语境。(3) 三阶段训练范式：除了图像字幕对齐外，还提出了在最终指令调整之前进行高分辨率密集对齐的额外阶段。实验表明，Ferret-v2 凭借其高分辨率缩放和细粒度视觉处理能力，比 Ferret 和其他最先进的方法有了大幅改进。

27.Large Language Model Can Continue Evolving From Mistakes

标题:大型语言模型可以从错误中不断发展
author:Haokun Zhao, Haixia Han, Jie Shi, Chengyu Du, Jiaqing Liang, Yanghua Xiao
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.08707v1

摘要：

大型语言模型（LLM）在各种下游任务中表现出令人印象深刻的性能。然而，由于知识缺陷和预训练数据的缺陷，它们在某些情况下仍可能产生错误的反应。持续学习（CL）是解决这一问题的常用方法。传统的持续学习以任务为导向，使用新颖或事实准确的数据从头开始重新训练 LLM。然而，这种方法需要更多与任务相关的训练数据，并产生昂贵的训练成本。为应对这一挑战，我们提出了 "从错误中继续发展"（CEM）方法，该方法受到 "总结错误 "学习技能的启发，可实现 LLM 的迭代改进。具体来说，LLMs 的错误回答表明了与问题相关的知识缺陷。因此，我们从多个数据源收集包含这些知识的语料，并通过迭代补充训练进行持续、有针对性的知识更新和补充。同时，我们开发了两种构建补充训练集的策略，以增强 LLM 对语料的理解，防止灾难性遗忘。我们进行了大量实验来验证这种语言学习方法的有效性。在最好的情况下，我们的方法使 LLM 的准确率提高了 17.00%。

28.Guiding Large Language Models to Post-Edit Machine Translation with Error Annotations

标题:利用错误注释引导大型语言模型进行编后机器翻译
author:Dayeon Ki, Marine Carpuat
publish:21 pages, 8 figures
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07851v1

摘要：

机器翻译（MT）仍然是大型语言模型（LLM）尚未取代专用监督系统的最后一项 NLP 任务。本研究利用 LLM 和有监督 MT 的互补优势，通过多维质量度量（Multidimensional Quality Metric，MQM）注释获得的外部质量反馈，引导 LLM 自动对 MT 进行后期编辑。利用 LLaMA-2 模型，我们考虑了不同反馈性质的提示策略，然后对 LLM 进行微调，以提高其利用所提供指导的能力。通过在汉英、英德和英俄 MQM 数据上的实验，我们证明了提示 LLM 进行 MT 后期编辑可以提高 TER、BLEU 和 COMET 分数，尽管细粒度反馈的优势并不明显。微调有助于更有效地整合细粒度反馈，并在自动和人工评估的基础上进一步提高翻译质量。

29.Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models

标题:利用大型语言模型自动生成和评估阅读理解测试项目
author:Andreas Säuberli, Simon Clematide
publish:Accepted for publication at the 3rd Workshop on Tools and Resources

for People with REAding DIfficulties (READI) at LREC-COLING 2024
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07720v1

摘要：

阅读理解测试应用广泛，从教育到评估简化文本的可理解性。然而，手动创建此类测试并确保其质量既困难又耗时。在本文中，我们探讨了如何利用大型语言模型（LLM）来生成和评估多项选择阅读理解项目。为此，我们编制了一个德语阅读理解项目数据集，并开发了一个新的人工和自动评估协议，其中包括一个我们称之为文本信息度的指标，该指标基于可猜测性和可回答性。然后，我们使用该协议和数据集来评估 Llama 2 和 GPT-4 生成的项目的质量。我们的结果表明，这两种模型都能在 "0-shot "环境下生成质量可接受的项目，但 GPT-4 明显优于 Llama 2。我们还表明，可以通过诱导 LLMs 中的条目回复，将 LLMs 用于自动评估。在这种情况下，GPT-4 的评估结果与人类注释者最为相似。总之，使用 LLMs 进行零点生成是一种很有前途的生成和评估阅读理解测试项目的方法，尤其适用于没有大量可用数据的语言。

30.Generating Games via LLMs: An Investigation with Video Game Description Language

标题:通过 LLM 生成游戏：视频游戏描述语言研究
author:Chengpeng Hu, Yunlong Zhao, Jialin Liu
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.08706v1

摘要：

最近，大型语言模型（LLM）的出现为程序内容生成带来了新的机遇。然而，最近的尝试主要集中在具有明确游戏规则的特定游戏的关卡生成上，如《超级马里奥兄弟》和《塞尔达》。本文研究了通过 LLM 生成游戏的问题。本文以视频游戏描述语言为基础，提出了一种基于 LLM 的框架，可同时生成游戏规则和关卡。实验证明了该框架如何在考虑不同语境组合的提示下工作。我们的研究结果扩展了 LLMs 目前的应用范围，并为程序内容生成领域新游戏的生成提供了新的见解。

31.Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain

标题:医学 mT5：医学领域的开源多语言文本到文本 LLM
author:Iker García-Ferrero, Rodrigo Agerri, Aitziber Atutxa Salazar, Elena Cabrio, Iker de la Iglesia, Alberto Lavelli, Bernardo Magnini, Benjamin Molinet, Johana Ramirez-Romero, German Rigau, Jose Maria Villa-Gonzalez, Serena Villata, Andrea Zaninello
publish:LREC-COLING 2024
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07613v1

摘要：

为开发医疗应用而进行的语言技术研究是当前自然语言理解与生成领域的热门话题。因此，一些大型语言模型（LLM）最近已被应用于医疗领域，从而可用作人机交互的中介工具。虽然这些 LLM 在自动医学文本基准测试中表现出了极具竞争力的性能，但它们都是经过预先训练和评估的，主要针对单一语言（主要是英语）。文本到文本模型尤其如此，它们通常需要大量特定领域的预训练数据，而对于许多语言来说，这些数据往往不易获取。在本文中，我们针对这些不足之处，用四种语言（即英语、法语、意大利语和西班牙语）编译了据我们所知最大的医学领域多语言语料库。这一新语料库已被用于训练医学 mT5，这是首个用于医学领域的开源文本到文本多语言模型。此外，我们还为所有四种语言提供了两个新的评估基准，旨在促进该领域的多语言研究。综合评估结果表明，在西班牙语、法语和意大利语基准测试中，Medical mT5 的表现优于编码器和类似规模的文本到文本模型，同时在英语测试中也能与当前最先进的 LLM 相媲美。

32.UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs

标题:UltraEval：为法律硕士提供灵活全面评估的轻量级平台
author:Chaoqun He, Renjie Luo, Shengding Hu, Yuanqian Zhao, Jie Zhou, Hanghao Wu, Jiajie Zhang, Xu Han, Zhiyuan Liu, Maosong Sun
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07584v1

摘要：

评估对于完善大型语言模型（LLM）、确定其能力和指导改进至关重要。LLM 的快速发展需要一个轻量级且易于使用的框架，以便迅速部署评估工作。然而，由于需要考虑各种实施细节，开发一个全面的评估平台绝非易事。现有的平台通常比较复杂，模块化程度低，无法无缝地融入研究人员的工作流程。本文介绍的 UltraEval 是一个用户友好型评估框架，具有轻量级、全面性、模块化和高效率的特点。我们确定并重新实现了模型评估的三个核心组成部分（模型、数据和度量）。由此产生的可组合性允许在统一的评估工作流程中自由组合不同的模型、任务、提示和指标。此外，UltraEval 通过统一的 HTTP 服务支持各种模型，并提供充分的推理加速。UltraEval现已面向研究人员公开发布~（footnote{Website is at \url{https://github.com/OpenBMB/UltraEval}}。

33.Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective

标题:作为自然逻辑支点的注释：通过注释视角改进代码生成
author:Yijie Chen, Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu, Jie Zhou
publish:The code is publicly available at https://github.com/pppa2019/Mango
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07549v1

摘要：

代码生成的目的是理解问题描述并生成相应的代码片段，现有的工作通常通过提示策略（如思维链及其变体）将此类复杂任务分解为中间步骤。虽然这些研究取得了一定的成功，但其有效性高度依赖于 GPT-4 等高级大型语言模型（LLM）的能力，尤其是在 API 调用方面，这大大限制了其实际应用性。因此，如何在不大幅增加训练成本的情况下增强中小型代码 LLM 的代码生成能力，是一项极具吸引力的挑战。在本文中，我们认为代码注释是自然语言和代码语言之间的自然逻辑枢纽，并提出利用注释来提高代码 LLM 的代码生成能力。具体来说，我们提出了 MANGO（comMents As Natural loGic pivOts），包括注释对比训练策略和相应的逻辑注释解码策略。实验在 HumanEval 和 MBPP 上进行，使用 StarCoder 和 WizardCoder 作为骨干模型，模型参数大小介于 3B 和 7B 之间。结果表明，在强基线的基础上，MANGO 显著提高了代码通过率。同时，逻辑注释解码策略的鲁棒性明显高于思维链提示。代码可在（url{https://github.com/pppa2019/Mango}）上公开获取。

34.From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples

标题:从文字到数字：给你的大型语言模型提供上下文示例时，它其实是一个有能力的回归器
author:Robert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu
publish:50 pages, 48 figures, preprint
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07544v1

摘要：

我们分析了预先训练好的大型语言模型（如 Llama2、GPT-4、Claude 3 等）在给定上下文示例的情况下，在不进行任何额外训练或梯度更新的情况下，线性和非线性回归的性能如何。我们的研究结果表明，一些大型语言模型（如 GPT-4、Claude 3）在执行回归任务时，其性能可与随机森林（Random Forest）、Bagging 或梯度提升（Gradient Boosting）等传统监督方法相媲美（甚至优于它们）。例如，在具有挑战性的 Friedman #2 回归数据集上，Claude 3 的性能就超过了 AdaBoost、SVM、Random Forest、KNN 或 Gradient Boosting 等多种监督方法。然后，我们将研究大型语言模型的性能如何随上下文中示例的数量而变化。我们借鉴了在线学习中的遗憾概念，并通过经验证明 LLM 能够获得亚线性遗憾。

35."Confidently Nonsensical?'': A Critical Survey on the Perspectives and Challenges of 'Hallucinations' in NLP

标题:"自信无稽之谈？关于 NLP 中 "幻觉 "的观点和挑战的批判性调查
author:Pranav Narayanan Venkit, Tatiana Chakravorti, Vipul Gupta, Heidi Biggs, Mukund Srinath, Koustava Goswami, Sarah Rajtmajer, Shomir Wilson
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07461v1

摘要：

我们通过对103篇NLP研究方面的出版物进行批判性研究，调查了同行评议的文献是如何描述大型语言模型（LLM）中的幻觉的。通过对社会学和技术文献的全面回顾，我们发现 "幻觉 "一词缺乏一致性。此外，我们还对171名来自NLP和人工智能领域的从业人员进行了调查，以了解他们对幻觉的不同看法。我们的分析强调了在NLP中明确定义和概述幻觉的框架的必要性，突出了潜在的挑战，我们的调查提供了对幻觉在社会中的影响和后果的专题理解。