1.Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
标题:Medusa:具有多个解码头的简单 LLM 推理加速框架
author:Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, Tri Dao
date Time:2024-01-19
paper pdf:http://arxiv.org/pdf/2401.10774v1
摘要 :
由于自动回归解码过程缺乏并行性,大型语言模型(LLM)的推理过程往往受到限制,导致大多数操作受限于加速器的内存带宽。虽然有人提出了推测解码等方法来解决这一问题,但由于获取和维护单独的草稿模型所带来的挑战,这些方法的实施受到了阻碍。在本文中,我们介绍了一种高效方法 Medusa,它通过添加额外的解码头来并行预测多个后续标记,从而增强了 LLM 推理能力。Medusa 使用基于树的关注机制,构建多个候选连续句,并在每个解码步骤中同时验证它们。通过利用并行处理,Medusa 在单步延迟方面的开销极小,同时大大减少了所需的解码步骤数量。 我们为 Medusa 提供了两级微调程序,以满足不同用例的需求:Medusa-1:在冻结的骨干 LLM 上直接对 Medusa 进行微调,从而实现无损推理加速。Medusa-2:与骨干 LLM 一起对 Medusa 进行微调,从而提高 Medusa 头的预测精度和速度,但需要特殊的训练配方,以保留骨干模型的能力。 此外,我们还提出了一些扩展方案,以改进或扩展 Medusa 的实用性,包括处理无训练数据情况的自蒸馏方案,以及在保持生成质量的同时提高接受率的典型接受方案。我们在不同规模和训练程序的模型上对 Medusa 进行了评估。我们的实验证明,Medusa-1 可以在不影响生成质量的情况下将速度提高 2.2 倍以上,而 Medusa-2 则将速度进一步提高到 2.3-3.6 倍。
2.FinSQL: Model-Agnostic LLMs-based Text-to-SQL Framework for Financial Analysis
标题:FinSQL:基于模型的 LLMs 文本到 SQL 金融分析框架
author:Chao Zhang, Yuren Mao, Yijiang Fan, Yu Mi, Yunjun Gao, Lu Chen, Dongfang Lou, Jinshu Lin
date Time:2024-01-19
paper pdf:http://arxiv.org/pdf/2401.10506v1
摘要 :
文本到 SQL 为操作关系数据库提供了零代码接口,在金融分析领域备受关注;因为金融专业人员可能并不精通 SQL 编程。然而,到目前为止,还没有实用的金融分析文本到 SQL 基准数据集,现有的文本到 SQL 方法也没有考虑金融应用中数据库的独特性,如常见的宽表。为了解决这些问题,我们收集了一个实用的文本到 SQL 基准数据集,并为金融分析提出了一个基于模型无关的大语言模型(LLMs)的文本到 SQL 框架。基准数据集 BULL 收集自恒生技术公司的实用金融分析业务,包括基金、股票和宏观经济数据库。此外,所提出的基于 LLMs 的文本到 SQL 框架 FinSQL 从及时构建、参数高效微调和输出校准等方面对金融文本到 SQL 进行了系统处理。在 BULL 上的大量实验结果表明,FinSQL 以较小的成本实现了最先进的文本到 SQL 性能;此外,在需要少量跨数据库模型传输的场景中,FinSQL 可带来高达 36.64% 的性能提升。
3.Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on Data-to-Text Generation
标题:超越基于参考的度量标准:分析开放式 LLM 在数据到文本生成方面的行为
author:Zdeněk Kasner, Ondřej Dušek
date Time:2024-01-18
paper pdf:http://arxiv.org/pdf/2401.10186v2
摘要 :
我们分析了开放式大型语言模型(LLM)在数据到文本(D2T)生成任务(即从结构化数据生成连贯的相关文本)中的表现。为了避免 LLM 训练数据污染标准基准的问题,我们设计了 Quintd - 一种从公共 API 收集新型结构化数据记录的工具。利用 Quintd 收集的数据集和无参照评估,我们分析了五个 D2T 生成任务的模型行为。我们发现,最近的开放式 LLM(Llama2、Mistral 和 Zephyr)可以在零拍摄设置下从标准数据格式生成流畅连贯的文本。但是,我们也发现,输出结果的语义准确性是个大问题:根据我们基于 GPT-4 的衡量标准和人类注释者,开放式 LLM 超过 80% 的输出结果包含语义错误。我们公开发布了代码、数据和模型输出。
4.Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs
标题:代码提示激发文本+代码 LLM 中的条件推理能力
author:Haritz Puerto, Martin Tutek, Somak Aditya, Xiaodan Zhu, Iryna Gurevych
date Time:2024-01-18
paper pdf:http://arxiv.org/pdf/2401.10065v1
摘要 :
推理是实现语言理解的基本要素。在多种类型的推理中,条件推理(根据某些条件得出不同结论的能力)在大型语言模型(LLM)中的研究一直不足。最近的提示方法(如思维链)大大提高了 LLM 在推理任务中的表现。尽管如此,人们对是什么触发了 LLM 的推理能力仍然知之甚少。我们假设,代码提示可以触发以文本和代码为训练对象的 LLMs 进行条件推理。我们提出了一个提示链,将自然语言问题转化为代码,并用生成的代码提示 LLM。我们的实验发现,在需要条件推理的多个数据集上,代码提示在 GPT 3.5 上的性能提升了 2.6 到 7.7 个百分点。随后,我们进行了实验,以发现代码提示是如何激发条件推理能力的,以及通过哪些特征。我们发现,提示需要包含自然语言文本,并伴有高质量的代码,这些代码应能紧密体现实例文本的语义。此外,我们还发现代码提示效率更高,所需的演示次数更少,而且能触发对变量或关键实体的出色状态跟踪。
5.EmoLLMs: A Series of Emotional Large Language Models and Annotation Tools for Comprehensive Affective Analysis
标题:EmoLLMs:用于综合情感分析的一系列情感大语言模型和注释工具
author:Zhiwei Liu, Kailai Yang, Tianlin Zhang, Qianqian Xie, Zeping Yu, Sophia Ananiadou
date Time:2024-01-16
paper pdf:http://arxiv.org/pdf/2401.08508v1
摘要 :
情感分析和情绪检测是自然语言处理(NLP)领域的重要研究课题,对许多下游任务大有裨益。随着 LLM 的广泛应用,研究人员开始探索基于指令调谐的 LLM 在情感分析领域的应用。然而,这些模型只关注情感分类任务的单一方面(如情感极性或分类情感),而忽略了回归任务(如情感强度或情感强度),从而导致在下游任务中表现不佳。主要原因是缺乏涵盖各种情感分类和回归任务的综合情感指导调整数据集和评估基准。此外,尽管情感信息对下游任务非常有用,但现有的下游数据集缺乏高质量和全面的情感注释。在本文中,我们提出了 EmoLLMs--第一个开源的用于综合情感分析的指令跟随型 LLMs 系列,它基于指令数据对各种 LLMs 进行微调;第一个多任务情感分析指令数据集(AAID),包含 234K 基于各种分类和回归任务的数据样本,以支持 LLM 指令调整;以及一个综合情感评估基准(AEB),包含 14 个来自不同来源和领域的任务,以测试 LLMs 的泛化能力。通过使用 AAID 对 LLM 进行微调,我们提出了一系列 EmoLLM,以解决各种情感指令任务。我们将我们的模型与 AEB 上的各种 LLM 进行了比较,结果表明我们的模型优于所有其他开源 LLM,并在大多数任务中超过了 ChatGPT 和 GPT-4,这表明 EmoLLMs 系列在情感分析任务上的泛化能力达到了 ChatGPT 和 GPT-4 的水平,并证明我们的模型可以用作情感标注工具。
6.Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering
标题:使用 AlphaCodium 生成代码:从提示工程到流程工程
author:Tal Ridnik, Dedy Kredo, Itamar Friedman
date Time:2024-01-16
paper pdf:http://arxiv.org/pdf/2401.08500v1
摘要 :
代码生成问题不同于常见的自然语言问题--它们需要与目标语言的精确语法相匹配、识别成功路径和边缘情况、关注问题规格中的众多小细节,以及解决其他代码特定问题和要求。因此,许多在自然语言生成中取得成功的优化和技巧可能对代码任务无效。在这项工作中,我们提出了一种由 LLM 生成代码的新方法,我们称之为 AlphaCodium,它是一种基于测试、多阶段、面向代码的迭代流程,可提高 LLM 在代码问题上的性能。我们在一个名为 CodeContests 的具有挑战性的代码生成数据集上测试了 AlphaCodium,该数据集包括来自 Codeforces 等平台的竞争性编程问题。所提出的流程持续显著地改善了结果。例如,在验证集上,使用 AlphaCodium 流程后,GPT-4 准确率(pass@5)从使用单一精心设计的直接提示时的 19% 提高到了 44%。我们相信,这项工作中获得的许多原则和最佳实践可广泛适用于一般代码生成任务。完整的实现过程请访问:https://github.com/Codium-ai/AlphaCodium
7.Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation
标题:对比偏好优化:突破机器翻译中 LLM 性能的极限
author:Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim
date Time:2024-01-16
paper pdf:http://arxiv.org/pdf/2401.08417v3
摘要 :
中等规模的大型语言模型(LLM)--参数为 7B 或 13B 的模型--表现出良好的机器翻译(MT)性能。然而,即使是基于 13B LLM 的顶级翻译模型(如 ALMA),其性能也无法与最先进的传统编码器-解码器翻译模型或更大规模的 LLM(如 GPT-4)相媲美。在本研究中,我们弥补了这一性能差距。我们首先评估了在 MT 任务中对 LLM 进行有监督微调的缺点,强调了参考数据中存在的质量问题,尽管这些数据是人工生成的。然后,与模仿参考译文的 SFT 不同,我们引入了对比偏好优化(Contrastive Preference Optimization,CPO),这是一种新颖的方法,可训练模型避免生成适当但不完美的译文。将 CPO 应用于仅有 22K 个平行句子和 1200 万个参数的 ALMA 模型,会产生显著的改进。由此产生的名为 ALMA-R 的模型在 WMT'21、WMT'22 和 WMT'23 测试数据集上的表现可以媲美或超过 WMT 竞赛获奖者和 GPT-4 的表现。
8.Application of LLM Agents in Recruitment: A Novel Framework for Resume Screening
标题:在招聘中应用 LLM 代理:简历筛选的新框架
author:Chengguang Gan, Qinghao Zhang, Tatsunori Mori
date Time:2024-01-16
paper pdf:http://arxiv.org/pdf/2401.08315v1
摘要 :
简历筛选自动化是企业招聘流程的一个重要方面。自动简历筛选系统通常包含一系列自然语言处理(NLP)任务。大型语言模型(LLM)的出现显著提高了这些系统的效能,展示了它们在各种语言相关任务中强大的泛化能力。伴随这些发展的是各种基于 LLM 的代理,它们促进了 LLM 在实际场景中的应用。本文介绍了一种新颖的基于 LLM 的简历筛选代理框架,旨在提高招聘流程的效率和时间管理。我们的框架与众不同之处在于,它能从大型数据集中高效地汇总每份简历并为其打分。此外,它还利用 LLM 代理进行决策,决定哪些应聘者会收到工作邀请,或者哪些应聘者会参加面试。为了评估我们的框架,我们从实际简历中构建了一个数据集,并对简历筛选过程进行了模拟。随后,我们对模拟实验的结果进行了比较和详细分析。结果表明,我们的自动简历筛选框架比传统的人工方法快 11 倍。此外,通过微调 LLM,我们观察到在简历句子分类阶段,F1 分数有了显著提高,达到了 87.73/%。在简历摘要和分级阶段,我们的微调模型超过了 GPT-3.5 模型的基准性能。对 LLM 代理在最终录用阶段的决策效率的分析进一步强调了 LLM 代理在改变简历筛选流程方面的潜力。
9.LoMA: Lossless Compressed Memory Attention
标题:LoMA: 无损压缩记忆注意力
author:Yumeng Wang, Zhenyang Xiao
date Time:2024-01-16
paper pdf:http://arxiv.org/pdf/2401.09486v2
摘要 :
大型语言模型(LLM)在处理长上下文时面临着对 GPU 内存和计算资源的高需求限制。虽然稀疏化转换器模型的键值(KV)缓存是缓解资源占用的典型策略,但它不可避免地会导致信息丢失。我们引入了无损压缩内存注意(LoMA),这是一种新颖的方法,可对 KV 缓存进行无损压缩,从而降低自回归生成过程中的内存和计算需求。LoMA 将专门的训练或微调先例与针对压缩环境优化的自回归生成算法结合在一起。我们的方法在每生成 tc$ 标记后压缩 KV 缓存,压缩率为 c ,目标压缩长度为 t ,目标压缩长度为 t ,目标压缩长度为t,这一过程在单次推理中完成,无需依赖辅助模型。我们设计了一种高效的训练方案,其中涉及特定输入、注意力掩码和位置标识符,以灌输这种压缩能力。实验验证表明,LoMA 通过实现无损 KV 缓存压缩,大大减少了计算消耗和内存使用。
10.Enhancing Document-level Translation of Large Language Model via Translation Mixed-instructions
标题:通过翻译混合指令加强大语言模型的文档级翻译
author:Yachao Li, Junhui Li, Jing Jiang, Min Zhang
date Time:2024-01-16
paper pdf:http://arxiv.org/pdf/2401.08088v1
摘要 :
现有的机器翻译大语言模型(LLM)通常是根据句子级别的翻译指令进行微调,并在句子级别取得令人满意的性能。然而,当应用于文档级翻译时,这些模型面临着巨大的挑战,尤其是在处理包含超过 512 个标记的文档时。这一挑战源于句子级覆盖问题,即文档中的后续句子仍未翻译。因此,根据句子级翻译指令进行微调的 LLM 的文档级翻译能力受到很大限制。我们推测,LLMs 文档级翻译性能较弱的主要原因是缺乏文档到文档的映射能力。为了解决这个问题,我们提出了一种方法,将不同长度的句子级和文档级翻译指令结合起来,对 LLM 进行微调。我们提出的混合翻译指令可使 LLM(Llama-2~7B 和 13B)从句子层面到包含多达 2048 个标记的文档之间保持一致的翻译性能。广泛的实验结果表明,所提出的方法显著增强了 LLMs 在 10 对语言上的文档级翻译能力,有效缓解了文档级翻译中的句子级覆盖问题。对话语现象的实验证明,我们的文档级翻译方法在 BLEU 分数和话语连贯性方面都显著提高了翻译质量。
11.Flexibly Scaling Large Language Models Contexts Through Extensible Tokenization
标题:通过可扩展标记化灵活扩展大型语言模型语境
author:Ninglu Shao, Shitao Xiao, Zheng Liu, Peitian Zhang
date Time:2024-01-15
paper pdf:http://arxiv.org/pdf/2401.07793v1
摘要 :
大型语言模型(LLM)需要足够的语境来处理许多关键应用,如检索增强生成和少量学习。然而,由于窗口大小的限制,大语言模型只能获取有限语境中的信息。虽然可以通过微调来扩展上下文窗口的大小,但这将导致训练和推理阶段的大量成本。在本文中,我们提出了可扩展标记化(Extensible Tokenization)作为一种替代方法,以实现 LLM 上下文的灵活扩展。可扩展标记化是标记化上下文和 LLM 之间的中间件,它将原始标记嵌入转化为可扩展嵌入。这种嵌入为长语境提供了更紧凑的表示,在此基础上,LLM 可以在相同的语境窗口中感知更多信息。可扩展标记化的另一个特点是灵活性:缩放因子可以在可行的范围内灵活确定,从而在推理时扩展任意的上下文长度。此外,Extensible Tokenization 是作为一个可直接插入的组件引入的,它不仅可以无缝地插入 LLM 本身,还可以插入其微调衍生物,在引入扩展上下文信息的同时完全保留 LLM 的现有功能。我们在长语境语言建模和理解任务中进行了全面的实验,验证了可扩展标记化是扩展 LLM 上下文的一种有效、高效、灵活和兼容的方法。我们的模型和源代码将公开发布。
12.Active Learning for NLP with Large Language Models
标题:利用大型语言模型进行 NLP 主动学习
author:Xuesong Wang
date Time:2024-01-14
paper pdf:http://arxiv.org/pdf/2401.07367v1
摘要 :
对训练样本进行人工标注既昂贵又费力,有时还极具挑战性,尤其是在自然语言处理(NLP)任务中。为了降低标注成本并提高样本效率,可以使用主动学习(AL)技术来标注尽可能少的样本,以达到合理或相似的结果。为了降低更多成本,随着大型语言模型(LLM)的显著进步,LLM 可以成为标注样本的良好候选。这项工作研究了在 3 个不同数据集上使用 LLM(GPT-3.5 和 GPT-4)标注样本的准确性和成本。我们提出了一种基于一致性的策略来选择可能被错误标注的样本,以便在 AL 设置中对这些样本使用人工注释,我们称之为混合注释策略。然后,我们测试了 AL 在两种不同设置下的性能:(1) 仅使用人工标注;(2) 使用所提出的混合标注策略。我们在 AG's News、TREC-6 和 Rotten Tomatoes 这三个文本分类数据集上报告了三种 AL 查询策略下 AL 模型的准确率。在 AG's News 和 Rotten Tomatoes 数据集上,使用混合注释策略训练的模型与使用人工注释训练的模型取得了相似或更好的结果。该方法揭示了 LLM 作为注释器在主动学习环境中的准确性和成本效益方面的巨大潜力。
13.Adapting Large Language Models for Document-Level Machine Translation
标题:为文档级机器翻译调整大型语言模型
author:Minghao Wu, Thuy-Trang Vu, Lizhen Qu, George Foster, Gholamreza Haffari
date Time:2024-01-12
paper pdf:http://arxiv.org/pdf/2401.06468v2
摘要 :
大型语言模型(LLM)在各种自然语言处理(NLP)任务中取得了长足的进步。最近的研究表明,在针对特定任务进行微调后,中等规模的 LLM 通常会优于大型 LLM。在这项工作中,我们将深入研究如何调整 LLM,使其专门从事特定语言对的文档级机器翻译(DocMT)。首先,我们探讨了提示策略如何影响下游翻译性能。然后,我们使用两种微调方法、三种 LLM 骨架和九种语言对的 18 项翻译任务进行了广泛的实验。我们的研究结果表明,在某些情况下,这些专门模型的翻译性能甚至超过了 GPT-4,而在另一些情况下,即使完全在双语平行文档上进行微调,它们仍然会受到脱靶翻译问题的严重影响。此外,我们还对这些为 DocMT 量身定制的 LLM 进行了深入分析,探讨了翻译错误、话语现象、训练策略、平行文档的缩放规律、在最新测试集上的额外评估以及零点跨语言转移等方面的问题。我们的研究结果不仅揭示了基于 LLM 的 DocMT 模型的优势和局限性,还为今后的研究奠定了基础。
14.Tuning LLMs with Contrastive Alignment Instructions for Machine Translation in Unseen, Low-resource Languages
标题:利用对比对齐指令调整 LLM,实现未见语言、低资源语言的机器翻译
author:Zhuoyuan Mao, Yen Yu
date Time:2024-01-11
paper pdf:http://arxiv.org/pdf/2401.05811v1
摘要 :
本文介绍了对比对齐指令(AlignInstruct),以应对大型语言模型(LLM)机器翻译(MT)中的两个挑战。其一是将支持的语言扩展到以前未曾见过的语言。其二是缺乏低资源语言的数据。通过 MT 指令进行模型微调(MTInstruct)是应对第一个挑战的直接方法。但是,MTInstruct 受限于第二个挑战所固有的弱跨语言信号。AlignInstruct 强调通过使用统计词对齐建立的跨语言判别器进行跨语言监督。我们在多达 24 种未见语言中对 BLOOMZ 模型(1b1、3b 和 7b1)进行微调的结果表明:(1) LLMs 可以使用 MTInstruct 有效地翻译未见语言;(2) AlignInstruct 在涉及英语的 48 个翻译方向上持续提高了翻译质量;(3) 作为跨语言指令,基于判别器的指令优于生成式指令;(4) AlignInstruct 提高了 30 个零翻译方向的性能。
15.CAT-LLM: Prompting Large Language Models with Text Style Definition for Chinese Article-style Transfer
标题:CAT-LLM:用文本风格定义提示大语言模型,实现中文文章风格转换
author:Zhen Tao, Dinghao Xi, Zhiyu Li, Liumin Tang, Wei Xu
date Time:2024-01-11
paper pdf:http://arxiv.org/pdf/2401.05707v1
摘要 :
文本风格转换在在线娱乐和社交媒体中日益突出。然而,现有的研究主要集中在单个英文句子中的风格转换,而忽略了长篇中文文本的复杂性,这限制了风格转换在数字媒体领域更广泛的适用性。为了弥补这一不足,我们利用大语言模型(LLM)的功能,提出了中文文章风格转换框架(CAT-LLM)。CAT-LLM 包含一个定制的、可插拔的文本风格定义(TSD)模块,旨在全面分析文章中的文本特征,促使 LLM 有效地转换中文文章风格。TSD 模块集成了一系列机器学习算法,可从字词和句子两个层面分析文章风格,从而帮助语言学者在不影响原文完整性的前提下彻底掌握目标风格。此外,该模块还支持内部文体树的动态扩展,兼容性强,可在后续研究中灵活优化。此外,我们选取了五篇风格迥异的中文文章,利用 ChatGPT 创建了五个并行数据集,提高了模型的性能评估精度,为后续文章风格转换研究建立了新的评估范式。广泛的实验结果证实,CAT-LLM 在转写准确性和内容保存方面优于现有研究,并对各种类型的 LLM 具有显著的适用性。