【AI视野·今日NLP 自然语言处理论文速览第四十八期】Thu, 5 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览

Thu, 5 Oct 2023
Totally 50 papers
👉上期速览✈更多精彩请移步主页

Daily Computation and Language Papers

|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Retrieval meets Long Context Large Language Models Authors Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu, Zihan Liu, Sandeep Subramanian, Evelina Bakhturina, Mohammad Shoeybi, Bryan Catanzaro 扩展大型语言模型法学硕士的上下文窗口最近越来越流行，而通过检索增强法学硕士的解决方案已经存在多年。自然的问题是 i 检索增强与长上下文窗口，哪一种更适合下游任务 ii 是否可以将两种方法结合起来以获得两全其美的效果在这项工作中，我们通过使用两种最先进的技术研究两种解决方案来回答这些问题预训练的法学硕士，即专有的 43B GPT 和 LLaMA2 70B。也许令人惊讶的是，我们发现在生成时使用简单的检索增强的具有 4K 上下文窗口的 LLM 可以通过在长上下文任务上进行位置插值来实现与具有 16K 上下文窗口的微调 LLM 相当的性能，同时需要更少的计算。更重要的是，我们证明检索可以显着提高法学硕士的性能，无论其扩展上下文窗口大小如何。我们的最佳模型，检索增强型 LLaMA2 70B，具有 32K 上下文窗口，在七个长上下文任务（包括问答和基于查询的摘要）的平均得分方面优于 GPT 3.5 Turbo 16k 和 Davinci003。它的性能也明显优于非检索 LLaMA2 70B 32k 基线，同时生成速度更快。 |
| Multimodal Question Answering for Unified Information Extraction Authors Yuxuan Sun, Kai Zhang, Yu Su 多模态信息提取 MIE 旨在从非结构化多媒体内容中提取结构化信息。由于任务和设置的多样性，当前大多数 MIE 模型都是特定于任务且数据密集的，这限制了它们对具有不同任务要求和有限标记数据的现实场景的泛化。为了解决这些问题，我们提出了一种新颖的多模态问答 MQA 框架，通过将三个 MIE 任务重新表述为统一的跨度提取和多选择 QA 管道来统一它们。对六个数据集的广泛实验表明，1 与普通提示相比，我们的 MQA 框架一致且显着地提高了各种现成的大型多模态模型 LMM 在 MIE 任务上的性能。 2 在零样本设置中，MQA 大幅优于之前最先进的基线。此外，我们框架的有效性可以成功转移到少数镜头设置，在 10B 参数范围内增强 LMM，使其具有竞争力或优于更大的语言模型，例如 ChatGPT 和 GPT 4。我们的 MQA 框架可以作为一般原则 |
| From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference Authors Siddharth Samsi, Dan Zhao, Joseph McDonald, Baolin Li, Adam Michaleas, Michael Jones, William Bergeron, Jeremy Kepner, Devesh Tiwari, Vijay Gadepally 大型语言模型法学硕士因其新的生成能力远远超出了现有技术水平而迅速流行。这些技术越来越多地应用于法律、金融和医学等各个领域。然而，这些模型面临着巨大的计算挑战，尤其是推理所需的计算和能源成本。尽管这些大型模型在现实中经常被调用来进行推理（例如 ChatGPT），但推理能源成本已经比训练法学硕士的能源成本受到的关注要少。 |
| UniverSLU: Universal Spoken Language Understanding for Diverse Classification and Sequence Generation Tasks with a Single Network Authors Siddhant Arora, Hayato Futami, Jee weon Jung, Yifan Peng, Roshan Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe 最近的研究表明，通过采用具有多任务处理能力的大型语言模型，可以取得有希望的结果。他们利用提示来指导模型的行为并超越特定任务模型的性能。受此启发，我们问是否可以构建一个单一模型来联合执行各种口语理解 SLU 任务。为了解决这个问题，我们利用预先训练的自动语音识别 ASR 模型，并采用各种任务和数据集说明符作为离散提示。我们展示了我们的单一多任务学习 MTL 模型 UniverSLU 对于跨 17 个数据集和 9 种语言的 12 种不同语音分类和序列生成任务的有效性。结果表明，UniverSLU 实现了有竞争力的性能，甚至超越了特定任务模型。 |
| DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning Authors Jiong Xiong, Zixuan Li, Chuanyang Zheng, Zhijiang Guo, Yichun Yin, Enze Xie, Zhicheng Yang, Qingxing Cao, Haiming Wang, Xiongwei Han, Jing Tang, Chengming Li, Xiaodan Liang 自然语言处理领域的最新进展主要由大型语言模型法学硕士推动，展示了它们基于上下文学习的卓越能力。指导法学硕士完成复杂推理任务的一个有前景的途径是利用思想链 CoT 范式中的中间推理步骤。然而，核心挑战在于有效选择范例以促进情境学习。在本研究中，我们引入了一个框架，该框架利用双重查询和低秩近似重新排序 DQ LoRe 来自动选择上下文学习的样本。双查询首先查询LLM以获得LLM生成的知识（例如CoT），然后查询检索器以通过问题和知识获得最终的范例。此外，对于第二个查询，LoRe 采用降维技术来细化样本选择，确保与输入问题的知识紧密结合。通过大量实验，我们证明 DQ LoRe 在自动选择 GPT 4 样本方面显着优于现有技术方法，将性能从 92.5 提高到 94.2。我们的综合分析进一步表明，DQ LoRe 在性能和适应性方面始终优于基于检索的方法，特别是在以分布变化为特征的场景中。 DQ LoRe 突破了情境学习的界限，并为解决复杂推理挑战开辟了新途径。 |
| JsonTuning: Towards Generalizable, Robust, and Controllable Instruction Tuning Authors Chang Gao, Wenxuan Zhang, Guizhen Chen, Wai Lam 指令调优已成为通过提供明确的任务指令来利用大型语言模型 LLM 功能的关键过程，从而提高各种任务的性能。然而，由于任务的模糊性和缺乏明确的结构，流行的文本到文本指令调整 TextTuning 方法在泛化性、鲁棒性和可控性方面受到限制。在本文中，我们提出了 JsonTuning，一种用于指令调优的新颖的结构到结构方法。通过利用 JSON 的多功能性和结构化特性来表示任务，JsonTuning 通过帮助模型理解基本任务元素及其关系来增强泛化性，通过最大限度地减少歧义来提高鲁棒性，并通过提供对输出的显式控制来提高可控性。我们对不同的语言模型和评估基准进行了全面的比较研究。实验结果表明，JsonTuning 在各种应用中均优于 TextTuning，展示了性能、适应性、鲁棒性和可控性的改进。 |
| Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models Authors Xianjun Yang, Xiao Wang, Qi Zhang, Linda Petzold, William Yang Wang, Xun Zhao, Dahua Lin 警告本文包含有害语言示例，建议读者谨慎阅读。强大的大型语言模型法学硕士的不断开放发布，通过降低数据注释和计算的基本成本，促进了下游应用程序的开发。为了确保人工智能的安全，我们采取了广泛的安全调整措施，以保护这些模型免受恶意使用（主要是硬提示攻击）。然而，在看似坚韧的盔甲表面之下，可能潜藏着一个阴影。只需用 1 个 GPU 小时调整 100 个恶意示例，这些安全对齐的 LLM 就可以轻松被破坏以生成有害内容。正式地，我们将一种新的攻击称为"影子对齐"，利用少量数据可以引出安全对齐的模型来适应有害任务，而无需牺牲模型的有用性。值得注意的是，被颠覆的模型保留了对常规查询做出适当响应的能力。在 5 个不同组织 LLaMa 2、Falcon、InternLM、BaiChuan2、Vicuna 发布的 8 个模型上进行的实验证明了阴影对齐攻击的有效性。此外，单轮英语攻击成功转移到多轮对话和其他语言。 |
| LibriSpeech-PC: Benchmark for Evaluation of Punctuation and Capitalization Capabilities of end-to-end ASR Models Authors Aleksandr Meister, Matvei Novikov, Nikolay Karpov, Evelina Bakhturina, Vitaly Lavrukhin, Boris Ginsburg 传统的自动语音识别 ASR 模型输出小写单词，没有标点符号，这降低了可读性，并且需要后续的文本处理模型将 ASR 转录本转换为正确的格式。同时，开发能够预测标点符号和大写字母的端到端 ASR 模型也面临着一些挑战，这主要是由于数据可用性有限以及现有评估方法的缺陷，例如对标点符号预测的评估不足。在本文中，我们介绍了 LibriSpeech PC 基准测试，旨在评估端到端 ASR 模型的标点符号和大写预测能力。该基准包括恢复了标点符号和大写的 LibriSpeech PC 数据集、一种名为"标点错误率 PER"（专注于标点符号）的新颖评估指标以及初始基线模型。 |
| Assessing Large Language Models on Climate Information Authors Jannis Bulian, Mike S. Sch fer, Afra Amini, Heidi Lam, Massimiliano Ciaramita, Ben Gaiarin, Michelle Chen Huebscher, Christian Buck, Niels Mede, Markus Leippold, Nadine Strauss 了解气候变化如何影响我们并了解可用的解决方案是帮助个人和社区减轻和适应气候变化的关键步骤。随着大型语言模型法学硕士越来越受欢迎，有必要评估他们在该领域的能力。在这项研究中，我们提出了一个基于科学传播原则的综合评估框架，以分析法学硕士对气候变化主题的反应。我们的框架强调答案的表述和认识论充分性，为法学硕士一代提供细粒度的分析。我们的框架跨越 8 个维度，可识别模型输出中多达 30 个不同的问题。这项任务是现实世界中越来越多具有挑战性问题的例子，人工智能可以补充和提升人类的表现。我们引入了一种新颖实用的可扩展监督协议，该协议使用人工智能辅助并依赖于具有相关教育背景的评估者。 |
| Hate Speech Detection in Limited Data Contexts using Synthetic Data Generation Authors Aman Khullar, Daniel Nkemelu, Cuong V. Nguyen, Michael L. Best 越来越多的工作集中在文本分类方法上，以检测网上发布的越来越多的仇恨言论。这一进展仅限于少数资源丰富的语言，导致检测系统在有限的数据环境中要么表现不佳，要么不存在。这主要是由于缺乏训练数据造成的，在这些环境中收集和管理训练数据的成本很高。在这项工作中，我们提出了一种数据增强方法，该方法使用合成数据生成技术解决有限数据上下文中在线仇恨言论检测数据缺乏的问题。给定一些高资源语言（例如英语）中的仇恨言论示例，我们提出了三种方法来合成目标语言中的仇恨言论数据的新示例，保留原始示例中的仇恨情绪，但转移仇恨目标。我们应用我们的方法为印地语和越南语的仇恨言论分类任务生成训练数据。我们的研究结果表明，在合成数据上训练的模型与仅在目标域中可用的样本上训练的模型表现相当，在某些情况下甚至优于仅在目标域中可用的样本上训练的模型。该方法可用于在有限的数据上下文中从头开始引导仇恨语音检测模型。 |
| Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation Authors Chen Dun, Mirian Del Carmen Hipolito Garcia, Guoqing Zheng, Ahmed Hassan Awadallah, Anastasios Kyrillidis, Robert Sim 大型语言模型法学硕士有能力解决各种任务，例如开箱即用的文本摘要和数学问题，但他们通常是在训练时只考虑单一任务。由于计算成本较高，当前的趋势是使用即时指令调整来更好地调整整体、预训练的 LLM，以适应新的但通常是单独的下游任务。因此，如何扩展即时调优来处理同时存在的异构任务和数据分布是一个广泛开放的问题。为了解决这一差距，我们建议使用与智能门控功能相关的 emph Mixture of Prompts（MoP），后者的设计是本文的贡献之一，可以识别嵌入不同提示组中的相关技能，并动态分配组合专家即，根据目标任务收集提示。此外，MoP 在经验上与出于效率原因以及指令数据源和任务组合而应用的任何模型压缩技术无关。在实践中，MoP 可以同时减轻多任务、多源场景中的即时训练干扰，例如跨源的任务和数据异构性，以及模型近似的可能影响。 |
| DOMINO: A Dual-System for Multi-step Visual Language Reasoning Authors Peifang Wang, Olga Golovneva, Armen Aghajanyan, Xiang Ren, Muhao Chen, Asli Celikyilmaz, Maryam Fazel Zarandi 视觉语言推理需要一个系统从图表或绘图等信息密集的图像中提取文本或数字，并执行逻辑或算术推理以得出答案。为了解决此任务，现有工作依赖于 1 一个经过大量数据训练的端到端视觉语言模型，或者 2 一个两阶段管道，其中字幕模型将图像转换为文本，然后由另一个大型语言模型进一步读取来推断答案。然而，前一种方法迫使模型通过一个步骤回答复杂的问题，而后一种方法很容易在转换后的文本中出现不准确或分散注意力的信息，从而使语言模型感到困惑。在这项工作中，我们提出了一种用于多步骤多模态推理的双系统，其中包括用于视觉信息提取的系统1步骤和用于故意推理的系统2步骤。给定输入，系统 2 将问题分解为原子子步骤，每个子步骤指导系统 1 从图像中提取推理所需的信息。对图表和绘图数据集的实验表明，与之前针对分布数据内外的工作相比，我们使用预先训练的 System 2 模块的方法具有竞争力。通过仅在多步推理的少量数据上对系统 2 模块 LLaMA 2 70B 进行微调，我们的方法的准确性进一步提高，并超过最佳完全监督端到端方法 5.7 以及使用 FlanPaLM 540B 的管道方法 5.7 |
| Low Resource Summarization using Pre-trained Language Models Authors Mubashir Munaf, Hammad Afzal, Naima Iltaf, Khawir Mahmood 随着基于深度学习的人工神经网络模型的出现，自然语言处理 NLP 见证了文本数据处理在效率和准确性方面的显着改进。然而，该研究主要局限于英语等高资源语言，而低资源语言在训练数据集以及具有基线评估结果的模型方面仍然缺乏可用资源。考虑到低资源语言的资源可用性有限，我们提出了一种适应基于自注意力变压器的架构模型 mBERT、mT5 进行低资源摘要的方法，并辅以构建新的基线数据集 76.5k 文章、低资源中的摘要对语言乌尔都语。选择新闻作为公开可用的源作为应用领域有可能使所提出的方法可用于在资源有限的其他语言中进行复制。我们采用的摘要模型 textit urT5 与 textit mT5 相比，尺寸减少了 44.78 倍，可以有效捕获低资源语言的上下文信息，评估分数高达 46.35 ROUGE 1、77 BERTScore，与高资源语言中最先进的模型相当XSUM 数据集上的英文文本 PEGASUS 47.21、BART 45.14。 |
| A UMLS-Augmented Framework for Improving Factuality in Large Language Models within Healthcare Authors Rui Yang, Edison Marrese Taylor, Yuhe Ke, Lechao Cheng, Qingyu Chen, Irene Li 大型语言模型法学硕士展示了强大的文本生成能力，为医疗保健领域带来了前所未有的创新。虽然法学硕士在医疗保健领域的应用前景广阔，但将其应用于真实的临床场景却带来了巨大的挑战，因为这些模型可能会生成偏离既定医学事实的内容，甚至表现出潜在的偏见。在我们的研究中，我们开发了一个基于统一医学语言系统 UMLS 的增强型法学硕士框架，旨在更好地服务医疗保健社区。我们采用 LLaMa2 13b chat 和 ChatGPT 3.5 作为基准模型，并使用 ROUGE Score 和 BERTScore 对 LiveQA 测试集中的 104 个问题进行自动评估。此外，我们根据事实性、完整性、可读性和相关性四个维度建立了医生评估标准。 ChatGPT 3.5 用于对 LiveQA 测试集上的 20 个问题进行医生评估。多名住院医师对生成内容进行盲审评估，结果表明该框架有效增强了生成内容的真实性、完整性和相关性。 |
| The Role of Linguistic Priors in Measuring Compositional Generalization of Vision-Language Models Authors Chenwei Wu, Li Erran Li, Stefano Ermon, Patrick Haffner, Rong Ge, Zaiwei Zhang 组合性是包括自然语言和图像在内的许多模态的共同属性，但多模态模型的组合概括尚不清楚。在本文中，我们确定了视觉语言组合性语言先验以及图像和文本之间的相互作用的两个来源。我们表明，当前改进构图泛化的尝试依赖于语言先验而不是图像中的信息。 |
| LC-Score: Reference-less estimation of Text Comprehension Difficulty Authors Paul Tardy, Charlotte Roze, Paul Poupet 在数字时代，能够阅读和理解书面文本至关重要。然而，研究表明很大一部分人存在理解问题。在此背景下，需要采取进一步的无障碍举措来提高受众对文本的理解。然而，作者几乎没有得到帮助或鼓励去创作易于理解的内容。此外，自动文本简化 ATS 模型开发缺乏准确评估理解难度的指标。我们提出了 textsc LC Score，这是一种在没有参考的情况下训练任何法语文本的文本理解指标的简单方法，即预测给定文本的理解难易程度0、100 等级。我们使用此量表的目标是定量地捕获文本适合 textit Langage Clair LC（textit Clear Language 指南）的程度，这是一项与 English Plain Language 密切相关的法国倡议。我们探索两种方法：i 使用语言动机指标来训练统计模型；ii 利用预先训练的语言模型直接从文本中进行神经学习。我们引入一个简单的代理任务作为分类任务来进行理解难度训练。 |
| I $\^2$ KD-SLU: An Intra-Inter Knowledge Distillation Framework for Zero-Shot Cross-Lingual Spoken Language Understanding Authors Tianjun Mao, Chenghong Zhang 口语理解 SLU 通常包括意图检测和槽位填充两个子任务。目前，它在高资源语言中取得了巨大的成功，但由于标记训练数据的稀缺，在低资源语言中仍然面临挑战。因此，人们对零样本跨语言 SLU 越来越感兴趣。尽管现有的零样本跨语言SLU模型取得了成功，但大多数模型都忽略了实现意图和槽之间的相互指导。为了解决这个问题，我们提出了一个零镜头跨语言口语理解 I 2 KD SLU 的内部知识蒸馏框架来模拟相互指导。具体来说，我们不仅在不同语言的同一话语的意图预测或槽位预测之间应用内部知识蒸馏，而且还在同一话语的意图预测和槽位预测之间应用知识间蒸馏。 |
| NOLA: Networks as Linear Combination of Low Rank Random Basis Authors Soroush Abbasi Koohpayegani, KL Navaneet, Parsa Nooralinejad, Soheil Kolouri, Hamed Pirsiavash 大型语言模型法学硕士最近因其在各种下游任务中令人印象深刻的少数镜头表现而受到欢迎。然而，由于检查点的规模巨大，例如 GPT 3 中的 350GB，微调所有参数并为每个下游任务或域存储唯一的模型变得不切实际。当前的文献（例如 LoRA）展示了对 LLM 原始权重进行低阶修改的潜力，从而实现任务特定模型的高效适应和存储。这些方法可以将 LLM 微调所需的参数数量减少几个数量级。然而，这些方法面临两个主要限制：1 参数减少受到秩一分解的下限；2 减少的程度很大程度上受到模型架构和所选等级的影响。例如，在较大的模型中，即使是一级分解也可能超过适应真正需要的参数数量。在本文中，我们介绍了 NOLA，它克服了 LoRA 中存在的一级下限。它通过使用随机生成的矩阵基础的线性组合重新参数化 LoRA 中的低秩矩阵并仅优化线性混合系数来实现这一点。这种方法使我们能够将可训练参数的数量与等级的选择和网络架构解耦。我们展示了在自然语言和计算机视觉任务中使用 GPT 2 和 ViT 的适应结果。 NOLA 的性能与具有同等参数数量的模型一样好，甚至更好。 |
| CITING: Large Language Models Create Curriculum for Instruction Tuning Authors Tao Feng, Zifeng Wang, Jimeng Sun 最近，大型语言模型法学硕士的进步是通过指令调整和人类对齐的结合来实现的。然而，构建手动制作的指令数据集和执行人工对齐成为扩展法学硕士发展的瓶颈。在本文中，我们利用人工智能模型代替人类作为老师来培训法学硕士学生的想法。我们的方法的灵感来自于人类学生如何通过遵循规则并从导师提供的修订中学习来提高他们的写作技能。具体来说，我们聘请了一位法学硕士老师，为学生法学硕士创建了一个教学调整课程，即课程教学调整CITING。它包括两个主要步骤：1 法学硕士教师制定用于评估各种类型问题的答案的评估准则，2 法学硕士学生学会遵循评估准则并根据教师的修改进行自我修正。我们进一步迭代进行，以体现CITING的流程。我们将 CITING 与四个数据集上的一系列最先进的基线进行比较。通过 GPT 4 评估，我们的方法在清晰性、深度和综合性方面表现出巨大的进步。 |
| ResidualTransformer: Residual Low-rank Learning with Weight-sharing for Transformer Layers Authors Yiming Wang, Jinyu Li 在这些设备上部署语音处理模型时，始终在线设备的内存限制是主要问题之一。虽然使用足够多的数据训练的较大模型通常表现更好，但使它们适合设备内存是一项艰巨的挑战。在本文中，我们的目标是通过重新参数化 Transformer 编码器层的模型权重并假设特殊的权重组成和结构来减小模型大小。更具体地说，受 ResNet 和最近的 LoRA 工作的启发，我们提出了一种名为 ResidualTransformer 的方法，其中 Transformer 层中的每个权重矩阵包含 1 个与其相邻层共享的全秩分量，以及 2 个自身独特的低秩分量。低秩矩阵仅导致模型大小的少量增加。此外，我们添加对角权重矩阵来提高低秩矩阵的建模能力。 |
| Large Language Models Can Be Good Privacy Protection Learners Authors Yijia Xiao, Yiqiao Jin, Yushi Bai, Yue Wu, Xianjun Yang, Xiao Luo, Wenchao Yu, Xujiang Zhao, Yanchi Liu, Haifeng Chen, Wei Wang, Wei Cheng 大型语言模型法学硕士的激增引发了人们对使用特定领域数据进行微调以创建专门的语言模型的极大兴趣。然而，这种特定于领域的微调数据通常包含敏感的个人身份信息PII。在没有隐私保护的情况下直接对这些数据进行微调 LLM 会带来泄露的风险。为了应对这一挑战，我们引入了隐私保护语言模型 PPLM，这是一种用于微调 LLM 的新颖范式，可以有效地注入特定领域的知识，同时保护数据隐私。我们的工作为模型设计提供了理论分析，并深入研究了各种技术，例如语料库管理、训练损失中基于惩罚的可能性以及基于指令的调整等。跨不同数据集和场景的大量实验证明了我们方法的有效性。特别是，使用正面和负面例子进行指令调整是一种很有前景的方法，可以有效保护私人数据，同时增强模型的知识。 |
| The Empty Signifier Problem: Towards Clearer Paradigms for Operationalising "Alignment" in Large Language Models Authors Hannah Rose Kirk, Bertie Vidgen, Paul R ttger, Scott A. Hale 在本文中，我们通过后结构主义社会政治理论的视角讨论了大型语言模型法学硕士中的对齐概念，特别研究了它与空能指的相似之处。为了围绕如何在经验数据集中操作抽象的对齐概念建立一个共享词汇表，我们提出了一个框架，该框架划分 1 模型行为的哪些维度被认为是重要的，然后 2 如何将含义和定义赋予这些维度以及由谁赋予。我们定位现有的实证文献并为决定遵循哪种范式提供指导。 |
| Backdoor Adjustment of Confounding by Provenance for Robust Text Classification of Multi-institutional Clinical Notes Authors Xiruo Ding, Zhecheng Sheng, Meliha Yeti gen, Serguei Pakhomov, Trevor Cohen 自然语言处理NLP方法已广泛应用于临床任务。机器学习和深度学习方法已被用来提高临床 NLP 的性能。然而，这些方法需要足够大的数据集进行训练，并且训练后的模型已被证明跨站点传输效果很差。这些问题促进了不同机构之间的数据收集和集成，以获得准确和可移植的模型。然而，这可能会引入一种称为出处混淆的偏见。当部署时源特定数据分布不同时，这可能会损害模型性能。为了解决这个问题，我们评估了在多站点临床记录数据集中文本分类的后门调整的效用，其中注释了药物滥用的提及。使用旨在衡量分配变化稳健性的评估框架，我们评估了后门调整的效用。 |
| Low-Resource Languages Jailbreak GPT-4 Authors Zheng Xin Yong, Cristina Menghini, Stephen H. Bach 人工智能安全培训和大型语言模型法学硕士的红队是减少不安全内容生成的措施。我们的工作通过将不安全的英语输入翻译成低资源语言，成功规避了 GPT 4 的保护措施，暴露了这些安全机制固有的跨语言漏洞，这是由于安全训练数据的语言不平等造成的。在 AdvBenchmark 上，GPT 4 处理不安全的翻译输入，并提供可操作的项目，使用户在 79 次的时间内实现有害目标，这相当于甚至超越了最先进的越狱攻击。其他高中资源语言的攻击成功率明显较低，这表明跨语言漏洞主要适用于低资源语言。此前，对资源匮乏语言的有限培训主要影响这些语言的使用者，从而造成技术差距。然而，我们的工作强调了一个关键的转变，这种缺陷现在给所有法学硕士用户带来了风险。公开可用的翻译 API 使任何人都可以利用法学硕士的安全漏洞。 |
| Novice Learner and Expert Tutor: Evaluating Math Reasoning Abilities of Large Language Models with Misconceptions Authors Naiming Liu, Shashank Sonkar, Zichao Wang, Simon Woodhead, Richard G. Baraniuk 我们基于数学误解，提出了对大型语言模型法学硕士的数学推理能力的新颖评估。我们的主要方法是模拟法学硕士作为新手学习者和专家导师，旨在分别识别由于特定误解而导致的数学问题的错误答案，并识别错误答案背后的误解。与注重正确回答数学问题的传统法学硕士数学评估相反，我们的方法从教育学习科学原理中汲取灵感。我们明确要求法学硕士通过基于不完整知识以特定的错误方式回答问题来模仿新手学习者，并通过识别与问题的错误答案相对应的误解来模仿专家导师。使用简单的小学数学问题，我们的实验表明，虽然法学硕士可以轻松正确地回答这些问题，但他们很难识别 1 与特定不完整知识误解相对应的错误答案 2 解释特定错误答案的误解。 |
| Nugget 2D: Dynamic Contextual Compression for Scaling Decoder-only Language Models Authors Guanghui Qin, Corby Rosset, Ethan C. Chau, Nikhil Rao, Benjamin Van Durme 基于标准 Transformer 的语言模型 LM 很难扩展到长上下文。我们提出了一种基于动态上下文压缩的解决方案，它将Qin Van Durme 2023 的 Nugget 方法从类似 BERT 的框架扩展到仅解码 LM。我们的方法将历史建模为压缩块，经过训练可以进行重建，并且可以使用现成的模型（例如 LLaMA）进行初始化。我们通过语言建模、问答和摘要方面的实验证明，Nugget2D 保留了这些任务的功能，同时大大减少了解码过程中时间和空间方面的开销。 |
| Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching Authors Liming Wang, Mark Hasegawa Johnson, Chang D. Yoo 由于 GAN 相关的不稳定性、语音和文本之间的错位以及大量的内存需求，训练无监督语音识别系统面临着挑战。为了应对这些挑战，我们引入了一种新颖的 ASR 系统 ESPUM。该系统利用低阶 N 个 Skipgram 直至 N 3 的功能，并结合从小批量样本收集的位置一元组统计数据。根据 TIMIT 基准进行评估，我们的模型展示了 ASR 和音素分割任务中的竞争性能。 |
| Conversational Health Agents: A Personalized LLM-Powered Agent Framework Authors Mahyar Abbasian, Iman Azimi, Amir M. Rahmani, Ramesh Jain 对话健康代理 CHA 是交互式系统，旨在通过参与同理心对话和处理多模式数据来增强个人医疗保健服务。虽然当前的 CHA，尤其是那些利用大型语言模型 LLM 的 CHA，主要专注于对话，但它们通常缺乏全面的代理功能。这包括能够从可穿戴设备、24小时7小时数据收集源和电子健康记录访问个人用户健康数据，以及集成最新发布的健康见解并与已建立的多模式数据分析工具连接。我们正在开发一个框架，通过赋予 CHA 批判性思维、知识获取和解决问题的能力来增强他们的能力。我们的 CHA 平台由法学硕士提供支持，无缝集成医疗保健工具，支持多语言和多模式对话，并与各种用户数据分析工具交互。 |
| ProtoNER: Few shot Incremental Learning for Named Entity Recognition using Prototypical Networks Authors Ritesh Kumar, Saurabh Goyal, Ashish Verma, Vatche Isahagian 从视觉丰富的文档中进行键值对 KVP 提取或命名实体识别 NER 一直是文档理解和数据提取领域的一个活跃研究领域。几种基于 Transformer 的模型（例如 LayoutLMv2、LayoutLMv3 和 LiLT）已经出现，取得了最先进的结果。然而，即使向现有模型添加一个新类，也需要重新注释整个训练数据集以包含这个新类，并再次重新训练模型。这两个问题确实减慢了更新模型的部署速度。我们提出了基于 textbf ProtoNER 原型网络的端到端 KVP 提取模型，该模型允许向现有模型添加新类，同时需要最少数量的新注释训练样本。我们模型的主要贡献是 1 不依赖于模型初始训练所用的数据集，这减少了长时间保留原始训练数据集以及数据重新注释的需要，这是一项非常耗时的任务，2 没有中间合成数据生成往往会增加噪声并导致模型性能下降，3 混合损失函数允许模型保留有关旧类的知识并了解新添加的类。 |
| On the definition of toxicity in NLP Authors Sergey Berezin, Reza Farahbakhsh, Noel Crespi 毒性检测任务的根本问题在于毒性的定义不明确。 Jigsaw 是 Google 内部的一个部门，也是该领域的领导者之一，它使用 Dixon 等人给出的毒性定义。粗鲁、不尊重或不合理的语言可能会导致某人退出讨论。人们可以立即看出这一定义的问题，因为它没有给出毒性的定量衡量标准，并且使用高度主观的文化术语。尽管存在种种模糊性和缺陷，这个定义实际上被许多研究人员广泛使用。 |
| Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation Authors Eric Zelikman, Eliana Lorch, Lester Mackey, Adam Tauman Kalai 人工智能系统的一些最新进展（例如思想树和程序辅助语言模型）通过提供脚手架程序来解决问题，该脚手架程序构建对语言模型的多个调用以生成更好的输出。脚手架程序是用Python等编程语言编写的。在这项工作中，我们使用注入语言模型的脚手架程序来改进自身。我们从种子改进器开始，它根据给定的效用函数通过多次查询语言模型并返回最佳解决方案来改进输入程序。然后我们运行该种子改良剂来改进自身。在一小组下游任务中，由此产生的改进改进器生成的程序的性能明显优于其种子改进器。然后，我们分析了语言模型提出的各种自我改进策略，包括集束搜索、遗传算法和模拟退火。由于语言模型本身没有改变，这不是完全递归的自我改进。尽管如此，它表明现代语言模型（我们的概念验证实验中的 GPT 4）能够编写可以调用自身来改进自身的代码。 |
| LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving Authors Hao Sha, Yao Mu, Yuxuan Jiang, Li Chen, Chenfeng Xu, Ping Luo, Shengbo Eben Li, Masayoshi Tomizuka, Wei Zhan, Mingyu Ding 现有的基于学习的自动驾驶 AD 系统在理解高级信息、概括罕见事件和提供可解释性方面面临挑战。为了解决这些问题，这项工作采用大型语言模型法学硕士作为需要人类常识理解的复杂 AD 场景的决策组件。我们设计认知途径以实现法学硕士的全面推理，并开发算法将法学硕士的决策转化为可操作的驾驶命令。通过这种方法，LLM 决策通过引导参数矩阵自适应与低级控制器无缝集成。大量实验表明，由于法学硕士的常识推理能力，我们提出的方法不仅在单车辆任务中始终超越基准方法，而且有助于处理复杂的驾驶行为甚至多车辆协调。本文提出了利用法学硕士作为复杂 AD 场景的有效决策者在安全性、效率、通用性和互操作性方面迈出的第一步。我们希望它能够为该领域的未来研究提供灵感。 |
| Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages Authors Kuan Po Huang, Chih Kai Yang, Yu Kuan Fu, Ewan Dunbar, Hung yi Lee 我们引入了一种新的零资源代码切换语音基准测试，旨在直接评估自监督语音编码器的代码切换能力。我们展示了离散单元上的语言建模基线系统，以演示如何以零资源方式评估语音编码器的代码切换能力。我们的实验涵盖各种众所周知的语音编码器，包括 Wav2vec 2.0、HuBERT、XLSR 等。我们检查预训练语言和模型大小对基准性能的影响。 |
| Understanding In-Context Learning in Transformers and LLMs by Learning to Learn Discrete Functions Authors Satwik Bhattamishra, Arkil Patel, Phil Blunsom, Varun Kanade 为了理解上下文学习现象，最近的工作采用了一种程式化的实验框架，并证明 Transformer 可以针对各类实值函数学习基于梯度的学习算法。然而，Transformer 在实现学习算法方面的局限性以及它们学习其他形式算法的能力尚不清楚。此外，这些功能在多大程度上仅限于基于注意力的模型尚不清楚。此外，从这些程式化设置中得出的见解是否可以推断到预训练的大型语言模型法学硕士还有待观察。在这项工作中，我们通过演示以下内容朝着回答这些问题迈出了一步：在具有各种布尔函数类的测试床上，我们发现 Transformer 几乎可以匹配更简单任务的最佳学习算法，而它们的性能在更多情况下会恶化复杂的任务。此外，我们发现某些无注意力模型在一系列任务上的表现与变形金刚几乎相同。 b 当提供一个教学序列，即一组唯一标识类中函数的示例时，我们表明 Transformers 可以有效地学习更多样本。有趣的是，我们的结果表明 Transformers 可以学习实现两种不同的算法来解决单个任务，并且可以根据上下文示例的顺序自适应地选择样本效率更高的算法。 c 最后，我们展示了现有的法学硕士，例如 |
| ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models Authors Yi Lin Sung, Jaehong Yoon, Mohit Bansal 大视觉语言模型 LVLM 可以通过整合来自不同模态的丰富信息来全面理解世界，在各种多模态下游任务上实现显着的性能提升。然而，由于计算能源成本和碳消耗巨大，部署 LVLM 通常会出现问题。这些问题使得采用传统的迭代全局剪枝变得不可行，由于计算整个大型模型的Hessian矩阵进行稀疏化，成本高昂。另外，一些研究最近提出了逐层剪枝方法，以避免全局剪枝的昂贵计算，并根据模型权重在层内的重要性有效地压缩模型权重。然而，由于缺乏全局视角，这些方法经常遭受次优模型压缩的困扰。为了解决大型模型的最新高效剪枝方法中的这一限制，我们提出了高效粗略到精细逐层剪枝 ECoFLaP，这是一种用于 LVLM 的两阶段粗到精细权重剪枝方法。我们首先利用全局重要性得分来确定不同层或块的稀疏率，该得分是根据全局模型梯度的零阶近似有效计算的。然后，多模态模型根据全局稀疏率执行局部分层非结构化权重修剪。 |
| Kosmos-G: Generating Images in Context with Multimodal Large Language Models Authors Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu Wei 最近在文本到图像 T2I 和视觉语言到图像 VL2I 生成方面取得了重大进展。然而，广义视觉语言输入的生成，尤其是涉及多个图像的生成，仍有待探索。本文提出了 Kosmos G，这是一种利用多模态大型语言模型 MLLM 的高级感知功能来应对上述挑战的模型。我们的方法使用文本模态作为锚点将 MLLM 的输出空间与 CLIP 对齐，并对策划的数据执行组合指令调整。 Kosmos G 展示了零镜头多实体主题驱动生成的独特功能。值得注意的是，分数蒸馏指令调整不需要对图像解码器进行修改。这允许无缝替换 CLIP，并轻松地与无数 U Net 技术（从细粒度控制到个性化图像解码器变体）集成。 |
| xVal: A Continuous Number Encoding for Large Language Models Authors Siavash Golkar, Mariel Pettee, Michael Eickenberg, Alberto Bietti, Miles Cranmer, Geraud Krawezik, Francois Lanusse, Michael McCabe, Ruben Ohana, Liam Parker, Bruno R galdo Saint Blancard, Tiberiu Tesileanu, Kyunghyun Cho, Shirley Ho 大型语言模型尚未广泛适用于科学数据集的分析，部分原因是数字标记的独特困难。我们提出了 xVal，一种仅使用单个标记表示任何实数的数字编码方案。 xVal 通过按数值缩放专用嵌入向量来表示给定的实数。与修改后的数字推断方法相结合，当将模型视为从输入字符串的数字到输出字符串的数字的映射时，该策略使模型端到端连续。这导致了归纳偏差，通常更适合科学领域的应用。我们在许多合成和现实世界的数据集上根据经验评估了我们的建议。 |
| Scaling Laws for Associative Memories Authors Vivien Cabannes, Elvis Dohmatob, Alberto Bietti 学习可以说涉及到抽象规则的发现和记忆。本文的目的是研究联想记忆机制。我们的模型基于由嵌入的外积组成的高维矩阵，这与 Transformer 语言模型的内层相关。我们推导了关于样本大小和参数大小的精确缩放定律，并讨论了不同估计器的统计效率，包括基于优化的算法。 |
| Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors Authors Ido Amos, Jonathan Berant, Ankit Gupta 对跨序列的长范围依赖性进行建模是机器学习的一个长期目标，并导致了状态空间模型等架构在长序列上的性能显着优于 Transformer。然而，这些令人印象深刻的经验收益基本上已经在基准测试中得到了证明，例如Long Range Arena ，模型被随机初始化和训练以根据输入序列预测目标标签。在这项工作中，我们表明随机初始化会导致对架构之间差异的总体高估，并且仅使用下游任务数据的 textit 进行标准去噪目标的预训练会导致跨多个架构的巨大收益以及 Transformers 和状态之间的非常小的差距空间模型 SSM。与之前的工作形成鲜明对比的是，我们发现经过适当预训练后，普通 Transformers 可以与 Long Range Arena 上的 S4 性能相匹配，并且我们将 SSM 在 PathX 256 任务上的最佳报告结果提高了 20 个绝对点。随后，我们分析了先前提出的 SSM 结构化参数化的实用性，并表明它们在存在通过预训练获得的数据驱动初始化的情况下变得大多冗余。 |
| T $\^3$ Bench: Benchmarking Current Progress in Text-to-3D Generation Authors Yuze He, Yushi Bai, Matthieu Lin, Wang Zhao, Yubin Hu, Jenny Sheng, Ran Yi, Juanzi Li, Yong Jin Liu 最近的文本转 3D 方法利用强大的预训练扩散模型来优化 NeRF。值得注意的是，这些方法无需 3D 数据训练即可生成高质量的 3D 场景。由于该任务的开放性性质，大多数研究通过主观案例研究和用户实验来评估其结果，从而在定量解决文本到 3D 目前进展如何的问题上提出了挑战。在本文中，我们介绍了 T 3 Bench，第一个全面的文本到 3D 基准测试，包含专为 3D 生成而设计的三个复杂程度不断增加的不同文本提示。为了评估主观质量和文本对齐，我们提出了两个基于 3D 内容生成的多视图图像的自动指标。质量指标结合了多视图文本图像分数和区域卷积来检测质量和视图不一致。对齐指标使用多视图字幕和大语言模型 LLM 评估来衡量文本 3D 一致性。这两个指标都与人类判断的不同维度密切相关，为有效评估文本到 3D 模型提供了范例。如图 1 所示的基准测试结果揭示了六种流行的文本转 3D 方法之间的性能差异。我们的分析进一步强调了当前方法在生成环境和多对象场景方面的共同难题，以及利用 2D 指导进行 3D 生成的瓶颈。 |
| Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech Model Authors Kai Wei Chang, Ming Hsin Chen, Yun Ping Lin, Jing Neng Hsu, Paul Kuo Ming Huang, Chien yu Huang, Shang Wen Li, Hung yi Lee 提示和适配器调整已成为微调 FT 方法的有效替代方法。然而，现有的语音提示研究主要集中在分类任务上，而未能解决更复杂的序列生成任务。此外，适配器调整主要应用于仅编码器自监督模型。我们的实验表明，Wav2Seq（一种自监督编码器解码器模型）上的提示在序列生成任务中超越了之前的工作。它在 ASR 的单词错误率方面实现了显着的 53 相对改善，在槽位填充的 F1 分数方面实现了 27 的相对改善。此外，在资源匮乏的情况下，提示与 FT 方法存在竞争。此外，我们还展示了跨语言 ASR 中 Wav2Seq 提示和适配器调整的可迁移性。当涉及有限的可训练参数时，提示和适配器调整在 7 种语言中始终优于传统的 FT。 |
| Use Your INSTINCT: INSTruction optimization usIng Neural bandits Coupled with Transformers Authors Xiaoqiang Lin, Zhaoxuan Wu, Zhongxiang Dai, Wenyang Hu, Yao Shu, See Kiong Ng, Patrick Jaillet, Bryan Kian Hsiang Low 大型语言模型法学硕士已经表现出卓越的指令跟踪能力，并在各种应用中取得了令人印象深刻的表现。然而，法学硕士的表现在很大程度上取决于给予他们的指令，这些指令通常是通过大量的人力手动调整的。最近的工作使用查询高效的贝叶斯优化 BO 算法来自动优化给予黑盒 LLM 的指令。然而，在优化高度复杂的目标函数（例如将指令映射到法学硕士性能的函数）时，BO 通常会出现不足。这主要是由于BO使用高斯过程GP模型作为替代来对目标函数进行建模的表达能力有限。同时，事实已经反复证明，神经网络NN，尤其是预训练的Transformer，具有强大的表达能力，可以对高度复杂的函数进行建模。因此，我们采用神经强盗算法，用 NN 代理代替 BO 中的 GP 来优化黑盒 LLM 的指令。更重要的是，神经老虎机算法允许我们自然地将神经网络代理与预训练变压器（即开源 LLM）学习的隐藏表示结合起来，这显着提高了其性能。这些促使我们提出使用神经老虎机与 Transformers INSTINCT 算法相结合的INSTrection优化。 |
| Comparative Study and Framework for Automated Summariser Evaluation: LangChain and Hybrid Algorithms Authors Bagiya Lakshmi S, Sanjjushri Varshini R, Rohith Mahadevan, Raja CSP Raman 自动作文评分 AES 被证明是最先进的技术之一。评分技术用于多种目的。可靠的分数是根据有影响的变量计算的。这些变量可以根据域通过不同的方法来计算。研究重点是用户对给定主题的理解。该分析基于使用大型语言模型的评分指数。然后，用户可以比较和对比他们最近学习的主题的理解。然后将结果用于学习分析，并进一步提高学习能力。在这项研究中，重点是总结 PDF 文档并衡量用户对其内容的理解。该过程涉及利用 Langchain 工具来总结 PDF 并提取基本信息。 |
| AGIR: Automating Cyber Threat Intelligence Reporting with Natural Language Generation Authors Filippo Perrina, Francesco Marchiori, Mauro Conti, Nino Vincenzo Verde 网络威胁情报 CTI 报告在当代风险管理策略中至关重要。随着 CTI 报告数量持续激增，对简化报告生成的自动化工具的需求变得越来越明显。虽然自然语言处理技术在处理文本数据方面显示出了潜力，但它们往往难以解决不同数据源的复杂性及其错综复杂的相互关系。此外，像 STIX 这样的既定范例已成为 CTI 社区内事实上的标准，强调实体和关系的正式分类，以促进一致的数据共享。在本文中，我们介绍 AGIR 自动生成情报报告，这是一种变革性的自然语言生成工具，专门用于解决 CTI 报告领域的紧迫挑战。 AGIR 的主要目标是通过自动化从实体图的正式表示生成综合情报报告的劳动密集型任务来增强安全分析师的能力。 AGIR 通过结合基于模板的方法的优点和 ChatGPT 等大型语言模型的功能，利用两阶段管道。我们对 AGIR 的报告生成能力进行定量和定性评估。生成的报告准确传达了通过正式语言表达的信息，在不引入幻觉的情况下达到了 0.99 的高召回值。此外，我们将报告的流畅性和实用性与最先进的方法进行比较，展示 AGIR 如何在句法对数优势比 SLOR 方面和通过问卷调查获得更高的分数。 |
| Improving Automatic VQA Evaluation Using Large Language Models Authors Oscar Ma as, Benno Krojer, Aishwarya Agrawal 视觉问答 VQA 任务提出 8 年后，准确性仍然是自动评估的主要指标。迄今为止，VQA Accuracy 在 IID 评估设置中一直有效。然而，我们的社区正在向开放式生成模型和 OOD 评估转变。在这个新范式中，现有的 VQA 准确度指标过于严格，并且低估了 VQA 系统的性能。因此，需要开发更强大的自动 VQA 指标来作为人类判断的代理。在这项工作中，我们建议利用指令调整的大型语言模型 LLM 的上下文学习功能来构建更好的 VQA 指标。我们将 VQA 评估制定为答案评分任务，其中指示法学硕士在给定一组参考答案的情况下对候选答案的准确性进行评分。我们证明，与多个 VQA 模型和基准的现有指标相比，所提出的指标与人类判断更好地相关。 |
| Can Large Language Models Provide Security & Privacy Advice? Measuring the Ability of LLMs to Refute Misconceptions Authors Yufan Chen, Arjun Arunasalam, Z. Berkay Celik 用户从在线资源寻求安全隐私SP建议，包括受信任的网站和内容共享平台。这些资源可帮助用户了解 SP 技术和工具，并提出可行的策略。大型语言模型法学硕士最近已成为值得信赖的信息来源。然而，它们的准确性和正确性受到了质疑。先前的研究概述了法学硕士在回答多项选择问题和用户无意中规避模型限制（例如产生有毒内容）的能力方面的缺点。然而，法学硕士提供可靠的 SP 建议的能力尚未得到充分探讨。在本文中，我们衡量了他们驳斥公众普遍持有的 SP 误解的能力。我们首先研究最近的学术文献，整理出一个包含 6 个不同主题的 100 多个与 SP 相关的误解的数据集。然后，我们询问了两位受欢迎的法学硕士 Bard 和 ChatGPT，并制定了标签指南来评估他们对这些误解的反应。为了全面评估他们的回答，我们进一步应用三种策略多次查询每个误解，生成并查询他们的释义，并征求回答的源 URL。这两个模型平均显示出 21.3 不可忽略的错误率，错误地支持了流行的 SP 误解。当我们重复查询具有相同或释义错误概念的法学硕士时，错误率会增加到 32.6。我们还指出，模型可能部分支持误解，或者保持不置可否，拒绝对误解采取坚定立场。 |
| Can a student Large Language Model perform as well as it's teacher? Authors Sia Gholami, Marwan Omar 当代深度学习模型的复杂性不断增加，在实现无与伦比的准确性的同时，无意中给资源有限的环境带来了部署挑战。知识蒸馏是一种旨在将知识从高能力教师模型转移到精简学生模型的技术，成为解决这一困境的有希望的解决方案。本文全面概述了知识蒸馏范式，强调了其基本原理，例如软标签的实用性和温度缩放的重要性。通过细致的检查，我们阐明了成功蒸馏的关键决定因素，包括学生模型的架构、教师的能力以及超参数的微妙平衡。在承认其深远优势的同时，我们也深入研究了该过程固有的复杂性和挑战。 |
| Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness Authors Young Jin Kim, Raffy Fahim, Hany Hassan Awadalla 由于具有专家并行性的高效模型扩展能力，大量专家混合的 MoE 模型可以在包括机器翻译任务在内的各种语言任务上实现最先进的质量。然而，它带来了一个根本性的问题：内存消耗较大，部署时内存带宽瓶颈加大。在本文中，我们提出了量化专家混合 MoQE，这是一种简单的仅权重量化方法，仅将超低位低至 2 位量化应用于专家权重，以缓解 MoE 模型增加的内存和延迟问题。我们表明，低位量化与 MoE 架构一起提供了可靠的模型性能，同时显着减小了内存大小，即使在大多数情况下无需任何额外的训练。特别是，MoE 模型中的专家层在量化方面比传统前馈网络 FFN 层更加稳健。在我们的综合分析中，我们表明具有 2 位专家权重的 MoE 模型可以比在同一数据集上训练的密集模型提供更好的模型性能。由于低位量化，我们表明模型大小可以比原始半精度浮点 fp16 MoE 模型减少 79.6。 |
| MindTheDApp: A Toolchain for Complex Network-Driven Structural Analysis of Ethereum-based Decentralised Applications Authors Giacomo Ibba, Sabrina Aufiero, Silvia Bartolucci, Rumyana Neykova, Marco Ortu, Roberto Tonelli, Giuseppe Destefanis 本文介绍了 MindTheDApp，这是一个专门为基于以太坊的去中心化应用程序 DApp 的结构分析而设计的工具链，特别关注复杂的网络驱动方法。与现有工具不同，我们的工具链结合了 ANTLR4 和抽象语法树 AST 遍历技术的强大功能，将智能合约内的架构和交互转换为专门的二分图。 |
| End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations Authors Yajing Feng CNRS LISN , Laurence Devillers CNRS LISN, SU 呼叫中心对话中的语音情感识别 SER 已成为评估客户和座席之间交互质量的宝贵工具。与受控的实验室环境相比，现实生活中的对话是在不受控制的条件下进行的，并且受到影响情绪表达的情境因素的影响。在本文中，我们提出了构建大规模现实数据集 CusEmo 的方法，以在客户服务呼叫中心对话中实现连续 SER。我们采用维度情感标注方法来捕捉现实生活中呼叫中心对话中情感的微妙性、复杂性和连续性，同时标注上下文信息。该研究还解决了端到端E2E SER系统应用于数据集过程中遇到的挑战，包括确定适当的标签采样率和输入段长度，以及使用不同的权重整合上下文信息对话者的性别和同理心水平多任务学习。 |
| Chinese Abs From Machine Translation |

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

【AI视野·今日NLP 自然语言处理论文速览 第四十八期】Thu, 5 Oct 2023

Daily Computation and Language Papers

【AI视野·今日NLP 自然语言处理论文速览第四十八期】Thu, 5 Oct 2023