AI视野·今日CS.NLP 自然语言处理论文速览
Daily Computation and Language Papers
|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation Authors Fangyuan Xu, Weijia Shi, Eunsol Choi 在推理时检索文档并将其添加到上下文中可以提高语言模型 LM 在各种任务上的性能。然而,这些文档通常跨越数百个单词,使得推理成本大大增加。我们建议在上下文集成之前将检索到的文档压缩为文本摘要。这不仅降低了计算成本,还减轻了语言模型在长检索文档中识别相关信息的负担。我们提出了两个压缩器,一个是提取压缩器,它从检索到的文档中选择有用的句子,另一个是抽象压缩器,它通过合成来自多个文档的信息来生成摘要。当生成的摘要被添加到 LM 输入之前时,两个压缩器都经过训练,以提高 LM 在最终任务上的性能,同时保持摘要简洁。如果检索到的文档与输入无关或未向 LM 提供任何附加信息,我们的压缩器可以返回空字符串,实现选择性增强。我们评估我们在语言建模任务和开放域问答任务上的方法。我们实现了低至 6 的压缩率,同时这两项任务的性能损失最小,显着优于现成的摘要模型。 |
| Policy-Gradient Training of Language Models for Ranking Authors Ge Gao, Jonathan D. Chang, Claire Cardie, Kiant Brantley, Thorsten Joachim 文本检索在将决策的事实知识纳入语言处理管道(从基于聊天的网络搜索到问答系统)方面发挥着至关重要的作用。当前最先进的文本检索模型利用预先训练的大型语言模型 LLM 来实现有竞争力的性能,但通过典型的对比损失训练基于 LLM 的检索器需要复杂的启发式方法,包括选择硬负例和使用额外的监督作为学习信号。这种对启发式的依赖源于这样一个事实:对比损失本身是启发式的,并且不会直接优化处理管道末端的决策质量的下游指标。为了解决这个问题,我们引入了 Neural PG RANK,这是一种新颖的训练算法,它通过将 LLM 实例化为 Plackett Luce 排名策略来学习排名。神经 PG RANK 提供了一种通过策略梯度对检索模型进行端到端训练的原则性方法,作为较大决策系统的一部分,几乎不依赖于复杂的启发式方法,并且它有效地将训练目标与下游决策质量统一起来。我们对各种文本检索基准进行了广泛的实验。 |
| Improving Stability in Simultaneous Speech Translation: A Revision-Controllable Decoding Approach Authors Junkun Chen, Jian Xue, Peidong Wang, Jing Pan, Jinyu Li 语音到文本同步翻译在实时跨语言交流中发挥着至关重要的作用。尽管近年来取得了进步,但在实现翻译过程的稳定性方面仍然存在挑战,这一问题主要表现在部分结果的闪烁上。在本文中,我们提出了一种新颖的修订可控方法来解决这个问题。我们的方法在集束搜索修剪过程中引入了允许的修订窗口,以筛选出可能导致大量修订的候选翻译,从而大幅减少闪烁,最重要的是,提供完全消除闪烁的能力。 |
| Transferring speech-generic and depression-specific knowledge for Alzheimer's disease detection Authors Ziyun Cui, Wen Wu, Wei Qiang Zhang, Ji Wu, Chao Zhang 从自发语音中检测阿尔茨海默病 AD 引起了越来越多的关注,而训练数据的稀疏性仍然是一个重要问题。本文通过知识转移来处理这个问题,特别是从语音通用知识和抑郁症特定知识。该论文首先研究了在大量语音和文本数据上预训练的通用基础模型的顺序知识迁移。基于从不同基础模型的不同中间块中提取的表示,对 AD 诊断进行块分析。除了来自语音通用表征的知识之外,本文还提出基于抑郁症和 AD 的高共病率,同时迁移来自语音抑郁症检测任务的知识。研究了并行知识转移框架,该框架共同学习这两个任务之间共享的信息。 |
| Large-Scale Korean Text Dataset for Classifying Biased Speech in Real-World Online Services Authors Dasol Choi, Jooyoung Song, Eunsun Lee, Jinwoo Seo, Heejune Park, Dongbin Na 随着在线服务的增长,对高级文本分类算法(例如情感分析和偏见文本检测)的需求变得越来越明显。在线服务的匿名性质常常导致存在偏见和有害语言,给维护在线社区的健康带来挑战。这种现象在韩国尤其重要,因为韩国尚未广泛探索大规模仇恨言论检测算法。在本文中,我们介绍了从韩国知名 SNS 平台收集的新的综合性大规模数据集。我们提出的数据集为文本样本提供了注释,包括 1 个偏好、2 个脏话和 3 种九种偏差,支持多任务学习以同时对用户生成的文本进行分类。利用最先进的基于 BERT 的语言模型,我们的方法在各种分类任务中超越了人类水平的准确性(通过各种指标衡量)。除了学术贡献之外,我们的工作还可以为现实世界的仇恨言论和偏见缓解提供实用的解决方案,直接为改善在线社区的健康做出贡献。我们的工作为未来旨在提高在线话语质量和促进社会福祉的研究奠定了坚实的基础。 |
| A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks Authors Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang 最近,大型语言模型法学硕士展示了解决各种任务的令人印象深刻的能力。然而,尽管他们在各种任务上取得了成功,但之前还没有研究他们在生物医学领域的能力。为此,本文旨在评估法学硕士在基准生物医学任务上的表现。为此,我们对 26 个数据集的 6 种不同生物医学任务中的 4 名热门法学硕士进行了全面评估。据我们所知,这是第一篇对生物医学领域各种法学硕士进行广泛评估和比较的工作。有趣的是,根据我们的评估,我们发现在具有较小训练集的生物医学数据集中,零样本法学硕士甚至优于当前最先进的微调生物医学模型。这表明,对大型文本语料库的预训练使得法学硕士即使在生物医学领域也相当专业。我们还发现,没有一个法学硕士可以在所有任务上都优于其他法学硕士,不同的法学硕士的表现可能会因任务而异。 |
| Written and spoken corpus of real and fake social media postings about COVID-19 Authors Ng Bee Chin, Ng Zhi Ee Nicole, Kyla Kwan, Lee Yong Han Dylann, Liu Fang, Xu Hong 这项研究调查了假新闻和真实新闻的语言特征。本研究分为文本数据和语音数据两部分。本研究的文本数据由 Patwa 等人重新过滤的 6420 条与 COVID 19 相关的推文组成。 2021 年。清理后,数据集包含 3049 条推文,其中 2161 条标记为真实,888 条标记为假。本研究的语音数据收集自 TikTok,重点关注与 COVID 19 相关的视频。研究助理使用可靠来源对每个视频的内容进行了事实检查,并将其标记为"真实"、"虚假"或"可疑",从而生成了来自 200 个 TikTok 视频的 91 个真实条目和 109 个虚假条目的数据集,总字数为 53,710 个单词。使用语言查询和字数统计 LIWC 软件对数据进行分析,以检测语言数据中的模式。结果表明了一组语言特征,可以在书面和语音数据中区分假新闻和真实新闻。 |
| Automatic Aspect Extraction from Scientific Texts Authors Anna Marshalova, Elena Bruches, Tatiana Batura 能够从科学论文中提取其要点、关键见解和其他重要信息(此处称为方面)可能会促进进行科学文献综述的过程。因此,我们研究的目的是创建一个从任何领域的俄语科学文本中自动提取方面的工具。在本文中,我们提出了一个俄语科学文本的跨领域数据集,标注了任务、贡献、方法和结论等方面,以及基于我们的多语言 BERT 模型微调的方面提取基线算法。数据。我们表明,不同领域的方面表示存在一些差异,但即使我们的模型是在有限数量的科学领域进行训练的,它仍然能够推广到新领域,正如跨领域实验所证明的那样。 |
| Analysis of the Reasoning with Redundant Information Provided Ability of Large Language Models Authors Wenbei Xie 大型语言模型的最新进展 法学硕士在一系列自然语言处理任务中展示了令人印象深刻的能力,特别是在推理方面,这是实现通用人工智能 AGI 的基石。然而,常用的基准可能无法完全封装这些模型在现实场景中的推理能力。为了弥补这一差距,引入了一种新形式的问答 QA 任务,称为提供冗余信息的推理 RRIP。该研究设计了小学数学 8K GSM 8K 数据集的修改版本,该数据集有多个变体,专注于冗余信息的不同属性。这项调查评估了两种流行的 LLM,LlaMA2 13B chat 和生成式预训练 Transformer 3.5 GPT 3.5,将它们在传统 QA 任务和 RRIP 任务上的表现进行对比。研究结果表明,虽然这些模型在标准 QA 基准上取得了一定的成功,但在 RRIP 任务评估时,它们的性能显着下降。 |
| Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models Authors Boyu Zhang, Hongyang Yang, Tianyu Zhou, Ali Babar, Xiao Yang Liu 财务情绪分析对于估值和投资决策至关重要。然而,传统的 NLP 模型受到参数大小和训练数据集范围的限制,这限制了它们在该领域的泛化能力和有效性。最近,在广泛的语料库上进行预训练的大型语言模型法学硕士由于其值得称赞的零样本能力,在各种 NLP 任务中表现出了卓越的性能。然而,直接将法学硕士应用于金融情绪分析面临着挑战。法学硕士的预训练目标与预测情绪标签之间的差异可能会影响其预测性能。此外,财经新闻的简洁性通常缺乏足够的背景,可能会显着降低法学硕士情绪分析的可靠性。为了应对这些挑战,我们引入了用于金融情绪分析的检索增强法学硕士框架。该框架包括一个指令调整的 LLM 模块,该模块确保 LLM 充当情感标签的预测器,以及一个检索增强模块,该模块从可靠的外部源检索附加上下文。 |
| SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation Authors Abe Bohan Hou, Jingyu Zhang, Tianxing He, Yichen Wang, Yung Sung Chuang, Hongwei Wang, Lingfeng Shen, Benjamin Van Durme, Daniel Khashabi, Yulia Tsvetkov 现有的水印算法由于其令牌级设计而容易受到释义攻击。为了解决这个问题,我们提出了 SemStamp,一种基于局部敏感哈希 LSH 的鲁棒句子级语义水印算法,它对句子的语义空间进行划分。该算法对LLM生成的候选句子进行编码和LSH哈希,并进行句子级拒绝采样,直到采样的句子落入语义嵌入空间中的水印分区中。基于余量的约束用于增强其鲁棒性。为了展示我们算法的优势,我们提出了一种二元组释义攻击,使用与原始句子具有最少二元组重叠的释义。这种攻击被证明可以有效对抗现有的令牌级水印方法。 |
| Dementia Assessment Using Mandarin Speech with an Attention-based Speech Recognition Encoder Authors Zih Jyun Lin, Yi Ju Chen, Po Chih Kuo, Likai Huang, Chaur Jong Hu, Cheng Yu Chen 痴呆症的诊断需要一系列不同的测试方法,既复杂又耗时。早期发现痴呆症至关重要,因为它可以防止病情进一步恶化。本文利用语音识别模型在图片描述任务中构建了一个针对普通话使用者的痴呆症评估系统。通过在与现实世界场景非常相似的语音数据上训练基于注意力的语音识别模型,我们显着增强了模型的识别能力。随后,我们从语音识别模型中提取了编码器,并添加了用于痴呆症评估的线性层。我们收集了 99 名受试者的普通话语音数据,并从当地一家医院获得了他们的临床评估。 |
| Quantized Transformer Language Model Implementations on Edge Devices Authors Mohammad Wali Ur Rahman, Murad Mehrab Abrar, Hunter Gibbons Copening, Salim Hariri, Sicong Shao, Pratik Satam, Soheil Salehi 基于大规模 Transformer 的模型(例如来自 Transformers BERT 的双向编码器表示)广泛用于自然语言处理 NLP 应用,其中这些模型最初使用具有数百万个参数的大型语料库进行预训练,然后针对下游 NLP 任务进行微调。这些大型模型的主要限制之一是,由于模型尺寸较大且推理延迟增加,它们无法部署在资源受限的设备上。为了克服这些限制,此类大型模型可以转换为优化的 FlatBuffer 格式,专为部署在资源受限的边缘设备上而定制。在这里,我们评估了这种 FlatBuffer 转换的 MobileBERT 模型在三种不同边缘设备上的性能,并针对 RepLab 2013 数据集中的英语推文的声誉分析进行了微调。此外,这项研究还包括对已部署模型的评估,其中对它们的延迟、性能和资源效率进行了仔细评估。我们的实验结果表明,与原始 BERT 大模型相比,经过转换和量化的 MobileBERT 模型的占用空间小了 160 倍,在边缘设备上每秒至少分析一条推文时,精度下降了 4.1 倍。 |
| Chain of Natural Language Inference for Reducing Large Language Model Ungrounded Hallucinations Authors Deren Lei, Yaxi Li, Mengya Mia Hu, Mingyu Wang, Vincent Yun, Emily Ching, Eslam Kamal 当给定相关文档作为背景上下文时,大型语言模型法学硕士可以生成流畅的自然语言文本。这种能力引起了人们对法学硕士开发行业应用的极大兴趣。然而,法学硕士很容易产生不受所提供来源支持的幻觉。在本文中,我们提出了一个分层框架来检测和减轻这种毫无根据的幻觉。我们的框架使用自然语言推理链 CoNLI 进行幻觉检测并通过后期编辑减少幻觉。我们的方法在幻觉检测方面实现了最先进的性能,并通过重写提高文本质量,使用法学硕士,无需任何微调或特定领域的提示工程。 |
| Exploring the evolution of research topics during the COVID-19 pandemic Authors Francesco Invernici, Anna Bernasconi, Stefano Ceri COVID 19 大流行改变了大多数科学界的研究议程,导致医学、病毒学、流行病学、经济、心理学等各个领域的研究文章大量涌现。其中建立了多个开放获取语料库和文献中心,COVID 19 开放研究数据集 CORD 19 通过收集和索引超过 100 万篇文章,系统地收集了 2.5 年来的科学贡献。在这里,我们介绍了 CORD 19 主题可视化工具 CORToViz,这是一种用于检查 CORD 19 科学摘要文本语料库的方法和相关可视化工具。我们的方法基于对包括大型语言模型在内的最新技术的仔细选择,从而产生了沿正交维度对文章进行聚类的体系结构以及用于时间主题挖掘的提取技术。主题检查由交互式仪表板支持,提供快速、一键式的主题内容可视化(词云形式)和主题趋势(时间序列形式),并配备易于驱动的统计测试,用于分析主题在任意选择的时间窗口中出现的重要性。 |
| Evaluating Multi-Agent Coordination Abilities in Large Language Models Authors Saaket Agashe, Yue Fan, Xin Eric Wang 当代人工智能研究的一个关键目标是开发精通多智能体协调的智能体,从而实现与人类和其他系统的有效协作。大型语言模型法学硕士以其以类似人类的方式理解、生成和解释语言的显着能力,成为开发此类代理的有希望的候选者。在这项研究中,我们构建并评估了在各种协调场景中使用 LLM 制作的代理的有效性。我们推出了LLM Coordination LLM Co Framework,专门为让LLM能够玩协调游戏而设计。借助LLM Co框架,我们在三种游戏环境下进行评估,并将评估分为心理理论、情景推理、持续协调、对合作伙伴的鲁棒性和显式协助五个方面。首先,对心理理论和情景推理的评估揭示了法学硕士推断合作伙伴意图并相应推理行动的能力。然后,围绕对合作伙伴的持续协调和稳健性的评估进一步展示了法学硕士在复杂的长期任务中与未知合作伙伴进行协调的能力,其表现优于强化学习基线。最后,为了测试显式协助(指代理主动提供帮助的能力),我们在 Overcooked AI 基准测试中引入了两种新颖的布局,检查代理是否可以优先帮助其合作伙伴,从而牺牲本可以花费在任务上的时间。 |
| Automatic and Human-AI Interactive Text Generation Authors Yao Dou, Philippe Laban, Claire Gardent, Wei Xu 在本教程中,我们重点关注文本到文本生成,这是一类自然语言生成 NLG 任务,它将一段文本作为输入,然后生成根据某些特定标准(例如可读性或语言风格)进行改进的修订版本,而很大程度上保留了原文的含义和文本的长度。这包括许多有用的应用程序,例如文本简化、释义生成、风格转换等。与文本摘要和开放式文本完成(例如故事)相比,我们在本教程中讨论的文本到文本生成任务在以下方面受到更多限制:语义一致性和目标语言风格。这种控制级别使这些任务成为研究模型生成语义充分且风格适当的文本的能力的理想测试平台。此外,从技术角度来看,这些任务很有趣,因为它们需要词汇和句法转换、文体控制以及对事实知识的遵守的复杂组合。本教程特别关注文本简化和修订,旨在从数据、模型、人类人工智能协作和评估四个主要方面概述最先进的自然语言生成研究,并讨论和展示一些重要的和最新进展 1 非回归方法的使用 2 从微调到大型语言模型提示的转变 3 新的可学习度量和细粒度人类评估框架的开发 4 越来越多的非英语研究和数据集 5 |
| PrIeD-KIE: Towards Privacy Preserved Document Key Information Extraction Authors Saifullah Saifullah 1 and 2 , Stefan Agne 2 and 3 , Andreas Dengel 1 and 2 , Sheraz Ahmed 2 and 3 1 Department of Computer Science, University of Kaiserslautern Landau, Kaiserslautern, Rhineland Palatinate, Germany, 2 German Research Center for Artificial Intelligence, DFKI GmbH, Kaiserslautern, Rhineland Palatinate, Germany, 3 DeepReader GmbH, Kaiserlautern, Germany 在本文中,我们介绍了通过利用大型预训练文档基础模型并结合差分隐私 DP、联邦学习 FL 和差分隐私联邦学习 DP FL 来开发私钥信息提取 KIE 系统的策略。通过对六个基准数据集 FUNSD、CORD、SROIE、WildReceipts、XFUND 和 DOCILE 的广泛实验,我们证明大型文档基础模型可以针对私有设置下的 KIE 任务进行有效的微调,以实现足够的性能,同时保持强大的隐私保证。此外,通过深入分析各种训练和模型参数对模型性能的影响,我们提出了简单而有效的指导方针,以实现全局 DP 下 KIE 任务的最佳隐私效用权衡。最后,我们介绍 FeAm DP,这是一种新颖的 DP FL 算法,可以有效地将全局 DP 从独立上下文升级到多客户端联合环境。我们对各种客户端和隐私设置的算法进行了全面评估,并证明了即使在容纳越来越多的参与客户端的情况下,其也能实现与独立 DP 相当的性能和隐私保证。总的来说,我们的研究为私有 KIE 系统的开发提供了宝贵的见解,并强调了文档基础模型在保护隐私的文档 AI 应用程序中的潜力。 |
| Investigating Alternative Feature Extraction Pipelines For Clinical Note Phenotyping Authors Neil Daniel 医疗行业的常见做法是使用临床记录,其中包含详细的患者观察。然而,电子健康记录系统通常不以结构化格式包含这些观察结果,这使得患者信息难以自动评估和评价。使用计算系统提取医疗属性提供了许多应用,包括患者的纵向分析、风险评估和医院评估。最近的工作构建了成功的表型分析方法,从临床记录中提取医学属性。基于 BERT 的模型可用于将临床记录转换为一系列表示形式,然后根据其 CLS 嵌入将其压缩为单个文档表示形式,并传递到 LSTM Mulyar 等人,2020。尽管该管道比以前的结果产生了相当大的性能改进,但它需要大量的收敛时间。 |
| Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models Authors Andy Zhou, Kai Yan, Michal Shlapentokh Rothman, Haohan Wang, Yu Xiong Wang 虽然大型语言模型法学硕士在一系列决策任务中表现出了令人印象深刻的性能,但它们依赖于简单的执行过程,无法作为自主代理进行广泛部署。我们引入了 LATS 语言代理树搜索,这是一个通用框架,可以协同法学硕士在规划、行动和推理方面的能力。受到基于模型的强化学习中蒙特卡罗树搜索的启发,LATS 采用 LLM 作为代理、价值函数和优化器,重新利用其潜在优势来增强决策。该方法的关键是使用外部反馈环境,它提供了一种更加深思熟虑和适应性更强的问题解决机制,超越了现有技术的限制。我们跨不同领域(例如编程、HotPotQA 和 WebShop)的实验评估说明了 LATS 在推理和行动方面的适用性。 |
| Hermes: Unlocking Security Analysis of Cellular Network Protocols by Synthesizing Finite State Machines from Natural Language Specifications Authors Abdullah Al Ishtiaq, Sarkar Snigdha Sarathi Das, Syed Md Mukit Rashid, Ali Ranjbar, Kai Tu, Tianwei Wu, Zhezheng Song, Weixuan Wang, Mujtahid Akon, Rui Zhang, Syed Rafiul Hussain 在本文中,我们提出了 Hermes,这是一个端到端框架,可以根据自然语言细胞规范自动生成形式表示。我们首先开发一个神经选区解析器 NEUTREX 来处理转换相关文本并提取转换组件,即状态、条件和动作。我们还设计了一种领域特定语言,通过利用依赖解析树将这些转换组件转换为逻辑公式。最后,我们编译这些逻辑公式以生成转换并创建作为有限状态机的形式模型。为了证明 Hermes 的有效性,我们在 4G NAS、5G NAS 和 5G RRC 规范上对其进行了评估,并获得了 81 87 的整体精度,这比现有技术有了实质性的改进。 |
| Amortizing intractable inference in large language models Authors Edward J. Hu, Moksh Jain, Eric Elmoznino, Younesse Kaddar, Guillaume Lajoie, Yoshua Bengio, Nikolay Malkin 自回归大型语言模型法学硕士通过下一个令牌条件分布压缩训练数据中的知识。这限制了对这些知识的易于处理的查询以开始到结束自回归采样。然而,许多感兴趣的任务,包括序列延续、填充和其他形式的约束生成,都涉及从棘手的后验分布中进行采样。我们通过使用摊销贝叶斯推理从这些棘手的后验中进行采样来解决这一限制。这种摊销是通过多样性寻求强化学习算法生成流网络 GFlowNets 微调 LLM 在算法上实现的。我们凭经验证明,LLM 微调的这种分布匹配范例可以作为最大似然训练和奖励最大化策略优化的有效替代方案。 |
| Keyword Augmented Retrieval: Novel framework for Information Retrieval integrated with speech interface Authors Anupam Purwar, Rahul Sundar 使用语言模型从结构化和非结构化数据的组合中以快速且低成本的方式检索答案,而不产生幻觉,是阻碍在知识检索自动化中使用语言模型的主要障碍。当人们想要集成语音接口时,这一点就会变得更加突出。此外,对于商业搜索和聊天机器人应用程序,完全依赖商业大型语言模型LLM(例如GPT 3.5等)的成本可能非常高。在这项工作中,作者通过首先开发一个基于关键字的搜索框架来解决这个问题,该框架增强了对大型语言模型提供的上下文的发现。关键字依次由 LLM 生成并缓存,以便与 LLM 针对所提出的查询生成的关键字进行比较。这显着减少了在文档中查找上下文的时间和成本。一旦设置了上下文,法学硕士就会根据为问答量身定制的提示来提供答案。这项研究工作表明,在上下文识别中使用关键字可以减少信息检索的整体推理时间和成本。鉴于关键字增强检索框架减少了推理时间和成本,集成了用于用户输入和响应读出的基于语音的界面。 |
| mlirSynth: Automatic, Retargetable Program Raising in Multi-Level IR using Program Synthesis Authors Alexander Brauckmann, Elizabeth Polgreen, Tobias Grosser, Michael F. P. O Boyle MLIR 是用于现代硬件的新兴编译器基础设施,但如果现有程序以较低级别的通用语言描述,则无法利用 MLIR 的高性能编译。因此,为了避免需要手动重写程序,人们努力在 MLIR 中自动将较低级别的方言提升到较高级别的方言。 |
| How to Capture Higher-order Correlations? Generalizing Matrix Softmax Attention to Kronecker Computation Authors Josh Alman, Zhao Song 在经典的 Transformer Attention 方案中,我们得到三个 n 乘以 d 大小的矩阵 Q、K、V 作为查询、键和值标记 ,目标是计算一个新的 n 乘以 d 大小的矩阵 D 1 exp QK top V,其中D mathrm diag exp QK top bf 1 n 。在这项工作中,我们研究了捕获三重相关性的注意力泛化。这种概括能够解决有关检测三重连接的问题,而这些问题对于变压器来说是不可能的。这种概括的潜在缺点是,计算似乎更加困难,因为简单的算法需要 n 的立方时间。然而,我们表明,在实践中出现的有界进入设置中,并且在理论和实践中都得到了充分研究,实际上存在一种近线性时间算法。 |
| HuBERTopic: Enhancing Semantic Representation of HuBERT through Self-supervision Utilizing Topic Model Authors Takashi Maekaku, Jiatong Shi, Xuankai Chang, Yuya Fujita, Shinji Watanabe 最近,自监督表示学习 SSRL 方法的有用性已在各种下游任务中得到证实。其中许多模型(例如 HuBERT 和 WavLM)使用从光谱特征或模型自身的表示特征生成的伪标签。从之前的研究可知,伪标签包含语义信息。然而,HuBERT 的学习标准屏蔽预测任务侧重于局部上下文信息,可能无法有效利用全局语义信息,如说话人、演讲主题等。在本文中,我们提出了一种丰富 HuBERT 语义表示的新方法。我们将主题模型应用于伪标签,为每个话语生成主题标签。 HuBERT 中添加了一个辅助主题分类任务,以主题标签为教师。这允许以无监督的方式合并附加的全局语义信息。实验结果表明,我们的方法在大多数任务中实现了与基线相当或更好的性能,包括自动语音识别和八个 SUPERB 任务中的五个。此外,我们发现主题标签包含有关话语的各种信息,例如性别、说话者及其主题。 |
| Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models Authors Junchi Yu, Ran He, Rex Ying 随着提示方法的发展,大型语言模型法学硕士在推理任务中取得了显着的成功。然而,现有的提示方法无法重用解决类似问题的见解,并且会在多步骤推理中遭受累积错误,因为它们提示法学硕士从头开始推理文本。为了解决这些问题,我们提出了textbf textit Thought Propagation TP,它探索类似的问题并利用它们的解决方案来增强法学硕士的复杂推理能力。这些类似的问题与输入问题相关,具有可重用的解决方案和问题解决策略。因此,传播解决先前类似问题的见解以激发新问题的解决是有希望的。为了实现这一目标,TP 首先提示法学硕士提出并解决一组与输入问题相关的类似问题。然后,TP重用类似问题的结果来直接产生新的解决方案,或者导出知识密集型的执行计划来修改从头开始获得的初始解决方案。 TP 与现有的提示方法兼容,允许在各种任务中进行即插即用的概括和增强,而无需在特定任务的提示工程中花费太多精力。三项具有挑战性任务的实验表明,TP 在最短路径推理中寻找最佳解决方案方面比基线有了显着的提高,平均绝对提高了 12 倍,在创意写作方面人类偏好提高了 13 倍,LLM 的任务完成率提高了 15 倍 |
| Trustworthy Formal Natural Language Specifications Authors Colin S. Gordon, Sergey Matskevich 交互式证明助手是精心构建的计算机程序,用于以高度可信的方式检查人类设计的数学主张的证明。然而,这仅验证了正式主张的真实性,该主张可能是从自然语言提出的主张中翻译错误的。当使用证明助手正式验证软件相对于自然语言规范的正确性时,这尤其成问题。 |
| Benchmarking a foundation LLM on its ability to re-label structure names in accordance with the AAPM TG-263 report Authors Jason Holmes, Lian Zhang, Yuzhen Ding, Hongying Feng, Zhengliang Liu, Tianming Liu, William W. Wong, Sujay A. Vora, Jonathan B. Ashman, Wei Liu |
| Contextualized Structural Self-supervised Learning for Ontology Matching Authors Zhu Wang 本体匹配 OM 需要识别两个或多个知识图谱 KG 中概念之间的语义关系,并且是集成各种来源的 KG 的关键步骤。深度 OM 模型的最新进展利用了基于 Transformer 的语言模型的强大功能和知识图嵌入的优势。尽管如此,这些 OM 模型仍然面临持续的挑战,例如缺乏参考对齐、运行时延迟以及端到端框架内未探索的不同图形结构。在这项研究中,我们引入了一种新颖的带有输入本体的自监督学习 OM 框架,称为 LaKERMap。该框架通过将隐性知识集成到转换器中,利用概念的上下文和结构信息。具体来说,我们的目标是通过采用不同的培训目标来捕捉涵盖本地和全球互动的多种结构背景。为了评估我们的方法,我们利用 Bio ML 数据集和任务。我们的创新方法的结果表明,LaKERMap 在对齐质量和推理时间方面超越了最先进的系统。 |
| HandMeThat: Human-Robot Communication in Physical and Social Environments Authors Yanming Wan, Jiayuan Mao, Joshua B. Tenenbaum 我们推出了 HandMeThat,这是一个对物理和社会环境中的指令理解和遵循进行整体评估的基准。以前的数据集主要侧重于语言基础和规划,而 HandMeThat 则根据物理对象状态和关系以及社会人类行为和目标信息来考虑解决具有歧义的人类指令。 HandMeThat 包含 10,000 个人类机器人交互片段。在每一集中,机器人首先观察人类朝着其内部目标行动的轨迹。接下来,机器人接收人类指令,并应采取行动来完成通过指令设定的子目标。在本文中,我们为我们的基准测试提供了一个文本界面,其中机器人通过文本命令与虚拟环境进行交互。 |
| Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis Authors Zhu Wang, Sourav Medya, Sathya N. Ravi 通常,深度网络模型在训练期间和对未见过的数据进行推理时纯粹是归纳的。因此,当此类模型用于预测时,众所周知,它们通常无法捕获总体水平上的对象或概念之间存在的语义信息和隐式依赖关系。此外,目前还不清楚如何以反向传播友好的方式指定领域或先验模态知识,特别是在大规模和嘈杂的环境中。在这项工作中,我们提出了一种包含显式知识图的端到端视觉和语言模型。我们还引入了使用隐式网络运算符的交互式分布外 OOD 层。该层用于过滤外部知识库带来的噪声。在实践中,我们将我们的模型应用于多个视觉和语言下游任务,包括不同数据集上的视觉问答、视觉推理和图像文本检索。 |
| Chinese Abs From Machine Translation |