AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.25-2024.03.31

文章目录~

[1.Gecko: Versatile Text Embeddings Distilled from Large Language Models](#1.Gecko: Versatile Text Embeddings Distilled from Large Language Models)
[2.Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference](#2.Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference)
[3.LUQ: Long-text Uncertainty Quantification for LLMs](#3.LUQ: Long-text Uncertainty Quantification for LLMs)
[4.Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want](#4.Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want)
[5.Using LLMs to Model the Beliefs and Preferences of Targeted Populations](#5.Using LLMs to Model the Beliefs and Preferences of Targeted Populations)
[6.Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science](#6.Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science)
[7.ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models](#7.ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models)
[8.The Impact of Prompts on Zero-Shot Detection of AI-Generated Text](#8.The Impact of Prompts on Zero-Shot Detection of AI-Generated Text)
[9.Large Language Model based Situational Dialogues for Second Language Learning](#9.Large Language Model based Situational Dialogues for Second Language Learning)
[10.Are LLMs Effective Backbones for Fine-tuning? An Experimental Investigation of Supervised LLMs on Chinese Short Text Matching](#10.Are LLMs Effective Backbones for Fine-tuning? An Experimental Investigation of Supervised LLMs on Chinese Short Text Matching)
[11.Towards a Robust Retrieval-Based Summarization System](#11.Towards a Robust Retrieval-Based Summarization System)
[12.Fine-Tuning Language Models with Reward Learning on Policy](#12.Fine-Tuning Language Models with Reward Learning on Policy)
[13.Compressing Large Language Models by Streamlining the Unimportant Layer](#13.Compressing Large Language Models by Streamlining the Unimportant Layer)
[14.OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition](#14.OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition)
[15.Code Comparison Tuning for Code Large Language Models](#15.Code Comparison Tuning for Code Large Language Models)
[16.MFORT-QA: Multi-hop Few-shot Open Rich Table Question Answering](#16.MFORT-QA: Multi-hop Few-shot Open Rich Table Question Answering)
[17.Learning From Correctness Without Prompting Makes LLM Efficient Reasoner](#17.Learning From Correctness Without Prompting Makes LLM Efficient Reasoner)
[18.A Survey on Large Language Models from Concept to Implementation](#18.A Survey on Large Language Models from Concept to Implementation)
[19.LC-LLM: Explainable Lane-Change Intention and Trajectory Predictions with Large Language Models](#19.LC-LLM: Explainable Lane-Change Intention and Trajectory Predictions with Large Language Models)
[20.Boosting Conversational Question Answering with Fine-Grained Retrieval-Augmentation and Self-Check](#20.Boosting Conversational Question Answering with Fine-Grained Retrieval-Augmentation and Self-Check)
[21.Exploring the Privacy Protection Capabilities of Chinese Large Language Models](#21.Exploring the Privacy Protection Capabilities of Chinese Large Language Models)
[22.Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction](#22.Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction)
[23.ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler](#23.ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler)
[24.KC-GenRe: A Knowledge-constrained Generative Re-ranking Method Based on Large Language Models for Knowledge Graph Completion](#24.KC-GenRe: A Knowledge-constrained Generative Re-ranking Method Based on Large Language Models for Knowledge Graph Completion)

1.Gecko: Versatile Text Embeddings Distilled from Large Language Models

标题:Gecko：从大型语言模型中提炼出的多功能文本嵌入技术
author:Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim
publish:18 pages
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20327v1

摘要：

我们介绍的 Gecko 是一种结构紧凑、用途广泛的文本嵌入模型。Gecko 利用一个关键理念实现了强大的检索性能：将大型语言模型（LLM）中的知识提炼到检索器中。我们的提炼过程分为两步，首先使用 LLM 生成多样化的合成配对数据。接下来，我们为每个查询检索一组候选段落，并使用相同的 LLM 对正向段落和反向段落进行重新标注，从而进一步提高数据质量。Gecko 的紧凑性证明了我们方法的有效性。在海量文本嵌入基准测试（MTEB）中，嵌入维度为 256 的 Gecko 优于嵌入维度为 768 的所有现有项目。具有 768 个嵌入维度的 Gecko 平均得分达到 66.31，与 7 倍更大的模型和 5 倍更高维度的嵌入相抗衡。

2.Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference

标题:实现更环保的 LLM：将能效提升到 LLM 推断的前沿
author:Jovan Stojkovic, Esha Choukse, Chaojie Zhang, Inigo Goiri, Josep Torrellas
publish:6 pages, 15 figures
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20306v1

摘要：

随着现代大型语言模型（LLM）在各行各业的广泛应用，为这些模型提供推理服务的范围也在不断扩大。鉴于现代 LLM 对计算和内存的高要求，越来越多的顶级 GPU 被部署到这些模型中。能源可用性已成为数据中心扩展以服务这些模型的最大挑战。在本文中，我们介绍了在性能 SLO 下将能效作为 LLM 服务的首要目标所带来的权衡。我们表明，根据输入、模型和服务级别协议，LLM 推理提供商可以使用多个旋钮来提高能效。我们描述了这些旋钮对延迟、吞吐量和能耗的影响。通过探索这些权衡，我们为在不影响性能的情况下优化能源使用提供了宝贵的见解，从而为在数据中心环境中部署可持续且经济高效的 LLM 铺平了道路。

3.LUQ: Long-text Uncertainty Quantification for LLMs

标题:LUQ： LLM 的长文本不确定性量化
author:Caiqi Zhang, Fangyu Liu, Marco Basaldella, Nigel Collier
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20279v1

摘要：

大型语言模型（LLM）在各种 NLP 任务中表现出了卓越的能力。尽管效果显著，但这些模型容易生成非事实内容。不确定性量化（UQ）在增强我们对模型所生成内容的信心方面起着关键作用，从而有助于减少非事实输出。现有的不确定性量化研究主要针对简短文本生成，通常会生成简短、字数有限的回复。然而，现实世界中的应用往往需要更长的回复。我们的研究首先强调了当前 UQ 方法在处理长文本生成方面的局限性。然后，我们引入了 \textsc{Luq}，这是一种专门针对长文本设计的基于采样的新型统一问答方法。我们的研究结果表明，\textsc{Luq} 在与模型事实性得分的相关性方面优于现有的基线方法（在 Gemini Pro 中观察到的负系数为-0.85）。以 \textsc{Luq} 作为 UQ 的工具，我们研究了几种流行的 LLM 的响应信心谱行为模式，以及这种模式如何与响应的事实性相互影响。我们发现，LLM 在为罕见事实生成长文本时缺乏信心，而事实性较强的模型（即 GPT-4）往往会拒绝其不确定的问题。为了进一步提高 LLM 回答的事实准确性，我们提出了一种称为 \textsc{Luq-Ensemble} 的方法，该方法将多个模型的回答进行集合，并选择不确定性最小的回答。与最好的独立 LLM 相比，集合方法大大提高了响应的事实性。

4.Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want

标题:边画边理解：利用视觉提示让多媒体语言学习者理解您的要求
author:Weifeng Lin, Xinyu Wei, Ruichuan An, Peng Gao, Bocheng Zou, Yulin Luo, Siyuan Huang, Shanghang Zhang, Hongsheng Li
publish:16 pages, 7 figures
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20271v1

摘要：

人类与人工智能（AI）之间的互动是反映多模态大型语言模型（MLLM）有效性的关键因素。然而，目前的多模态大语言模型主要侧重于图像层面的理解，并将互动局限于文本指令，从而限制了其使用的灵活性和响应的深度。在本文中，我们将介绍 "画图-理解 "项目：一个新模型、一个多领域数据集和一个具有挑战性的视觉提示基准。具体来说，我们提出了 SPHINX-V，这是一种全新的端到端训练型多模态大语言模型（MLLM），它将视觉编码器、视觉提示编码器和 LLM 连接起来，用于各种视觉提示（点、边界框和自由形状）和语言理解。为了推进 MLLM 的视觉提示研究，我们推出了 MDVP-Data 和 MDVP-Bench。MDVP-Data 是一个多域数据集，包含 160 万个独特的图像-视觉提示-文本指令-跟读样本，其中包括自然图像、文档图像、OCR 图像、手机屏幕截图、网页屏幕截图和多面板图像。此外，我们还介绍了 MDVP-Bench，这是一个全面而具有挑战性的基准，用于评估模型理解视觉提示指令的能力。我们的实验证明，SPHINX-V 通过视觉提示实现了令人印象深刻的多模态交互能力，在详细的像素级描述和问题解答能力方面都有显著提高。

5.Using LLMs to Model the Beliefs and Preferences of Targeted Populations

标题:使用 LLM 模拟目标人群的信念和偏好
author:Keiichi Namikoshi, Alex Filipowicz, David A. Shamma, Rumen Iliev, Candice L. Hogan, Nikos Arechiga
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20252v1

摘要：

我们考虑的问题是如何对大型语言模型（LLM）进行调整，以模拟人类群体的偏好。对特定人群的信仰、偏好和行为进行建模可用于各种不同的应用，例如为新产品模拟焦点小组、进行虚拟调查和测试行为干预，特别是对于昂贵、不切实际或不道德的干预。现有工作在使用 LLM 对不同环境下的人类行为进行精确建模方面取得了不同程度的成功。我们对两种众所周知的微调方法进行了基准测试和评估，并对由此产生的人群与真实人类受访者在电池电动汽车（BEV）偏好调查中的偏好相匹配的能力进行了评估。我们对模型匹配总体统计数据的能力以及匹配个体响应的能力进行了评估，并研究了温度在控制这两者之间权衡的作用。此外，我们还提出并评估了一种新的损失项，以提高模型在需要数字响应的响应方面的性能。

6.Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science

标题:释放大型语言模型的潜力，完成数据科学中的表格式预测任务
author:Yazheng Yang, Yuqi Wang, Sankalok Sen, Lei Li, Qi Liu
publish:10 pages
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20208v1

摘要：

在数据科学领域，分类、回归和缺失值估算等预测任务是与表格数据相关的常见挑战。本研究致力于应用大型语言模型（LLM）来解决这些预测任务。尽管 LLMs 能够熟练地理解自然语言，但在处理结构化表格数据方面却存在不足。这种局限性源于 LLM 在基础训练中缺乏对表格数据复杂性的接触。我们的研究旨在通过编译注释了说明的表格综合语料库，并在这个丰富的数据集上对 Llama-2 进行大规模训练，来缩小这一差距。此外，我们还研究了将训练好的模型应用于零次预测、少量预测和上下文学习场景的实际应用。通过大量实验，我们的方法比现有基准有了显著改进。这些进步凸显了定制 LLM 训练以解决数据科学中表格相关问题的功效，从而为利用 LLM 增强表格智能建立了新的基准。

7.ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models

标题:ChatGPT 与媒体偏见：GPT-3.5 与微调语言模型的比较研究
author:Zehao Wen, Rabih Younes
publish:9 pages, 1 figure, published on Applied and Computational Engineering
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20158v1

摘要：

在我们快速发展的数字领域，辨别媒体偏见的能力变得至关重要，因为它可以左右公众情绪，影响关键决策。大型语言模型（LLM）（如 ChatGPT）因其在各种自然语言处理（NLP）任务中的广泛用途而备受关注，它的出现促使人们探索其在媒体偏见检测中的功效。ChatGPT 能否检测媒体偏见？本研究试图通过利用媒体偏见识别基准（MBIB）来评估 ChatGPT 在区分六类媒体偏见方面的能力，并将其与 BART、ConvBERT 和 GPT-2 等微调模型进行对比，从而回答这个问题。研究结果呈现出二分法：ChatGPT 在检测仇恨言论和文本上下文偏见方面的表现与微调模型不相上下，但在检测其他偏见（即假新闻、种族、性别和认知偏见）的更微妙因素方面却面临困难。

8.The Impact of Prompts on Zero-Shot Detection of AI-Generated Text

标题:提示对人工智能生成文本零点检测的影响
author:Kaito Taguchi, Yujie Gu, Kouichi Sakurai
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20127v1

摘要：

近年来，大型语言模型（LLM）的开发取得了重大进展。虽然 LLM 的实际应用现已十分广泛，但其潜在的滥用问题，如生成假新闻和剽窃等，也引起了人们的极大关注。为了解决这个问题，人们开发了检测器来评估给定文本是人类生成的还是人工智能生成的。其中，零镜头检测器是一种有效的方法，它不需要额外的训练数据，通常基于似然法。在基于聊天的应用中，用户通常会输入提示并使用人工智能生成的文本。然而，零镜头检测器通常是孤立地分析这些文本，忽略了原始提示的影响。可以想象，这种方法可能会导致文本生成阶段和检测阶段的可能性评估出现差异。迄今为止，关于提示的存在与否如何影响零镜头检测器的检测准确性，仍是一个未经验证的空白。在本文中，我们引入了一个评估框架，以实证分析提示对人工智能生成文本检测准确性的影响。我们使用白盒检测（利用提示信息）和黑盒检测（在没有提示信息的情况下运行）对各种零点检测器进行了评估。我们的实验揭示了提示对检测准确性的重要影响。值得注意的是，与不使用提示信息的黑盒检测相比，使用提示信息的白盒检测方法在所有测试的零镜头检测器中的 AUC 至少提高了 0.1 美元。代码可用：\url{https://github.com/kaito25atugich/Detector}.

9.Large Language Model based Situational Dialogues for Second Language Learning

标题:基于大语言模型的第二语言学习情景对话
author:Shuyao Xu, Long Qin, Tianyang Chen, Zhenzhou Zha, Bingxue Qiu, Weizhi Wang
publish:14 pages, 6 figures
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20005v1

摘要：

在第二语言学习中，情景会话练习对语言学习者达到流利口语非常重要，但学生往往缺乏足够的机会与合格的教师或母语人士练习会话技能。为了弥补这一差距，我们提出了情景对话模式，供学生进行会话练习。我们的情景对话模型是在大型语言模型（LLM）上进行微调的，目的是将开放式对话的参与性与基于情景任务的集中练习相结合。利用大型语言模型的泛化能力，我们证明了我们的情景对话模型不仅在训练主题上，而且在训练期间未遇到的主题上都能有效地发挥作用。这为我们提供了一个前景广阔的解决方案，无需大量人工操作即可支持广泛的对话主题。此外，对话系统领域的研究仍然缺乏可靠的自动评估指标，因此只能将人工评估作为黄金标准（Smith 等人，2022 年），而人工评估通常成本高昂。为了解决现有评估方法的局限性，我们提出了一种新颖的自动评估方法，该方法采用微调的 LLM 来高效、有效地评估情景对话模型的性能。

10.Are LLMs Effective Backbones for Fine-tuning? An Experimental Investigation of Supervised LLMs on Chinese Short Text Matching

标题:LLM 是微调的有效基石吗？中文短文匹配中监督式 LLM 的实验研究
author:Shulin Liu, Chengcheng Xu, Hao Liu, Tinghao Yu, Tao Yang
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.19930v1

摘要：

大型语言模型（LLM）最近取得的成功引起了学术界和工业界的极大关注。之前对 LLM 的研究主要集中在增强或利用其在零点和少数几个点设置中的泛化能力。然而，在有监督的环境下，针对特定自然语言理解任务有效微调 LLM 的研究还很有限。在本研究中，我们针对中文短文匹配任务对 LLM 进行了微调，并进行了实验分析。我们探讨了微调 LLM 时影响性能的各种因素，包括任务建模方法、提示格式和输出格式。

11.Towards a Robust Retrieval-Based Summarization System

标题:开发基于检索的强大摘要系统
author:Shengjie Liu, Jing Wu, Jingyuan Bao, Wenyi Wang, Naira Hovakimyan, Christopher G Healey
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.19889v1

摘要：

本文介绍了对大型语言模型（LLM）在基于检索增强生成（RAG）的摘要任务中的稳健性的研究。虽然 LLM 具备摘要功能，但它们在复杂的真实世界场景中的性能仍未得到充分探索。我们的第一个贡献是 LogicSumm，它是一个创新的评估框架，结合现实场景评估 LLM 在基于 RAG 的摘要过程中的鲁棒性。基于 LogiSumm 发现的局限性，我们开发了 SummRAG，这是一个综合系统，用于创建训练对话和微调模型，以增强 LogicSumm 场景中的鲁棒性。SummRAG 体现了我们的目标，即定义结构化方法来测试 LLM 的能力，而不是一次性解决问题。实验结果证实了 SummRAG 的强大功能，展示了逻辑一致性和总结质量的提高。数据、相应的模型权重和 Python 代码可在线获取。

12.Fine-Tuning Language Models with Reward Learning on Policy

标题:通过政策奖励学习微调语言模型
author:Hao Lang, Fei Huang, Yongbin Li
publish:NAACL2024 Main Track Long Paper
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19279v1

摘要：

来自人类反馈的强化学习（RLHF）已成为使大型语言模型（LLM）与人类偏好相一致的有效方法。RLHF 包含三个步骤，即人类偏好收集、奖励学习和策略优化，这三个步骤通常是连续进行的。然而，尽管（固定）奖励模型很受欢迎，但由于政策优化会不断改变 LLMs 的数据分布，因此可能会出现不准确的偏离分布的情况。从最新的 LLMs 中重复收集新的偏好数据可能会缓解这一问题，但不幸的是，这会使由此产生的系统变得更加复杂和难以优化。在本文中，我们提出了策略奖励学习（RLP），这是一种无监督框架，它利用策略样本完善奖励模型，使其保持在分布上。具体来说，我们引入了一种无监督多视角学习方法来学习政策样本的稳健表征。同时，还开发了一种合成偏好生成方法，利用政策输出模拟高质量的偏好数据。在三个基准数据集上进行的广泛实验表明，RLP 的性能始终优于最先进的技术。我们的代码可在（url{https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp}.

13.Compressing Large Language Models by Streamlining the Unimportant Layer

标题:通过精简不重要层压缩大型语言模型
author:Xiaodong Chen, Yuxuan Hu, Jing Zhang
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19135v1

摘要：

大型语言模型（LLM）已被广泛应用于各种自然语言任务和领域，但其适用性受到模型参数数量庞大的限制。因此，表现出高性能的紧凑型模型越来越受到重视。在本研究中，我们观察到 LLM 中的不同层对隐藏状态有不同程度的扰动，这使我们能够识别出不那么重要的层。基于这一现象，我们提出了 LLM-Streamline，它由两部分组成：一是层修剪，即根据目标稀疏度删除模型中重要性最低的一组连续层；二是层替换，即训练一个轻量级模型来替换被修剪的层，从而减轻修剪造成的性能下降。在实验中，我们利用多层感知器（MLP）和变压器层等结构作为轻量级模型，并最终证明单个 MLP 可以有效地适应剪枝层。综合实验表明，我们提出的 LLM-Streamline 方法优于以往最先进的（SOTA）模型剪枝方法。

14.OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition

标题:OmniParser：文本查找、关键信息提取和表格识别的统一框架
author:Jianqiang Wan, Sibo Song, Wenwen Yu, Yuliang Liu, Wenqing Cheng, Fei Huang, Xiang Bai, Cong Yao, Zhibo Yang
publish:CVPR 2024
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19128v1

摘要：

最近，由于对自动文档理解的需求日益增长，以及能够处理基于文档的问题的生成式大语言模型（LLM）的出现，视觉定位文本解析（VsTP）取得了显著进展。人们提出了各种方法来解决 VsTP 这一具有挑战性的问题。然而，由于目标的多样化和模式的异构性，以往的工作通常针对单个任务设计特定的架构和目标，这无意中导致了模式隔离和复杂的工作流程。在本文中，我们提出了一种统一范式，用于在不同场景中解析视觉定位文本。具体来说，我们设计了一种名为 OmniParser 的通用模型，它可以同时处理三种典型的视觉文本解析任务：文本定位、关键信息提取和表格识别。在 OmniParser 中，所有任务共享统一的编码器-解码器架构、统一的目标：点条件文本生成，以及统一的输入和输出表示：提示和结构化序列。广泛的实验证明，尽管 OmniParser 采用了统一、简洁的设计，但它在 7 个数据集上的三个视觉定位文本解析任务中取得了最先进（SOTA）或极具竞争力的性能。代码见 https://github.com/AlibabaResearch/AdvancedLiterateMachinery。

15.Code Comparison Tuning for Code Large Language Models

标题:代码大语言模型的代码比较调整
author:Yufan Jiang, Qiaozhi He, Xiaomin Zhuang, Zhihua Wu
publish:Preprint
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19121v1

摘要：

我们提出了代码比较调整（CCT），这是一种简单有效的代码大型语言模型（Code LLM）调整方法，可以更好地处理细微的代码错误。具体来说，我们将比较的概念整合到指令调整中，在标记和序列两个层面上，使模型能够辨别代码中最细微的偏差。为了将原始代码与包含人工添加代码错误的错误版本进行比较，我们使用标记级偏好损失进行详细的标记级比较。此外，我们还结合代码段创建了新的指令调整样本，用于序列级比较，从而增强了模型的错误修复能力。在 HumanEvalFix 基准上的实验结果表明，在不同的代码 LLM 中，CCT 的 pass@1 分数比指令调整高出多达 4 分，大量的分析也证明了我们方法的有效性。

16.MFORT-QA: Multi-hop Few-shot Open Rich Table Question Answering

标题:MFORT-QA：多跳几枪开放式富表问题解答
author:Che Guan, Mengyu Huang, Peng Zhang
publish:8 pages
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19116v1

摘要：

在当今快节奏的行业中，专业人员每天都面临着总结大量文件并从中提取重要信息的挑战。这些指标经常隐藏在表格和/或其嵌套超链接中。为了应对这一挑战，人们开发了表格问题解答 (QA) 方法来提取相关信息。然而，传统的表格问答训练任务提供了一个表格，并从问题的黄金单元坐标中提供了一个（多个）答案，但这并不总能确保提取出准确的答案。大型语言模型（LLM）的最新进展为使用提示从表格数据中提取信息提供了新的可能性。在本文中，我们将介绍由两个主要步骤组成的多跳几枪开放式富表 QA（MFORT-QA）方法。第一步是快速学习（FSL），根据给定的问题检索相关表格和相关的超链接上下文。然后，检索到的内容将被用于构建少量提示，作为 ChatGPT 等 LLM 的输入。为了应对回答复杂问题的挑战，第二步利用思维链（CoT）提示，以多跳方式将复杂问题分解为问题和推理思维的连续链。检索增强生成（RAG）通过检索与由此产生的推理思路和问题相关的表格和超链接上下文来增强这一过程。然后，这些额外的上下文被用来补充第一步中使用的提示，从而使 LLM 提供更准确的答案。OTT-QA 的经验结果表明，我们的抽象性质量保证方法显著提高了抽取式表格质量保证方法的准确性。

17.Learning From Correctness Without Prompting Makes LLM Efficient Reasoner

标题:从正确性中学习，无需提示，使 LLM 成为高效推理器
author:Yuxuan Yao, Han Wu, Zhijiang Guo, Biyan Zhou, Jiahui Gao, Sichun Luo, Hanxu Hou, Xiaojin Fu, Linqi Song
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19094v1

摘要：

大型语言模型（LLMs）在各种任务中都表现出了出色的性能，但它们仍然存在一些局限性，如幻觉、不忠实推理和有毒内容等。缓解这些问题的一种潜在方法是从人类或外部反馈（如工具）中学习。在本文中，我们介绍了一种用于 LLM 的内在自我修正推理框架，它无需人工反馈、外部工具和手工提示。本文提出的框架基于从正确性（textsc{LeCo}）中学习的多步骤推理范式（textbf{Le}arning from \textbf{Co}rrectness），无需从错误中学习即可提高推理性能。这种范式优先考虑从正确的推理步骤中学习，并采用一种独特的方法来衡量基于生成对数的每个推理步骤的置信度。各种多步骤推理任务的实验结果表明，该框架能有效提高推理性能，同时减少令牌消耗。

18.A Survey on Large Language Models from Concept to Implementation

标题:从概念到实施的大型语言模型调查
author:Chen Wang, Jin Zhao, Jiaqi Gong
publish:Preprint in ArXiv template, total 24 pages, 5 figures, 5 tables
date Time:2024-03-27

paper pdf:http://arxiv.org/pdf/2403.18969v1

摘要：

大型语言模型（LLM）的最新进展，尤其是基于变压器架构的大型语言模型，大大拓宽了自然语言处理（NLP）的应用范围，超越了其最初在聊天机器人技术中的应用。本文以 GPT 系列为重点，研究了这些模型的多方面应用。探索的重点是人工智能（AI）驱动的工具对编码和解决问题等传统任务的变革性影响，同时也为各行各业的研究和开发铺平了新的道路。从代码解释和图像字幕到促进交互系统的构建和推动计算领域的发展，Transformer 模型体现了深度学习、数据分析和神经网络设计的协同作用。本调查报告深入探讨了 Transformer 模型的最新研究成果，强调了它们的多功能性及其在改变不同应用领域方面的潜力，从而让读者全面了解基于 Transformer 的 LLM 在实际应用中的现状和未来前景。

19.LC-LLM: Explainable Lane-Change Intention and Trajectory Predictions with Large Language Models

标题:LC-LLM：利用大型语言模型进行可解释的变道意图和轨迹预测
author:Mingxing Peng, Xusen Guo, Xianda Chen, Meixin Zhu, Kehua Chen, Hao, Yang, Xuesong Wang, Yinhai Wang
date Time:2024-03-27

paper pdf:http://arxiv.org/pdf/2403.18344v1

摘要：

为确保在动态环境中安全驾驶，自动驾驶汽车应具备提前准确预测周围车辆变道意图并预测其未来轨迹的能力。现有的运动预测方法还有很大的改进空间，尤其是在长期预测准确性和可解释性方面。在本文中，我们利用大语言模型（LLM）的强大推理能力和自我解释能力，提出了一种可解释的变道预测模型 LC-LLM，以应对这些挑战。从本质上讲，我们将变道预测任务重新表述为一个语言建模问题，处理自然语言中的异构驾驶场景信息，将其作为输入 LLM 的提示，并采用监督微调技术，专门针对我们的变道预测任务定制 LLM。这使我们能够利用 LLM 强大的常识推理能力来理解复杂的交互信息，从而提高长期预测的准确性。此外，我们还在推理阶段的提示中加入了解释性要求。因此，我们的 LC-LLM 模型不仅能预测变道意图和轨迹，还能为其预测提供解释，从而增强了可解释性。在大规模 highD 数据集上进行的广泛实验证明了我们的 LC-LLM 在变道预测任务中的卓越性能和可解释性。据我们所知，这是利用 LLM 预测变道行为的首次尝试。我们的研究表明，LLM 可以为驾驶行为理解编码全面的交互信息。

20.Boosting Conversational Question Answering with Fine-Grained Retrieval-Augmentation and Self-Check

标题:通过细粒度检索-增强和自我检查提升对话式问题解答能力
author:Linhao Ye, Zhikai Lei, Jianghao Yin, Qin Chen, Jie Zhou, Liang He
date Time:2024-03-27

paper pdf:http://arxiv.org/pdf/2403.18243v1

摘要：

检索增强生成（RAG）旨在通过外部大量动态知识来增强大型语言模型（LLM），从而生成更可靠、更准确的回答。以往的工作大多集中在将 RAG 用于单轮问题解答，而如何将 RAG 适应复杂的对话环境（问题与之前的上下文相互依赖）则没有得到很好的研究。在本文中，我们提出了一种会话级 RAG 方法，该方法结合了细粒度检索增强和会话问题解答（CQA）的自我检查。具体来说，我们的方法由三个部分组成，即会话问题提炼器、细粒度检索器和基于自我检查的应答生成器，它们协同工作，在会话环境中理解问题并获取相关信息。广泛的实验证明，我们的方法比最先进的基线方法更具优势。此外，我们还发布了一个中文 CQA 数据集，该数据集具有重构问题、提取关键词、检索段落及其有用性等新特征，有助于 RAG 增强型 CQA 的进一步研究。

21.Exploring the Privacy Protection Capabilities of Chinese Large Language Models

标题:探索中文大语言模型的隐私保护能力
author:Yuqi Yang, Xiaowen Huang, Jitao Sang
publish:11 pages
date Time:2024-03-27

paper pdf:http://arxiv.org/pdf/2403.18205v1

摘要：

大型语言模型（LLM）因其在各种任务中令人印象深刻的能力而闻名，大大推动了人工智能的发展。然而，这些进步也引起了人们对隐私和安全问题的日益关注。为了解决这些问题并解释这些模型中固有的风险，我们设计了一个三层渐进式框架，专门用于评估语言系统中的隐私。该框架的每一层都包含逐步复杂和深入的隐私测试任务。我们的主要目标是全面评估大型语言模型对隐私信息的敏感性，检查它们在不同场景中如何有效地辨别、管理和保护敏感数据。这种系统性的评估有助于我们了解这些模型在多大程度上符合隐私保护准则，以及它们防止隐私泄露的内在保障措施的有效性。我们的观察表明，现有的中文大语言模型普遍存在隐私保护方面的缺陷。目前看来，这个普遍存在的问题是不可避免的，并可能在基于这些模型的应用中造成相应的隐私风险。

22.Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction

标题:大型语言模型是最先进的语法纠错评估工具
author:Masamune Kobayashi, Masato Mita, Mamoru Komachi
date Time:2024-03-26

paper pdf:http://arxiv.org/pdf/2403.17540v1

摘要：

据报道，大语言模型（LLM）在某些任务（如文本摘要和机器翻译）中的表现优于现有的自动评估指标。然而，在语法纠错（GEC）中，对 LLM 作为评价器的研究还很缺乏。在本研究中，我们通过使用受前人研究启发而设计的包含各种评价标准的提示语，研究了 LLM 在 GEC 评价中的表现。我们的大量实验结果表明，GPT-4 与人类判断的 Kendall 等级相关性达到了 0.662，超过了所有现有方法。此外，在最近的 GEC 评估中，我们强调了 LLMs 量表的重要性，并特别强调了评估标准中流畅性的重要性。

23.ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler

标题:ILLUMINER：指令调整的大型语言模型，作为少数几个意图分类器和插槽填充器
author:Paramita Mirza, Viju Sudhi, Soumya Ranjan Sahoo, Sinchana Ramakanth Bhat
publish:Accepted at LREC-COLING 2024
date Time:2024-03-26

paper pdf:http://arxiv.org/pdf/2403.17536v1

摘要：

最先进的意图分类（IC）和插槽填充（SF）方法通常依赖于数据密集型深度学习模型，这限制了它们在行业应用中的实用性。另一方面，大型语言模型，尤其是指令调整模型（Instruct-LLMs），在各种自然语言任务中表现出显著的零误差性能。本研究在 IC 和 SF 的流行基准数据集上对 Instruct-LLM 进行了评估，强调了它们从较少示例中学习的能力。我们介绍了 ILLUMINER，这是一种将 IC 和 SF 作为 Instruct-LLMs 语言生成任务的方法，与之前的研究相比，它采用了一种更有效的 SF 提示方法。通过与多个基线进行综合比较，我们使用 FLAN-T5 11B 模型的方法优于最先进的 IC+SF 联合方法和使用 GPT3.5 (175B) 的上下文学习方法，特别是在插槽填充方面提高了 11.1-32.2 个百分点。此外，我们的深入消融研究表明，参数高效微调只需不到 6% 的训练数据，就能获得与传统全重微调相当的性能。

24.KC-GenRe: A Knowledge-constrained Generative Re-ranking Method Based on Large Language Models for Knowledge Graph Completion

标题:KC-GenRe：基于大型语言模型的知识约束生成式重新排序方法，用于知识图谱补全
author:Yilin Wang, Minghao Hu, Zhen Huang, Dongsheng Li, Dong Yang, Xicheng Lu
publish:This paper has been accepted for publication in the proceedings of

LREC-COLING 2024
date Time:2024-03-26

paper pdf:http://arxiv.org/pdf/2403.17532v1

摘要：

知识图谱补全（KGC）的目标是预测实体间缺失的事实。以往的知识图谱重新排序方法大多建立在非生成语言模型上，以获得每个候选者的概率。最近，生成式大语言模型（LLM）在信息提取和对话系统等多项任务中表现出了卓越的性能。利用这些模型对 KGC 进行重新排序，有利于充分利用广泛的预训练知识和强大的生成能力。但是，在完成任务时可能会遇到新的问题，即不匹配、错误排序和遗漏。为此，我们引入了 KC-GenRe，这是一种基于 LLM 的知识约束生成重新排序方法，适用于 KGC。为了克服错配问题，我们将 KGC 重新排序任务表述为由生成式 LLMs 实现的候选标识符排序生成问题。为解决排序错误问题，我们开发了一种知识指导下的交互式训练方法，以提高候选者的识别和排序能力。为解决遗漏问题，我们设计了一种知识增强的约束推理方法，该方法可实现上下文提示和受控生成，从而获得有效的排序。实验结果表明，KG-GenRe 在四个数据集上取得了最先进的性能，与以前的方法相比，MRR 和 Hits@1 指标分别提高了 6.7% 和 7.7%，与不重新排序的方法相比，分别提高了 9.0% 和 11.1%。广泛的分析证明了 KG-GenRe 中各组件的有效性。