计算机人工智能前沿进展-大语言模型方向-2024-09-16

1. Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks

B Peng, K Chen, M Li, P Feng, Z Bi, J Liu, Q Niu - arXiv preprint arXiv:2409.08087, 2024

保护大型语言模型：解决偏见、错误信息和提示攻击

摘要

本文回顾了近期文献中关于大型语言模型（LLMs）安全性的关键问题，重点关注准确性、偏见、内容检测和对攻击的脆弱性。讨论了LLMs生成错误或误导性输出的问题，强调了实施事实核查方法以增强响应的可靠性。通过多种评估技术，包括控制输入研究和红队演习，批判性地检查了LLMs固有的偏见。提出了包括从预处理干预到训练中调整和后处理改进的偏见缓解策略。文章还探讨了区分LLM生成内容和人类产生文本的复杂性，介绍了DetectGPT和水印技术的检测机制，同时指出了在复杂情况下机器学习分类器的局限性。此外，通过研究不同的案例研究和大规模竞赛如HackAPrompt，分析了LLM的脆弱性，包括越狱攻击和提示注入漏洞。本文最后回顾了保护LLMs的防御机制，强调了对LLM安全领域进行更广泛研究的必要性。

创新点

多角度安全性评估： 文章从多个角度对LLMs的安全性进行了全面的评估，包括偏见、错误信息和攻击脆弱性。
偏见缓解策略： 提出了一系列的偏见缓解策略，覆盖了从数据预处理到模型训练和后处理的整个流程。
内容生成检测： 探讨了区分人类和机器生成内容的新方法，包括DetectGPT和水印技术。
攻击脆弱性分析： 对LLMs的越狱攻击和提示注入漏洞进行了深入分析，并通过案例研究和竞赛数据支持分析。

算法模型

DetectGPT： 利用生成文本的概率空间中的负曲率来提供零次检测机制。
水印技术： 通过在LLMs的输出中嵌入可检测的信号，使得追踪或识别机器生成内容成为可能。

实验效果

文章通过多个案例研究和大规模竞赛（如HackAPrompt）来分析LLMs的安全性问题，但具体数据和结论未在摘要中详细说明。
提出了多种缓解策略，并通过实验验证了其有效性，但具体的效果数据同样未在摘要中给出。

推荐阅读指数：★★★★☆

推荐理由：

全面性： 文章全面地覆盖了LLMs在安全性方面的多个关键问题，为理解和改进LLMs的安全性提供了宝贵的视角。
实用性： 提出的偏见缓解策略和内容检测技术具有实际应用价值，对于开发更安全的LLMs具有指导意义。
前瞻性： 对未来LLMs安全性研究的方向提供了见解，对于该领域的研究者和实践者都是一份有益的参考资料。

扣分理由：

摘要中未提供具体的实验数据和效果评估，可能需要阅读全文才能获得更详细的信息。

2. Fine-tuning Large Language Models for Entity Matching

A Steiner, R Peeters, C Bizer - arXiv preprint arXiv:2409.08185, 2024

为实体匹配微调大型语言模型

摘要

本文探讨了将大型语言模型（LLMs）用于实体匹配的潜力，这是数据集成流程中的核心步骤。与以往侧重于提示工程和上下文学习的研究不同，本文深入研究了微调LLMs对实体匹配的影响。研究围绕两个维度进行：1）训练示例的表示，通过添加不同类型的LLM生成的解释来扩充训练集；2）使用LLMs选择和生成训练示例。除了在源数据集上的匹配性能外，还研究了微调如何影响模型泛化到其他领域内数据集以及跨主题领域数据集的能力。实验表明，微调显著提高了较小模型的性能，而较大模型的结果则参差不齐。微调还改善了对领域内数据集的泛化能力，但损害了跨领域迁移的性能。研究表明，向训练集添加结构化解释对四个LLMs中的三个的性能有积极影响，而提出的例子选择和生成方法只提高了Llama 3.1 8B的性能，同时降低了GPT-4o Mini的性能。

创新点

微调表示法的探索： 研究了通过向训练集添加不同类型由LLM生成的解释来扩充训练集的方法。
训练示例的选择与生成： 引入了使用LLMs过滤训练集中的误导性示例以及生成额外训练示例的方法。
泛化能力的评估： 除了在源数据集上的性能外，还评估了微调对模型泛化到其他领域内数据集及跨主题领域数据集的影响。

算法模型

标准微调： 使用传统的微调技术对不同大小的开源和专有LLMs进行微调。
示例表示： 探索了通过添加文本和结构化解释来增强训练示例的方法。
示例选择和生成： 尝试使用LLMs过滤训练集中的示例，并生成新的训练示例。

实验效果

性能提升： 对于较小的模型，微调显著提高了性能；对于较大的模型，结果则参差不齐。
泛化能力： 微调提高了对领域内数据集的泛化能力，但在大多数情况下，跨领域迁移的性能低于零样本基线。
结构化解释： 向训练集添加结构化解释对三个模型中的两个有积极影响。
示例选择和生成： 这些技术提高了Llama 3.1 8B的性能，但降低了GPT-4o Mini的性能。

推荐阅读指数：★★★★☆

推荐理由：

实用性： 研究提供了对实体匹配任务中微调LLMs的深入分析，对实际应用具有指导意义。
创新性： 通过探索不同的训练示例表示和选择生成方法，为提升LLMs在实体匹配任务中的性能提供了新的思路。
广泛影响： 研究结果对理解微调如何影响LLMs的泛化能力具有重要意义，对其他NLP任务也可能有启发作用。

扣分理由：

文章可能需要更深入地探讨跨领域泛化性能下降的原因，并提出相应的改进策略。

3. Prediction of tumor board procedural recommendations using large language models

M Aubreville, J Ganz, J Ammeling, E Rosbach... - European Archives of Oto ..., 2024

使用大型语言模型预测肿瘤委员会程序性建议

摘要

本文探讨了使用大型语言模型（LLMs）来预测头颈部肿瘤委员会的程序性建议。研究通过参数高效微调或上下文学习对模型进行适配，以提高预测的质量和准确性。研究数据集包括229条记录用于训练，100条记录用于验证方法。通过随机化、盲法的人工专家分类来评估不同模型的表现。

创新点

参数高效微调： 采用参数高效微调方法，以减少过拟合的风险并提高模型对未见数据的泛化能力。
上下文学习： 利用上下文学习（ICL）来引导模型在特定任务上的表现，而无需改变模型的参数。
实际医疗应用： 将大型语言模型应用于实际的医疗决策过程，特别是在肿瘤治疗计划的制定中。

算法模型

参数高效微调（PEFT）： 使用低秩适应（LoRA）技术，通过引入较小的矩阵来调整模型参数，从而减少可训练参数的数量，降低过拟合风险。
上下文学习（ICL）： 通过提供特定格式的示例和系统提示，引导模型生成符合预期格式和内容的响应。

实验效果

治疗线一致性： 不同模型的一致性最高达到86%，医学上合理的建议高达98%。
模型性能： 参数高效微调比上下文学习表现更好，大型/商业模型倾向于表现更佳。

结论

通过大型语言模型为复杂的肿瘤患者提供精确、医学上合理的程序性建议是可行的。扩展数据集到更大的患者群体，并结合最新的医疗指南，有望提高模型的准确性和与指南的一致性，从而提高模型性能。

推荐阅读指数：★★★★☆

推荐理由：

实际应用价值： 研究将大型语言模型应用于医疗决策支持，这是一个具有高度实际应用价值的领域。
技术创新： 通过参数高效微调和上下文学习，提高了模型在特定任务上的表现，同时减少了过拟合的风险。
跨学科研究： 结合了计算机科学和医学领域，展示了大型语言模型在跨学科研究中的潜力。

扣分理由：

文章可能需要进一步探讨如何确保模型在更广泛的医疗场景中的适用性和准确性，以及如何处理潜在的伦理和隐私问题。

4. Objection Overruled! Lay People can Distinguish Large Language Models from Lawyers, but still Favour Advice from an LLM

E Schneiders, T Seabrooke, J Krook, R Hyde... - arXiv preprint arXiv ..., 2024

异议被驳回！普通人能够区分大型语言模型和律师，但仍偏好来自LLM的建议

摘要

本文介绍了三个实验（总样本数N=288），旨在研究普通人在法律建议方面对大型语言模型（LLM）和律师生成内容的接受度及其辨别能力。实验1和实验2发现，当建议来源未知时，参与者更愿意根据LLM生成的建议采取行动。实验3则显示，尽管参与者更倾向于遵循LLM的建议，但他们仍能在一定程度上区分LLM和律师生成的文本。

创新点

法律建议的来源识别： 研究了普通人在不知情的情况下，如何识别法律建议是由LLM还是律师生成的。
建议采纳意愿： 探讨了在不同条件下（知道或不知道建议来源），普通人对LLM和律师生成的法律建议的采纳意愿。
实际应用探索： 通过对比LLM和专业律师提供的法律建议，研究了LLM在高风险领域（如法律）的应用潜力和局限。

算法模型

LLM生成建议： 使用ChatGPT-4o等大型语言模型根据给定的法律问题提示生成建议。
律师生成建议： 由专业律师根据相同的法律问题提示手工编写建议。

实验效果

实验1和2： 当建议来源未知时，参与者更倾向于根据LLM生成的建议采取行动（显著性差异）。
实验3： 参与者在不知情的情况下，能够显著高于偶然水平区分LLM和律师生成的法律建议（AUC=0.59，p<.001）。

结论

尽管普通人能够区分LLM和律师生成的法律建议，但他们在不知情的情况下更愿意根据LLM的建议采取行动。这表明LLM生成的内容在普通人中的接受度较高，但也提示了对LLM过度信任的风险。

推荐阅读指数：★★★★☆

推荐理由：

跨学科研究： 结合了计算机科学和法律领域，为理解LLM在法律等高风险领域的应用提供了实证研究。
实际应用价值： 对于法律专业人士和政策制定者来说，理解LLM在提供法律建议方面的潜力和局限具有重要意义。
研究方法创新： 通过对比实验和信号检测理论的应用，提高了研究的严谨性和结果的可靠性。

扣分理由：

研究可能需要进一步探讨不同法律领域和不同复杂度问题下LLM的表现，以及如何提高普通人对LLM生成内容的辨别能力。

5. Is Machine Psychology here? On Requirements for Using Human Psychological Tests on Large Language Models

L Löhn, N Kiehne, A Ljapunov, WT Balke - ... of the 17th International Natural Language ..., 2024

机器心理学来了吗？关于在大型语言模型上使用人类心理测试的要求

摘要

近期，研究人员开始尝试对大型语言模型（LLM）进行心理学评估，以期通过诊断各种心理概念（如心理病理症状、人格特征和智力功能）来理解这些模型的行为。然而，这些为人类设计的心理测试是否适用于LLM？本文提出了对LLM进行心理测试所需的七个要求，并对25项近期的机器心理学研究进行了批判性反思。分析发现，现有研究在评估测试的可靠性和构建有效性、控制构建相关影响（如预训练语料库中测试材料的污染）以及许多研究的不可复现性方面存在不足。结果强调了为LLM实施心理评估缺乏通用方法论，并需要为大型语言模型而非直接从人类心理学中采纳心理构建。

创新点

标准化测试要求： 提出了一套针对LLM心理测试的标准要求，以确保测试的可靠性和有效性。
跨学科研究： 结合了心理学和计算机科学，探讨了如何将心理学测试方法应用于LLM。
批判性分析： 对现有的机器心理学研究进行了批判性分析，揭示了当前研究方法的不足。

算法模型

本文没有提出新的算法模型，而是对现有的心理学测试方法应用于LLM的适用性进行了探讨和分析。

实验效果

测试可靠性和构建有效性： 发现现有研究在这些方面存在不足。
构建相关影响： 指出了预训练语料库中测试材料的污染问题。
研究的不可复现性： 许多研究结果难以复现，突显了方法论的不统一。

结论

文章强调了在LLM上实施心理评估时需要考虑的标准化测试过程的重要性，并为未来的研究提供了一套要求框架。同时，指出了当前机器心理学研究中存在的问题和挑战。

推荐阅读指数：★★★★☆

推荐理由：

跨学科价值： 对于计算机科学和心理学的交叉领域研究者来说，这篇文章提供了宝贵的视角和方法论指导。
实践指导： 提出的要求为未来在LLM上进行心理测试的研究提供了明确的指导和建议。
研究批判： 对现有研究的批判性分析有助于推动该领域研究方法的改进和发展。

扣分理由：

文章更多地集中在理论框架和要求提出上，对于期待具体算法或实验结果的读者来说，可能不够深入。

6. Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models

M Dubois, F Yvon, P Piantanida - arXiv preprint arXiv:2409.07615, 2024

文章标题翻译

原文标题：

Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models

中文翻译：

使用大型语言模型混合的零样本机器生成文本检测

摘要

随着大型语言模型（LLMs）的广泛使用，它们在文本生成方面的能力显著提高，这引发了对生成性人工智能技术的威胁的关注。为了应对这一挑战，研究者提出了多种自动区分人工生成文本和人类写作文本的方法。本文提出了一种新的基于信息论原理的方法，通过结合多个LLMs的优势来提高检测的鲁棒性。实验结果表明，该方法能有效提高对多种生成器的检测性能。

创新点

基于信息论的方法： 提出了一种基于信息论原理的新方法，用于结合多个LLMs的检测能力。
鲁棒性增强： 通过混合多个模型，提高了对不同生成器的检测鲁棒性。
零样本检测： 不需要针对特定生成器的训练数据，即可实现文本来源的检测。

算法模型

Robust Scoring Algorithm (RSA)： 利用多个LLMs生成的解释来构建最优的编码方案，以最小化输入令牌的总预期编码长度。
Blahut-Arimoto算法： 用于计算最优的模型混合权重，从而实现对输入文本的最佳编码。

实验效果

Binoculars数据集： 在原始和再生的Binoculars数据集上，RSA方法在检测机器生成文本方面表现优于其他基线方法。
Ghostbuster数据集： 在Ghostbuster数据集上，RSA方法表现出与Binoculars分数相似的高检测性能。
M4多语言数据集： 在多语言文本检测任务中，RSA方法在阿拉伯语、俄语、保加利亚语和中文上表现良好，但在俄语上的性能有所下降。

结论

研究表明，使用多个LLMs的混合方法可以有效提高机器生成文本检测的准确性和鲁棒性。该方法在不同的文本领域和语言上均显示出良好的性能，尤其是在不需要特定生成器训练数据的情况下。

推荐阅读指数：★★★★☆

推荐理由：

创新性： 提出了一种新颖的方法，通过结合多个LLMs来提高文本检测的鲁棒性。
实际应用价值： 对于需要检测和区分机器生成文本和人类写作文本的应用场景具有重要意义。
跨领域应用： 该方法在多个数据集和多种语言上进行了测试，显示出广泛的适用性。

扣分理由：

文章中提到的计算复杂性较高，可能限制了该方法在资源受限的环境中的应用。

7. Pipeline Neural Data-to-text with Large Language Models

CC Osuji, B Timoney, TC Ferreira, B Davis - Proceedings of the 17th International ..., 2024

使用大型语言模型的管道式神经数据到文本转换

摘要

本文探讨了将预训练语言模型（PLMs）和大型语言模型（LLMs）整合到管道架构中，以提高数据到文本的自然语言生成（NLG）质量。研究通过细调（fine-tuning）和提示（prompting）方法，评估了这些模型在生成文本时的准确性和流畅性。研究发现，经过细调的PLMs在各种领域的端到端架构和管道中间阶段中，能够一致地生成高质量的文本。这些模型在自动评估指标上也优于基于提示的模型，但在人类评估中稍显不足。与标准的五阶段管道架构相比，简化的三阶段管道（仅包括排序、结构化和表面实现）在流畅性和语义充分性方面表现更佳。

创新点

整合PLMs和LLMs到管道架构： 将预训练语言模型和大型语言模型结合到传统的管道架构中，以提高文本生成的质量。
提出简化的三阶段管道架构： 通过减少管道阶段的数量，优化了文本生成过程，减少了错误累积的可能性。
细调和提示方法的比较： 对比了细调和提示方法在生成文本时的效果，提供了对不同方法适用性的见解。

算法模型

预训练语言模型（PLMs）： 如GPT-2-large、BART-large、FlanT5-large等，通过在特定数据集上进行细调来执行文本生成任务。
大型语言模型（LLMs）： 如GPT-3.5、GPT-4 Turbo等，使用文本提示来引导文本生成。
管道架构： 包括排序、结构化、词汇化、指代表达生成（REG）和表面实现（SR）等阶段。

实验效果

自动评估： 在自动评估指标（如BLEU、METEOR、COMET）上，细调的PLMs表现优于基于提示的模型。
人类评估： 在人类评估中，简化的三阶段管道架构在流畅性和语义充分性方面表现更佳。
重要数据与结论： 研究结果表明，端到端架构在自动和人类评估中均表现最佳。五阶段管道架构由于错误累积，性能下降更为明显。

推荐阅读指数：★★★★☆

推荐理由：

方法论创新： 提出了将PLMs和LLMs整合到管道架构的新方法，并通过实验验证了其有效性。
实际应用价值： 对于需要从结构化数据生成文本的应用场景，如数据到文本的转换，提供了有价值的参考。
深入分析： 对比了细调和提示方法在不同阶段的效果，为选择合适的生成方法提供了指导。

扣分理由：

文章在实验设计中可能需要更广泛的数据集和更多样化的模型来进一步验证其结论的普适性。

8. An Evaluation Framework for Attributed Information Retrieval using Large Language Models

H Djeddal, P Erbacher, R Toukal, L Soulier... - arXiv preprint arXiv ..., 2024

使用大型语言模型的属性信息检索评估框架

摘要

随着大型语言模型（LLMs）在信息检索场景中的成功应用，搜索引擎开始采用生成性方法，提供带有内联引用作为属性的答案。虽然现有工作主要关注带有属性的问题回答，本文针对的是信息检索场景，这些场景通常更具挑战性，因为查询的开放性以及每个查询的候选属性答案的多样性。我们提出了一个可复现的框架，用于评估和基准测试使用任何骨干LLM的不同架构设计的属性信息检索：(1) 生成 (2) 检索然后生成，和 (3) 生成然后检索。使用HAGRID，一个属性信息检索数据集进行的实验显示了不同场景对答案的正确性和可归属性的影响。

创新点

评估框架： 提出了一个用于评估和基准测试属性信息检索的框架，该框架可以与任何骨干LLM一起使用。
不同架构设计： 考虑了三种不同的架构设计：生成、检索然后生成、生成然后检索，以评估信息检索的有效性。
属性信息检索： 针对信息检索场景中的属性检索问题，提出了一种新的方法，这在现有研究中较少涉及。

算法模型

生成 (G)： 直接使用LLM生成答案，不依赖于外部数据。
检索然后生成 (RTG)： 首先检索与用户查询相关的文档，然后基于这些文档和查询生成答案。
生成然后检索 (GTR)： 首先生成没有引用的答案，然后使用答案来识别支持它的相关文档。

实验效果

正确性和可归属性： 实验结果表明，检索增强的答案生成（RTG）在正确性和可归属性方面表现最佳。
重要数据与结论： 使用HAGRID数据集的实验结果揭示了不同场景对答案正确性和属性的影响，表明检索增强的方法在信息检索任务中更为有效。

推荐阅读指数：★★★★☆

推荐理由：

创新性： 提出了一个新颖的评估框架，用于评估大型语言模型在属性信息检索任务中的性能。
实际应用价值： 对于信息检索系统的设计者和开发者来说，该研究提供了有价值的见解和基准测试方法。
方法论贡献： 通过考虑不同的架构设计，为信息检索领域的研究提供了多样化的方法论。

扣分理由：

可能需要更多的实验和数据集来进一步验证所提出框架的普适性和稳定性。