ACL 2024 大模型方向优秀论文：洞察NLP前沿关键突破

关注gongzhonghao【计算机sci论文精选】

近年来，以Transformer架构为核心的大语言模型重塑了自然语言处理领域的技术范式。当前ACL相关研究呈现多维度深化态势，从开源社区推动轻量化架构与低成本训练技术革新，到学术界探索检索增强等机制突破长尾知识覆盖局限，再到医疗、海洋等垂直领域专用模型开发成为新热点。

今天小图给大家精选3篇ACL有关大模型方向的论文，请注意查收！

How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

方法：

文章首先构建了一个包含40种说服技巧的分类体系，涵盖信息、情感、权威等多个维度，为生成PAP提供了理论基础。接着，通过微调预训练语言模型，构建了一个能够将普通有害查询转化为PAP的"说服性释义器"，并利用这一工具在14个风险类别上进行了广泛的扫描实验。最后，文章通过迭代优化PAP生成过程，进一步提高了攻击成功率，并对现有防御机制进行了深入分析，提出了新的防御策略。

创新点：

提出了一个基于社会科学研究的说服技巧分类体系，首次系统地将人类说服技巧应用于AI安全研究，为后续研究提供了新的工具。
自动生成了具有高攻击成功率的说服性对抗性提示，在多种大型语言模型上验证了其有效性，证明了日常语言交互中的说服行为对AI安全构成的威胁。
发现现有防御机制在应对PAP时存在显著缺陷，并提出了针对PAP的适应性防御策略，为AI安全防御提供了新的方向。

论文链接：

https://arxiv.org/abs/2401.06373

图灵学术论文辅导

论文二：Having Beer after Prayer? Measuring Cultural Bias in Large Language Models

方法：

文章首先从Wikidata和CommonCrawl中提取具有文化差异的实体，并从Twitter/X中获取自然语言提示，构建了CAMeL资源库。接着，利用CAMeL对多种语言模型在故事生成、命名实体识别、情感分析和文本填充等任务上进行跨文化性能测试。最后，分析了阿拉伯语预训练语料库的文化相关性，发现西方内容的高比例可能是导致语言模型文化偏见的关键因素。

创新点：

构建了CAMeL资源库，为评估语言模型的文化偏见提供了基础。
通过CAMeL，首次系统地评估了16种不同语言模型在阿拉伯语环境下的跨文化表现，揭示了令人担忧的文化刻板印象和不公平现象。
分析了6个阿拉伯语预训练语料库，为改进语言模型的文化适应性提供了数据支持。

论文链接：

https://aclanthology.org/2024.acl-long.862/

图灵学术论文辅导

论文三：Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

方法：

文章首先基于mT5预训练模型，通过整合xP3x、Aya集合、Aya数据集、数据溯源集合以及翻译合成数据等多源数据，构建了包含203M数据点的训练语料库。接着，通过调整不同数据源的权重，进行了多种采样策略的实验，以优化模型在不同任务和语言上的表现。最后，通过多语言评估体系和安全上下文蒸馏技术，对模型的性能和安全性进行了全面测试和优化。

创新点：

Aya模型将语言覆盖范围扩展到101种语言，其中超过半数为资源较少的语言，显著扩大了多语言指令微调模型的适用范围。
引入了广泛的多语言评估体系，涵盖99种语言和多种任务类型，包括区分性任务、生成性任务以及人类和LLM评估，全面衡量模型性能。
实施了多语言安全上下文蒸馏技术，有效降低了模型在对抗性提示下的有害输出比例，提升了多语言环境下的安全性。

论文链接：

https://aclanthology.org/2024.acl-long.845/

本文选自gongzhonghao【计算机sci论文精选】