计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-22

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-22
- 目录
- [1. PoisonedRAG: Knowledge corruption attacks to retrieval-augmented generation of large language models](#1. PoisonedRAG: Knowledge corruption attacks to retrieval-augmented generation of large language models)
- [2. LLaVA-KD: A Framework of Distilling Multimodal Large Language Models](#2. LLaVA-KD: A Framework of Distilling Multimodal Large Language Models)
- [3. Large Language Models Empower Personalized Valuation in Auction](#3. Large Language Models Empower Personalized Valuation in Auction)
- [4. REEF: Representation Encoding Fingerprints for Large Language Models](#4. REEF: Representation Encoding Fingerprints for Large Language Models)
- [5. UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models](#5. UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models)
- 后记

1. PoisonedRAG: Knowledge corruption attacks to retrieval-augmented generation of large language models

W Zou, R Geng, B Wang, J Jia - arXiv preprint arXiv:2402.07867, 2024

PoisonedRAG: 针对大型语言模型增强检索生成的知识腐败攻击

摘要

这篇论文探讨了大型语言模型（LLMs）在实际应用中的局限性，如知识更新不及时和产生幻觉（hallucination）等问题。为了缓解这些问题，研究者们提出了一种名为检索增强生成（RAG）的技术。然而，现有的研究主要集中在提高RAG的准确性或效率上，对其安全性的探索较少。本文提出了一种名为PoisonedRAG的知识腐败攻击，通过在RAG系统的知识数据库中注入恶意文本，诱导LLM生成攻击者选择的目标答案。研究者们将这个问题形式化为一个优化问题，并根据攻击者对RAG系统的背景知识，提出了两种解决方案。实验结果表明，PoisonedRAG在注入少量恶意文本后，能够实现高达90%的攻击成功率，并且现有的防御措施不足以抵御这种攻击。

创新点

提出了PoisonedRAG，这是首个针对RAG系统的知识腐败攻击。
将知识腐败攻击形式化为一个优化问题，并根据攻击者的背景知识提出了两种解决方案。
实验表明，PoisonedRAG能够在知识数据库中注入少量恶意文本后，实现高攻击成功率。
评估了多种防御措施，发现它们不足以防御PoisonedRAG，强调了开发新防御措施的必要性。

算法模型

PoisonedRAG的算法模型包括以下关键步骤：

威胁模型定义：定义攻击者的目标、背景知识和能力。
优化问题形式化：将恶意文本的生成问题形式化为一个受约束的优化问题。
恶意文本生成：通过分解恶意文本为两个子文本（S和I），分别用于满足检索条件和生成条件。
黑盒和白盒设置：根据攻击者是否能够访问检索器的参数，提出了两种不同的攻击解决方案。

文章标题翻译

PoisonedRAG: 针对大型语言模型增强检索生成的知识腐败攻击

摘要

创新点

提出了PoisonedRAG，这是首个针对RAG系统的知识腐败攻击。
将知识腐败攻击形式化为一个优化问题，并根据攻击者的背景知识提出了两种解决方案。
实验表明，PoisonedRAG能够在知识数据库中注入少量恶意文本后，实现高攻击成功率。
评估了多种防御措施，发现它们不足以防御PoisonedRAG，强调了开发新防御措施的必要性。

算法模型

PoisonedRAG的算法模型包括以下关键步骤：

威胁模型定义：定义攻击者的目标、背景知识和能力。
优化问题形式化：将恶意文本的生成问题形式化为一个受约束的优化问题。
恶意文本生成：通过分解恶意文本为两个子文本（S和I），分别用于满足检索条件和生成条件。
黑盒和白盒设置 ：根据攻击者是否能够访问检索器的参数，提出了两种不同的攻击解决方案。

实验效果

攻击成功率（ASR）：在黑盒设置下，PoisonedRAG在NQ数据集上实现了97%的ASR，即使在知识数据库中有超过268万条干净文本的情况下，通过注入5条恶意文本就能实现。
防御措施评估 ：评估了包括重述（paraphrasing）和基于困惑度（perplexity）的检测等防御措施，结果表明这些防御措施不足以抵御PoisonedRAG。

结论

PoisonedRAG证明了RAG系统对知识腐败攻击的脆弱性，并强调了开发新防御措施的必要性。实验结果表明，即使在知识数据库中注入少量恶意文本，也能显著影响LLM生成的目标答案。

推荐阅读指数：★★★★☆

2. LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

Y Cai, J Zhang, H He, X He, A Tong, Z Gan, C Wang... - arXiv preprint arXiv ..., 2024

https://arxiv.org/pdf/2410.16236

LLaVA-KD：一个用于多模态大型语言模型知识蒸馏的框架

摘要

本文提出了一个名为LLaVA-KD的新框架，旨在将大型多模态语言模型（l-MLLM）的知识迁移到小型多模态语言模型（s-MLLM）。通过引入多模态蒸馏（MDist）和关系蒸馏（RDist），框架最小化了l-MLLM和s-MLLM在视觉-文本输出分布上的差异，并传递了l-MLLM对视觉特征之间相关性的建模能力。此外，提出了一个三阶段的训练方案，包括蒸馏预训练（DPT）、监督微调（SFT）和蒸馏微调（DFT），以充分发挥s-MLLM的潜力。实验和消融研究验证了每个组件的有效性。

研究背景

大型语言模型（LLM）在自然语言处理领域取得了显著成就，推动了多模态大型语言模型（MLLM）的发展，以实现视觉和语言信息的统一理解。然而，MLLM的模型规模和计算复杂性的增加限制了其在资源受限环境中的使用。小型MLLM（s-MLLM）旨在减少计算需求，但往往导致性能显著下降。

问题与挑战

如何在不改变小型模型架构的情况下，通过有效的训练策略提高s-MLLM的性能，使其能够捕捉到l-MLLM能够捕获的复杂知识。

如何解决

通过知识蒸馏技术，提出了一个三阶段的训练方案，包括蒸馏预训练（DPT）、监督微调（SFT）和蒸馏微调（DFT），以及MDist和RDist策略，以提高s-MLLM的性能。

创新点

提出了LLaVA-KD框架，用于从l-MLLM向s-MLLM转移知识。
引入了MDist和RDist策略，分别用于对齐视觉-文本表示和传递视觉特征之间的相关性建模能力。
设计了一个三阶段的训练方案，以充分利用s-MLLM的潜力。

算法模型

MDist：通过Kullback-Leibler Divergence（KLD）最小化l-MLLM和s-MLLM在视觉和语言模态上的输出分布差异。
RDist：通过优化自相关矩阵的相似性，使s-MLLM继承l-MLLM对视觉标记之间复杂关系的理解能力。
三阶段训练方案 ：包括DPT、SFT和DFT，以提高s-MLLM的多模态对齐和理解能力。

实验效果

在五个流行的多模态基准测试中，LLaVA-KD-1B在模型大小为1B参数时，显著优于之前的大规模MLLM模型，如BLIP2-13B和InstructBLIP-7B。
消融研究表明，三阶段训练方案中的每个组件都对性能有积极影响。

重要数据与结论

LLaVA-KD在多个基准测试中表现出色，证明了其在资源受限环境中部署轻量级MLLM的潜力。
通过结合MDist和RDist，以及三阶段训练方案，LLaVA-KD能够有效地从大型MLLM转移知识到小型MLLM。