论文略读：REEF: Representation Encoding Fingerprints for Large Language Models

UQI-LIUWJ2025-06-12 20:38

ICLR 2025 ORAL

保护开源大语言模型（LLMs）的知识产权 至关重要，因为训练 LLM 需要大量的计算资源和数据投入。
- 模型拥有者与第三方都有必要识别某个可疑模型是否是在原模型基础上的衍生版本。
------>论文提出了一种无需训练的识别方法 REEF ，从 LLM 特征表示的角度出发，用于判断可疑模型与被侵权模型之间的关系。
- REEF 通过在相同样本上计算和比较可疑模型与目标模型的中心化核对齐相似度（Centered Kernel Alignment, CKA），来衡量两者的相似性。
该方法具有以下优点：
- 无需重新训练模型；
- 不会削弱模型的通用能力；
- 对顺序微调、剪枝、模型融合与参数置换等操作具有良好鲁棒性。