论文阅读：2024-NAACL Semstamp、2024-ACL (Findings) k-SemStamp

CV-杨帆2025-03-21 14:31

Semstamp: A semantic watermark with paraphrastic robustness for text generation
https://aclanthology.org/2024.naacl-long.226/

k-SemStamp: A Clustering-Based Semantic Watermark for Detection of Machine-Generated Text
https://aclanthology.org/2024.findings-acl.98/

GitHub代码和对应论文均围绕基于水印的AI生成文本检测展开。

论文核心内容：论文《SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation》提出SemStamp算法，旨在解决现有水印生成算法易受释义攻击的问题。该算法在句子语义表示上进行水印嵌入，利用局部敏感哈希（LSH）划分句子语义空间。在文本生成阶段，通过对比学习微调句子编码器，将候选句子映射到语义嵌入空间，经LSH哈希后，采用拒绝采样使生成句子落在水印有效区域；检测时，对生成文本中有效区域句子数量进行单比例z检验，判断文本是否为机器生成。同时，论文提出双词释义攻击方法，用于测试水印算法的鲁棒性。实验表明，SemStamp在多种释义器和领域上比之前的方法更鲁棒，且能更好地保持生成文本质量。
GitHub代码功能：该代码库为论文的实现提供支持，涵盖SemStamp和k-SemStamp两个算法。其中，SemStamp利用LSH划分高维嵌入空间，使生成文本的LSH哈希值符合伪随机控制序列，检测时分析输入句子的LSH哈希值并进行z检验判断文本是否带水印；k-SemStamp是SemStamp的变体，使用k-means聚类划分嵌入空间，生成和检测过程与SemStamp类似。代码库提供了详细的安装指南和使用示例，包括数据加载、模型微调、文本生成、释义和检测等步骤，方便使用者复现论文实验结果和进行自定义文本生成与检测。