文献综述｜CV领域神经网络水印发展综述

前言：最近接触了「模型水印」这一研究领域，阅读几篇综述之后，大致了解了本领域的研究现状，本文就来总结一下该领域的一些基础知识，以飨读者。

⚠️注：本文中出现的研究工作均基于计算机视觉任务开展，因此本文重点介绍计算机视觉领域的水印技术。

概念
现有工作分类
- 水印嵌入角度
- 水印提取角度
- - 白盒水印
  - 黑盒水印
  - - 基于分类任务的黑盒水印方法
    - [2.2 基于图像处理任务的黑盒水印方法](#2.2 基于图像处理任务的黑盒水印方法)
  - 灰盒水印
  - 无盒水印
- 水印容量角度
评价指标
水印攻击方法
总结与展望

概念

数字水印是一种将特定信息（又称水印）隐藏在数字信号中、不影响信号使用价值的技术。若要拷贝载有水印的信号，则水印也会一并被拷贝。如果水印包含了信号拥有者和来源等信息，一旦信号被泄露，通过在泄露的信号中重构水印，可确定信号的版权。显然，通过向神经网络模型嵌入水印可以用来保护神经网络模型的知识产权，简称神经网络模型水印。模型水印就是利用神经网络模型参数的冗余，嵌入模型版权的相关信息。

现有工作分类

从神经网络结构看，主流方法多针对卷积神经网络，其原因在于卷积神经网络的应用更为广泛和成功，且一些适用于卷积神经网络的模型水印技术能够扩展到其他网络。

从神经网络的任务看，主流方法多面向分类模型和生成模型，前者预测样本的类别，后者依据学习到的知识，生成新的样本。

此外，还可从水印嵌入、水印提取以及水印容量等角度对现有工作进行分类。

水印嵌入角度

构造特殊的输入样本（输入层）

利用神经网络在特殊样本集上的预期输出承载水印。例如，文献[2]对输入添加特定的模式，并通过更改标签，使神经网络学习到特定的模式，建立起特定的模式与更改后的标签之间的对应关系，水印检测时，依据目标神经网络在添加有特定模式的样本集上的输出结果来确定产权，相关工作还包括标签扩容[3]、对抗样本[4]等。

调整神经网络的结构或参数（中间层）

通过修改神经网络的结构或参数来承载水印。例如，文献[1]通过添加关联水印的正则化项使神经网络在训练的过程中将水印自动嵌入在模型的参数当中，在此基础上，文献[5]提出利用额外的神经网络改进水印嵌入和提取的性能。相关工作还包括抖动调制[6]、植入指纹[7]、补偿机制[8]和添加特殊层[9]等。

标记神经网络的输出结果（输出层）

通过调制神经网络的输出结果，达到承载水印的目的。例如，文献[10-12]都是对神经网络的输出图像添加水印，能够在输出图像中检测水印以鉴定产权。

许多修改网络参数的方法可归类为白盒水印，基于后门或对抗样本的方法多属于黑盒水印，通过对神经网络的输出添加水印则可以实现无盒认证。

水印提取角度

从水印提取的角度看，根据水印提取时是否需要模型的参与，模型水印可分为黑盒水印、白盒水印和无盒水印。

白盒水印

在白盒场景下，模型所有者在目标模型的内部嵌入水印；提取水印时，提取者能够访问目标网络的内部结构和参数，并能与之交互（输入/输出查询）。

基于内部权重的白盒水印

基于内部权重的白盒水印方法通过对神经网络模型中的权重进行修改以嵌入水印。权重是神经网络模型内部参数的一种，表示神经单元之间连接的强度，反映了输入对输出的影响程度。(嵌入水印的过程中模型的结构是不变的)

基于内部结构的白盒水印

由于在模型的内部权重中嵌入水印容易被攻击者移除和检测，从而使所有权保护失效，因此，研究者们提出了基于内部结构的白盒水印方法,即更改目标模型的内部结构来达到嵌入水印的目的。为抵抗通过改变 DNN 模型参数来去除水印的各种攻击，可采用网络剪枝（一种常用的通过剪枝冗余成分来减小DNN 规模的方法），也可在模型结构中添加一个额外的护照层，如在卷积层之后添加一个新的护照层，以起到数字签名的作用，解决模型受到的歧义性攻击问题。

基于组合验证的白盒水印方法

基于组合验证的方式是把水印分为２个部分, 一部分嵌入网络模型,另一部分由所有者保存,验证时将二者合二为一进行验证．

白盒水印方法经过几年的发展已经较为成熟, 但由于提取水印时需要了解模型的内部结构限制了此类方法的实际应用．黑盒水印方法通过访问 API 即可进行验证,但是由于黑盒水印方法修改了模型的训练数据集,因此必然会对模型的准确性造成或多或少的影响．因此,在此类应用的模型保护中,白盒水印方法由于可以在没有精度损失的情况下工作而受到关注．

黑盒水印

在黑盒场景下，提取者不能掌握可疑目标模型的内部结构和权重，只能通过 API 访问目标模型，从而获得特定的输出，验证模型的版权。

基于分类任务的黑盒水印方法

（3）通过添加新的类构造触发集：基于后门的黑盒 DNN 水印方法依赖于密钥样本,分配具有错误标签的密钥样本将不可避免地或多或少地扭曲原始决策边界。为此，通过在训练过程中对精心制作的密钥样本添加新的类标签对模型添加水印，最大限度地减少(甚至消除)原始决策边界扭曲的影响。

(4) 通过添加嵌入信息的附加样本构造触发集：根据嵌入不同用户的签名生成不同的触发集，微调嵌入水印后分发给对应的用户，可以达到溯源的目的。

(5) 其他方法：模型功能也可以通过模型提取来窃取，模型窃取是指攻击者通过API访问原始模型,然后使用返回的结果来训练替代模型。

2.2 基于图像处理任务的黑盒水印方法

基于分类任务中提出的所有黑盒水印方法都是应用于图像映射到标签的分类模型的版权保护中,但对于图像映射到图像的图像处理模型的保护却很少提及，如图像去噪、图像增强、超分辨率、图像修复、风格转换等任务。如表3所示，图像处理模型与分类模型不同，因此，不能直接将分类模型的水印方法应用于图像处理模型。相对来说，图像处理模型的保护更具有挑战性。

灰盒水印

灰盒水印结合了白盒水印和黑盒水印方法的特点：既通过向模型的内部嵌入信息，又以黑盒的方式获得输出以验证模型版权。但与黑盒水印方法不同的是，黑盒水印方法的水印嵌入通过修改数据集，继而调整模型，实现在模型中嵌入水印，而灰盒水印方法则通过白盒思路直接在模型内部嵌入信息实现在模型中嵌入水印。

无盒水印

无盒水印是指提取者既不能完全掌握目标网络的细节，也不能与之交互，但能够通过目标网络的输出验证模型版权。

水印容量角度

水印容量表示深度模型可以嵌入的水印信息量。根据水印容量特性，可将深度模型水印技术分为零位水印和多位水印。零位水印技术是判断水印是否存在于深度模型中，进而达到验证深度模型版权的目的；多位水印技术则是提取深度模型中的多位字符串水印信息，实现深度模型版权的验证过程。

评价指标

由于神经网络要完成特定任务，肆意更改训练好的神经网络模型参数会导致神经网络在特定任务上的性能急剧下降，使神经网络失去商业价值。因此，神经网络模型水印技术首先要确保水印嵌入不会严重损害神经网络在特定任务上的性能，即任务保真度高。此外，借鉴多媒体水印技术的评价指标，神经网络模型水印还需要考虑：嵌入容量、唯一性（不能从未添加水印的任意神经网络模型中重构出水印）、高效性（嵌入/提取水印的计算代价）、可靠性/有效性（正确提取）、鲁棒性（抗攻击能力）、安全性（隐蔽性）、普适性和可扩展性等。

水印攻击方法

移除攻击
- 无意：模型压缩（剪枝，量化，低致近似，蒸馏）；模型微调
- 恶意：水印覆写（通过嵌入新的非法水印，对原水印造成破坏或导致取证模糊）
混淆攻击/歧义攻击/模糊攻击/伪造攻击：伪造非法水印，破坏水印的唯一性，从而模糊模型的版权
查询修改攻击：主要针对黑盒水印，破坏黑恶水印的触发集
逃逸攻击：在水印存在的情况下，躲避模型版权的验证
代理模型攻击：获得与含水印模型功能类似的模型
共谋攻击：指纹不同的多个用户联合构建不含指纹的模型

总结与展望

从研究对象的角度看，神经网络是具有学习和推理功能的图信号。所以，神经网络模型水印本质上是对"功能"和"图信号"添加水印。在此基础上，可以衍生出「功能水印 」和「图水印」两个概念。利用数字水印保护神经网络模型让受保护的神经网络从具有一个功能（原始任务）变成具有两个功能（原始任务、承载水印）或更多。因此，"功能水印"的内涵至少包含这一点：通过向神经网络植入新功能，将新功能作为"水印"，可用于保护产权。例如，文献[13]提出了"隐藏信息隐藏"新框架，同时保障了隐蔽通信中的"行为安全"和"内容安全"。由于向神经网络植入了新功能，故该成果也可用于保护神经网络模型的知识产权。就图水印而言，它是在不严重损害图信号价值的条件下，嵌入水印，水印多为图结构，也可以是数值序列，图水印已经在软件水印、社交网络水印方面取得了成功的应用 [14, 15]，如何将图水印应用于神经网络模型，值得探索。

参考文献

1\] Yusuke Uchida, Yuki Nagai, Shigeyuki Sakazawa,Shin'ichi Satoh. Embedding watermarks into deep neural networks. Proc. ACM on International Conference onMultimedia Retrieval, pp. 269-277, 2017. \[2\] Jialong Zhang, Zhongshu Gu, Jiyong Jang, Hui Wu,Marc Ph. Stoecklin, Heqing Huang, Ian Molloy. Protecting intellectual propertyof deep neural networks with watermarking. http://Proc.Asia Conference on Computer and Communications Security, pp. 159-172, 2018. \[3\] Qi Zhang, Leo Yu Zhang, Jun Zhang, Longxiang Gao,Yong Xiang. Protecting IP of deep neural networks with watermarking: a newlabel helps. Proc. Pacific-AsiaConference on Knowledge Discovery and Data Mining, pp. 462-474, 2020. \[4\] Erwan Le Merrer, Patrick Pérez, Gilles Trédan. Adversarialfrontier stitching for remote neural network watermarking. Neural Computing and Applications, vol. 32, no. 13, pp. 9233-9244,2020. \[5\] Jiangfeng Wang, Hanzhou Wu, Xinpeng Zhang, YuweiYao. Watermarking in deep neural networks via error back-propagation. Proc. IS\&T Electronic Imaging, MediaWatermarking, Security and Forensics, pp. 22-1-22-9(9), 2020. \[6\] Yue Li, Benedetta Tondi, Mauro Barni.Spread-transform dither modulation watermarking of deep neural network. arXiv Preprint arXiv:2012.14171, 2020. \[7\] Huili Chen, Bita Darvish Rohani, Cheng Fu, JishengZhao, Farinaz Koushanfar. DeepMarks: A secure fingerprinting framework fordigital rights management of deep learning models. Proc. International Conference on Multimedia Retrieval, pp. 105-113,2019. \[8\] Le Feng, Xinpeng Zhang. Watermarking neural networkwith compensation mechanism.Proc.International Conference on Knowledge Science, Engineering and Management,pp. 363-375, 2020. \[9\] Lixin Fan, Kam Woh Ng, Chee Seng Chan. Rethinkingdeep neural network ownership verification: embedding passports to defeatambiguity attacks. arXiv PreprintarXiv:1909.07830, 2019. \[10\] Jie Zhang, Dongdong Chen, Jing Liao, Han Fang,Weiming Zhang, Wenbo Zhou, Hao Cui, Nenghai Yu. Model watermarking for image processingnetworks. Proc. AAAI, 2020. \[11\] Jie Zhang, Dongdong Chen, Jing Liao, Weiming Zhang,Huamin Feng, Gang Hua, Nenghai Yu. Deep model intellectual property protectionvia deep watermarking. IEEE Trans. Patt.Analysis Mach. Intell., 2021. \[12\] Hanzhou Wu, Gen Liu, Yuwei Yao, Xinpeng Zhang. Watermarkingneural networks with watermarked images. IEEETrans. Circuits Syst. Video Technol., 2020. \[13\] Hanzhou Wu, Gen Liu, Xinpeng Zhang. Hiding datahiding. arXiv preprint arXiv:2102.06826,2021. \[14\] Xiaohan Zhao, Qingyun Liu, Haitao Zheng, Ben Y.Zhao. Towards graph watermarks. Proc. ACMConference on Online Social Networks, pp. 101-112, 2015. \[15\] David Eppstein, Michael T. Goodrich, Jenny Lam, NilMamano, Michael Mitzenmacher, Manuel Torres. Models and algorithms for graph watermarking.arXiv Preprint arXiv:1605.09425,2016. **参考资料** 1. [【极简综述05】神经网络模型水印 - 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/367123072) 2. [谢宸琪,张保稳,易平. 人工智能模型水印研究综述. 计算机科学, 2020.](https://www.jsjkx.com/EN/article/openArticlePDF.jsp?id=20072) 3. [冯乐,朱仁杰,吴汉舟,张新鹏,钱振兴. 神经网络水印综述. 应用科学学报, 2021.](https://www.jas.shu.edu.cn/CN/10.3969/j.issn.0255-8297.2021.06.001) 4. [张颖君; 陈恺; 周赓; 吕培卓; 刘勇; 黄亮. 神经网络水印技术研究进展. 计算机研究与发展, 2021.](https://dl.ccf.org.cn/article/articleDetail.html?type=qkwz&_ack=2&id=5460117538277376) 5. [王馨雅,华光,江昊,张海剑. 深度学习模型的版权保护研究综述. 网络信息安全学报, 2022.](https://www.infocomm-journal.com/cjnis/article/2022/2096-109X/2096-109X-8-2-00001.shtml) 6. [樊雪峰,周晓谊,朱冰冰,董津位,牛俊,王鹤. 深度神经网络模型版权保护方案综述. 计算机研究与发展, 2022.](https://dl.ccf.org.cn/article/articleDetail.html?type=qkwz&_ack=1&id=5995639314548736) 7. [夏道勋,王林娜,宋允飞,罗星智. 深度神经网络模型数字水印技术研究进展综述. 科学技术与工程, 2023.](http://www.stae.com.cn/jsygc/article/abstract/2202412)