ACM顶会 | 提升数字水印鲁棒性和隐蔽性的分析研究

一、概述

字节跳动产品安全-多媒体与AI安全团队在多媒体数字水印领域的研究论文《Practical Deep Dispersed Watermarking with Synchronization and Fusion 》，于近日入选多媒体领域国际顶会ACM MM 2023。

ACM Multimedia（ACM MM）是国际计算机学会（ACM）的多媒体年会，由ACM的SIGMM多媒体特别兴趣小组主办。ACM MM是全球首屈一指的多媒体领域学术会议，也是中国计算机学会推荐的多媒体领域A类国际学术会议。

本次入选的研究论文关注数字水印在现实应用中所面临的挑战，致力于解决高清原创图像经过多种复杂攻击后的侵权或溯源等问题。论文提出了一种基于深度学习的图像离散水印方案（DWSF），该方案能够有效提高图像水印在实际应用中的鲁棒性和隐蔽性，可促进深度图像水印技术在数字版权、内容可信和数据安全等防护体系建设中的作用。

二、研究背景

近年来随着多媒体技术和多媒体内容的爆发式增长，多媒体内容的数据安全和版权保护需求激增。尤其当前生成式人工智能技术快速发展和普及，人工智能生成内容呈现快速增长和广泛传播的趋势，而人工智能生成的内容存在易混淆、易误认和被滥用的风险，对人工智能生成内容的标记、识别和溯源的需求愈加迫切。对这两方面的现实需求，多媒体数字水印均可提供有效的技术方案。另外，随着深度学习的发展，研究者发现在深度学习技术在数字水印领域有极大的应用潜力。但目前在实际应用场景中，深度学习水印技术仍存在一些挑战有待突破，以深度图像水印为例，当前大多数方案在鲁棒性和隐蔽性方面仍有明显短板。

针对深度图像水印在实际应用场景中面临的挑战，多媒体与AI安全团队研发了一套原创的深度图像水印技术框架（DWSF） ，不仅在图像视觉隐蔽性、文件体积增长率方面达到了极好的效果，而且提升了深度学习水印在几何变换攻击、混合攻击等众多攻击场景下的鲁棒性。在当前多种深度学习图像水印技术中，DWSF水印技术在多方面的测试中均达到最佳性能。

三、技术方案

为了解决现有深度图像水印技术在实际应用场景中的诸多弊端，论文提出了一套原创的深度图像水印方案，由离散嵌入、水印同步、消息融合三个核心模块有机组合而成。方案框架图如上所示，给定一张载体图像，该框架在嵌入时随机选取多个图像块并利用编码器模型嵌入水印；在提取阶段，为应对水印图像可能经过多种攻击叠加的复杂情况，该框架引入了一个精细分割模型来定位水印图像块的位置，并矫正图像经过的几何变换，再用解码器从水印图像块中提取水印，最后综合所有提取结果确定最终水印信息。三个核心模块的详细介绍如下。

3.1 离散嵌入

在水印嵌入模块中，本论文采用编码器-解码器的模型结构，如下图所示，先用编码器嵌入水印、再用解码器提取水印，同时为了提升水印的鲁棒性，在训练过程中对编码器编码后的图像进行数据增强处理（压缩、加噪等），再将其输入到解码器中进行提取。最后，通过设计合适的损失函数确保模型能高效收敛。

相比于现有工作（在整张图像上嵌入一个水印），本方案另辟蹊径采用了离散嵌入方式。首先从图像中随机挑选部分子图像块，再利用编码器对每个图像块嵌入同样的水印信息，从而保证水印区域具有较好的稀疏性。这种策略可以灵活适配各种分辨率图像而不必重新训练模型，同时具备多种优点：

稀疏性：仅修改图像的部分区域，能够实现更好的不可察觉性，而且对文件体积增长有着更小的影响；
随机性：水印随机地分布在图像上，攻击者很难针对性擦除，对于裁剪、遮挡、共谋攻击等的鲁棒性更强；
一致性：鉴于单张图像上存在多个水印图像块且嵌着相同的水印，可以互相校验与纠正，容错性更优。

3.2 水印同步

在水印同步模块中，本论文引入了一个轻量级分割模型用于定位水印嵌入的区域，并且采用了Pad&Split的训练-推理策略来提高定位的泛化性和效率（对任意分辨率图片）。在训练时，采用固定分辨率的图片；而在推理时，通过填充（Pad）使其可以分块（Split）成多个与训练集尺寸相同的子图片，便于并行处理以及缩小与训练数据集的差异。即使图像受到几何攻击而变形，相应的预测掩码 <math xmlns="http://www.w3.org/1998/Math/MathML"> P n o \bm{P_{no}} </math>Pno 也将保持相同的变形，从而在多种未知的几何攻击下也能矫正图片，实现水印同步的目标。

3.3 消息融合

矫正后的水印图像块输入解码器可得到每个块的水印解码结果，但单个块的解码结果存在出错的可能。为提高容错能力，鉴于单张图像上的所有水印图像块嵌着相同水印，本论文引入了基于相似度的消息融合算法来确定最终的水印结果，使得在最坏情况下，如所有块的解码结果都出错，也能得出正确的水印，算法示意图如下。

四、总结

本论文原创性地提出了一种基于深度学习的图像离散水印方案（DWSF），具有如下几个突出优势：

可适配任意分辨率的图片：不同场景中图片的分辨率往往差异很大，本方案可灵活适配多种多样的分辨率，并且不影响泛化性。
图像视觉质量更好：通常水印如果添加地过于明显会影响用户体验，而本方案提出的稀疏水印块修改的图片区域更少（<=20%面积），对用户体验的影响更小。

图像文件体积增长率更低：图片的分辨率越来越大，对存储空间的影响也越来越大。而本方案由于对图片的修改更少（<=20%面积），因此文件大小的比特增长率更低、对存储空间的影响更小。

鲁棒性更强：本方案在应对复杂图像攻击具有更高的鲁棒性，显著提高了溯源的可靠性。

上述优势使得本方案的适用范围更广、用户感知更优、溯源更可靠。本方案目前已应用到抖音、西瓜视频、飞书、火山引擎和飞连等产品中。

未来多媒体和AI安全团队将继续深入行业应用场景，联合国内外高校进行创新研究，为行业提供更优、更全面的水印解决方案，为人工智能时代下的版权保护、内容可信和数据安全贡献一份力量。