ACM顶会 | 提升数字水印鲁棒性和隐蔽性的分析研究

一、概述

字节跳动产品安全-多媒体与AI安全团队在多媒体数字水印领域的研究论文《Practical Deep Dispersed Watermarking with Synchronization and Fusion 》,于近日入选多媒体领域国际顶会ACM MM 2023。

ACM Multimedia(ACM MM)是国际计算机学会(ACM)的多媒体年会,由ACM的SIGMM多媒体特别兴趣小组主办。ACM MM是全球首屈一指的多媒体领域学术会议,也是中国计算机学会推荐的多媒体领域A类国际学术会议。

本次入选的研究论文关注数字水印在现实应用中所面临的挑战,致力于解决高清原创图像经过多种复杂攻击后的侵权或溯源等问题。论文提出了一种基于深度学习的图像离散水印方案(DWSF),该方案能够有效提高图像水印在实际应用中的鲁棒性和隐蔽性,可促进深度图像水印技术在数字版权、内容可信和数据安全等防护体系建设中的作用。

二、研究背景

近年来随着多媒体技术和多媒体内容的爆发式增长,多媒体内容的数据安全和版权保护需求激增。尤其当前生成式人工智能技术快速发展和普及,人工智能生成内容呈现快速增长和广泛传播的趋势,而人工智能生成的内容存在易混淆、易误认和被滥用的风险,对人工智能生成内容的标记、识别和溯源的需求愈加迫切。对这两方面的现实需求,多媒体数字水印均可提供有效的技术方案。另外,随着深度学习的发展,研究者发现在深度学习技术在数字水印领域有极大的应用潜力。但目前在实际应用场景中,深度学习水印技术仍存在一些挑战有待突破,以深度图像水印为例,当前大多数方案在鲁棒性和隐蔽性方面仍有明显短板。

针对深度图像水印在实际应用场景中面临的挑战,多媒体与AI安全团队研发了一套原创的深度图像水印技术框架(DWSF) ,不仅在图像视觉隐蔽性、文件体积增长率方面达到了极好的效果,而且提升了深度学习水印在几何变换攻击、混合攻击等众多攻击场景下的鲁棒性。在当前多种深度学习图像水印技术中,DWSF水印技术在多方面的测试中均达到最佳性能。

三、技术方案

为了解决现有深度图像水印技术在实际应用场景中的诸多弊端,论文提出了一套原创的深度图像水印方案,由离散嵌入、水印同步、消息融合三个核心模块有机组合而成。方案框架图如上所示,给定一张载体图像,该框架在嵌入时随机选取多个图像块并利用编码器模型嵌入水印;在提取阶段,为应对水印图像可能经过多种攻击叠加的复杂情况,该框架引入了一个精细分割模型来定位水印图像块的位置,并矫正图像经过的几何变换,再用解码器从水印图像块中提取水印,最后综合所有提取结果确定最终水印信息。三个核心模块的详细介绍如下。

3.1 离散嵌入

在水印嵌入模块中,本论文采用编码器-解码器的模型结构,如下图所示,先用编码器嵌入水印、再用解码器提取水印,同时为了提升水印的鲁棒性,在训练过程中对编码器编码后的图像进行数据增强处理(压缩、加噪等),再将其输入到解码器中进行提取。最后,通过设计合适的损失函数确保模型能高效收敛。

相比于现有工作(在整张图像上嵌入一个水印),本方案另辟蹊径采用了离散嵌入方式。首先从图像中随机挑选部分子图像块,再利用编码器对每个图像块嵌入同样的水印信息,从而保证水印区域具有较好的稀疏性。这种策略可以灵活适配各种分辨率图像而不必重新训练模型,同时具备多种优点:

  • 稀疏性:仅修改图像的部分区域,能够实现更好的不可察觉性,而且对文件体积增长有着更小的影响;
  • 随机性:水印随机地分布在图像上,攻击者很难针对性擦除,对于裁剪、遮挡、共谋攻击等的鲁棒性更强;
  • 一致性:鉴于单张图像上存在多个水印图像块且嵌着相同的水印,可以互相校验与纠正,容错性更优。

3.2 水印同步

在水印同步模块中,本论文引入了一个轻量级分割模型用于定位水印嵌入的区域,并且采用了Pad&Split的训练-推理策略来提高定位的泛化性和效率(对任意分辨率图片)。在训练时,采用固定分辨率的图片;而在推理时,通过填充(Pad)使其可以分块(Split)成多个与训练集尺寸相同的子图片,便于并行处理以及缩小与训练数据集的差异。即使图像受到几何攻击而变形,相应的预测掩码 <math xmlns="http://www.w3.org/1998/Math/MathML"> P n o \bm{P_{no}} </math>Pno 也将保持相同的变形,从而在多种未知的几何攻击下也能矫正图片,实现水印同步的目标。

3.3 消息融合

矫正后的水印图像块输入解码器可得到每个块的水印解码结果,但单个块的解码结果存在出错的可能。为提高容错能力,鉴于单张图像上的所有水印图像块嵌着相同水印,本论文引入了基于相似度的消息融合算法来确定最终的水印结果,使得在最坏情况下,如所有块的解码结果都出错,也能得出正确的水印,算法示意图如下。

四、总结

本论文原创性地提出了一种基于深度学习的图像离散水印方案(DWSF),具有如下几个突出优势:

  • 可适配任意分辨率的图片:不同场景中图片的分辨率往往差异很大,本方案可灵活适配多种多样的分辨率,并且不影响泛化性。
  • 图像视觉质量更好:通常水印如果添加地过于明显会影响用户体验,而本方案提出的稀疏水印块修改的图片区域更少(<=20%面积),对用户体验的影响更小。
  • 图像文件体积增长率更低:图片的分辨率越来越大,对存储空间的影响也越来越大。而本方案由于对图片的修改更少(<=20%面积),因此文件大小的比特增长率更低、对存储空间的影响更小。
  • 鲁棒性更强:本方案在应对复杂图像攻击具有更高的鲁棒性,显著提高了溯源的可靠性。

上述优势使得本方案的适用范围更广、用户感知更优、溯源更可靠。本方案目前已应用到抖音、西瓜视频、飞书、火山引擎和飞连等产品中。

未来多媒体和AI安全团队将继续深入行业应用场景,联合国内外高校进行创新研究,为行业提供更优、更全面的水印解决方案,为人工智能时代下的版权保护、内容可信和数据安全贡献一份力量。

相关推荐
Amagi.7 分钟前
Spring中Bean的作用域
java·后端·spring
随云6328 分钟前
WebGL编程指南之着色器语言GLSL ES(入门GLSL ES这篇就够了)
前端·webgl
2402_8575893630 分钟前
Spring Boot新闻推荐系统设计与实现
java·spring boot·后端
J老熊39 分钟前
Spring Cloud Netflix Eureka 注册中心讲解和案例示范
java·后端·spring·spring cloud·面试·eureka·系统架构
Benaso42 分钟前
Rust 快速入门(一)
开发语言·后端·rust
sco528242 分钟前
SpringBoot 集成 Ehcache 实现本地缓存
java·spring boot·后端
原机小子1 小时前
在线教育的未来:SpringBoot技术实现
java·spring boot·后端
寻找09之夏1 小时前
【Vue3实战】:用导航守卫拦截未保存的编辑,提升用户体验
前端·vue.js
吾日三省吾码1 小时前
详解JVM类加载机制
后端
小艳加油1 小时前
ChatGPT+R语言助力生态环境数据统计分析!回归与混合效应模型、多元统计分析、结构方程模型(SEM)(lavaan)、Meta分析、贝叶斯回归等
chatgpt·数据分析·r语言·数据处理·生态环境