【论文阅读】PRIS: Practical robust invertible network for image steganography

内容简介

论文标题：PRIS: Practical robust invertible network for image steganography

作者：Hang Yang, Yitian Xu∗, Xuhua Liu∗, Xiaodong Ma∗

发表时间：2024年4月11日 Engineering Applications of Artificial Intelligence

关键字：图像隐写、稳健、深度学习、可逆神经网络

阅读目的：

阅读方式：泛读

摘要

主要工作：为了提高图像隐写的鲁棒性，本文提出了一种实用的图像隐写鲁棒性可逆网络（PRIS），它基于可逆神经网络，在提取过程前后分别放置两个增强模块，采用三步训练策略。

代码：代码可在https://github.com/yanghangAI/PRIS上获得，我们的模型在http://yanghang.site/hide/上的实际演示。

引言

提出当前图像隐写一个显著的问题是图像隐写的鲁棒性

显著限制是对舍入误差的忽略，这个问题的出现是由于深度学习框架中使用的数值精度（通常是32位）和图像的标准位深度（通常是8位）之间的差异。

基准模型：HiNet

主要贡献：

提出了一种具有两个增强模块的鲁棒可逆神经网络，用于多种攻击下的图像隐写。
我们在训练过程中引入了三步训练策略，以获得更好的鲁棒性。
考虑舍入误差，提出了一种梯度近似函数来解决舍入运算引起的不可导问题。
实验结果表明，本文提出的PRIS在鲁棒性和实用性方面都优于现有的先进方法，特别是在容器图像存在细微扭曲和不可避免的舍入误差时。

方法

整体结构

图一：PRIS的框架包括可逆块和增强模块两大部分，其中DWT和IWT分别表示离散小波变换和逆小波变换。左边块是嵌入过程，右边块是提取过程。z 是服从正态分布的随机噪声。

这个是整个模型的结构图， x h , x s x_h,x_s xh,xs 先通过离散小波变换变换到频域，通过可逆块输出两幅图像，对于 x h x_h xh 将会进一步经过 IWT 转换为空间域，输出为 x c x_c xc。 x c x_c xc会收到不同的攻击，然后变为 x d x_d xd，然后经过预增强模块、DWT、可逆块，同时，得到高斯分布图像 z 也被输入到可逆块中，最终得到两幅图像，在频域上显示并提取秘密图像，z 经过 IWT 得到解密后的 x e x_e xe.

可逆块

增强模块

预增强模块以变形后的容器图像为输入，输出增强后的容器图像，便于通过可逆块进行提取。后增强模块将提取的图像作为输入，输出与原始秘密图像更相似的增强提取图像。

损失函数

PSNR：封面和容器、秘密和揭示图象之间，目的是最大化 PSNR

引入了两个损失

总损失为两种损失的加权和

作者提到，如果过于关注容器的损失而不关注揭示秘密图像的损失，则会出现无限大的 PSNR-C，极低的 PSNR-S，这个和我上次自己训练的结果，容器很模糊，但是秘密图像可以看出来有些类似，可能是上次我的损失函数设置的有问题。

未来解决这种问题，所以使用损失的加权和来作为总损失

3 步训练策略

将训练过程分为三个不同的阶段，目的是找到可逆和不可逆的平衡点

步骤1：预训练可逆模块。在这一步中，只启用可逆块，增强模块不进行前向和后向计算。这将保证整个网络的可逆性。

步骤2：预训练增强模块。在此步骤中，PRIS的所有组件都被激活，但可逆块的参数保持固定。这种方法旨在适度降低可逆性，确保它不会损害整体性能。

步骤3：微调可逆模块和增强模块。

在此步骤中，所有参数都被启用，并将在反向传播期间更新。进一步提高了系统的鲁棒性。

舍入误差为什么重要

实验

实验细节

数据集：DIV2K

输入的图像被裁剪为 224*224

对于训练数据，使用随机裁剪来更好的泛化；对于测试数据集，使用中心裁剪避免评估中的随机性，每个阶段用 1600 个 epoch，使用 Adam 优化器，初始学习率分别为 1 0 − 4.5 和 1 0 − 5.5 10^{-4.5}和10^{-5.5} 10−4.5和10−5.5

消融实验

增强模块、三步训练策略和领域选择的有效性

添加了的模块分别和第一行对比，确实是有提升，但是数值上的提升并不是很大

空间域还是频域

频域隐藏图像比在空间域隐藏图像更有效。然而，频域仍然是增强模块的更好选择，因此我们进行了不同域的消融研究

计算舍入误差的不同方法

误差参数的影响

将舍入函数的梯度设置为0的视觉结果，通过忽略提取任务实现了较高的PSNR-C，本质上是在尝试学习一个相同的映射函数

与其他方法比较

总之，我们的PRIS在一系列攻击中表现出卓越的性能，与其他方法相比，它是最健壮的方法。值得注意的是，当受到高斯噪声或不可避免的舍入攻击等微妙攻击时，与之竞争的SOTA方法的性能会急剧下降，而PRIS在这些条件下保持了明显更好的恢复能力。

实践实验

给出了网站，可以自己上传进行测试

跨域实验

ImageNet：此数据集包含1,000张图像，从ImageNet 2012数据集的验证分割的每个类中随机选择一张。
COCO：该数据集包含来自COCO 2017验证分割的5000张图像。
VOC：该数据集包含来自VOC-2007验证分割的2,510张图像。

结论

本文提出了一种实用的鲁棒可逆图像隐写网络------PRIS。它将两个增强模块和一个三步训练策略集成到可逆神经网络中。而且，以往的研究忽略了舍入失真；然而，在实际操作中不可避免，其不可微性给训练带来了挑战。因此，本文提出GAF来解决这个问题，并在其他失真之前应用舍入失真，这更现实。此外，尽管在224 × 224像素的分辨率上进行训练，PRIS在实践中可以适应任何分辨率。这些特征赋予PRIS在鲁棒性和实用性方面优于现有SOTA方法的能力，特别是在面对微妙的攻击和不可避免的舍入误差时

我的理解

基准模型是在 hinet 上，然后加了几个模块用来增强这个稳健性，论文的网络结构并没有很详细的给出，但是给出了代码，