适用于资源受限IoT系统的非对称语义图像压缩技术

Compressive Sensing based Asymmetric Semantic Image Compression for Resource-constrained IoT system

· 作者: Yujun Huang, Bin Chen, Jianghui Zhang, Qiu Han, Shu-Tao Xia

· 所属机构: 清华大学深圳国际研究生院、哈尔滨工业大学深圳、鹏城实验室、网络科学与网络空间研究院、清华大学国家信息科学与技术研究中心

· 关键词: 物联网、深度学习、压缩感知、图像压缩、语义通信、边缘计算

· 期刊：第 59 届 ACM/IEEE 设计自动化会议论文集

· 时间：2022 年 8 月 23 日

1. 物联网与深度学习的挑战：物联网(IoT)和深度学习的发展使得机器间语义通信成为可能，但将DNN模型部署在计算和存储能力有限的IoT设备上仍具挑战性。

2. 资源受限IoT系统的需求：为了在资源受限的IoT系统中实现有效的图像语义压缩，需要设计一种能够减少编码器计算复杂度并优化解码器计算资源的模型。

3. 压缩感知技术：压缩感知(CS)技术具有轻量级采样操作，适用于资源受限的IoT系统。

1. CS-ASIC模型设计：提出了一种基于压缩感知的非对称语义图像压缩模型 (CS-ASIC)，该模型包括一个轻量级的前端编码器和一个在服务器端卸载的深度迭代解码器。

2. 分割采样：为了减少模型大小，提出了一种新颖的两阶段分割采样方法，首先进行RGB到YUV的转换以去相关，然后沿空间维度分别采样每个YUV通道。

3. 残差保真块(RFB)深度迭代解码器：提出了一种基于残差保真块的深度迭代解码器，通过可学习的先验来改善图像质量，通过保真步骤和特征空间中的累积误差来纠正恢复误差。

所示一般来说，训练我们的模型可以分为两部分： (1)一个发射机网络作为一个轻量级的编码器，包括分析变换、量化和熵编码。(2)接收机网络由深度解码器和语义DNN推理模型组成。深度解码器还包含类似的熵解码步骤和合成变换。

我们对这类物联网系统的深度非对称语义压缩模型部署可以分为以下四个步骤：

(1)模型训练：云/边缘服务器用捕获的图像训练整体的深度压缩模型。

(2)模型广播：云/边缘服务器将训练过的轻量级线性编码器广播到物联网设备。

(3)数据上传：物联网设备通过轻量级编码器将捕获的图像编码为比特流。然后将比特流上传到云/边缘服务器。

(4)数据恢复和语义分析：云/边缘服务器使用深度解码器恢复图像。然后通过一些与任务相关的DNN来提取语义信息

1. 实验平台：在Jetson Nano b01上评估CS-ASIC，并与其他图像压缩方法进行比较。

2. 模型设置：图像块的宽度和高度设置为10，YUV通道的测量次数分别为28、10和10，迭代次数K设置为2，特征图的维度为64。

3. 评估数据集：在Cityscapes和KITTI数据集上进行实验，这些数据集包含用于图像分割和对象检测的高质量像素级注释。

1. 数据-语义率失真性能比较： CS-ASIC在保持与JPEG相似的推理准确性的同时，压缩率是JPEG的1.53.8倍；在保持与JPEG相似的数据失真情况下，压缩率是JPEG的1.5 2.5倍。

2. 多任务场景： CS-ASIC在对象检测和图像分割任务上取得了最佳的推理准确性。

3. IoT设备部署成本： CS-ASIC与JPEG具有相当的低复杂度，而WebP和H.264由于其高复杂度的帧内预测而需要更多的资源。深度对称图像压缩如Ballé(2017)在CPU实现上比CS-ASIC多约170倍，在GPU实现上多约35倍。

1. CS-ASIC模型的优势： CS-ASIC通过在前端编码器部署轻量级可学习编码器和在中心解码器部署深度迭代重建网络，验证了在低复杂度编码约束下优于其他方法。

2. 未来工作展望：计划将CSDIC框架扩展到异构前端设备，实现自适应编码，并设计一种适用于资源受限场景的新视频编码算法。