人工智能应用-机器视觉：绘画大师 02.深度神经网络中的内容与风格

陈天伟教授2026-01-19 9:41

深度神经网络中的内容与风格

德国图宾根大学的研究者发现，一个用于图像识别的深度卷积神经网络，能够将图片的"内容"和"风格"分离开来。他们通过观察发现，在网络的较深层次，神经元的激发值可以还原图片中的物体，但会丢弃掉风格细节（下图上半部分）。

相反，神经元激发值之间的相关性则体现了色彩分布等风格信息（下图下半部分），而且随着网络层次的加深，神经元感受野逐步扩大，所代表的风格信息在空间尺度上也越来越大。

神经网络中对内容与风格的表示。图片来源：Gatys et al., 2016.

拓展阅读：神经网络中的风格矩阵

图片的风格体现在神经元激发值之间的关系矩阵上。那么，如何计算这个关系矩阵呢？设在卷积神经网络的第 m 层中有 N 个激活平面。我们将第 i 个激活平面表示为一个长向量 F (m, i)。通过计算不同激活平面之间的关系，可以得到风格矩阵。

明确了内容和风格在神经网络中的表示方式后，可以采用一种"迭代更新法"来复现任意图片的内容或风格。例如，我们要复现某一参考图片 C 的内容。首先随机初始化一张噪声图片 A ，对该图片逐渐调整，使其在某一卷积层上的激发值 F (A ) 一点点趋近于参考图片在该卷积层上的激发值 F (C )。调整过程一般采用梯度下降算法，损失函数是 F (A ) 和 F (C ) 之间的平方误差，即 ||F (A ) − F (C)||2。下图展示了这一调整过程。

值得说明的是，卷积神经网络这种内容-风格分离特性与网络结构和训练目标是密切相关的。卷积网络的结构特性决定了当图片上出现某一模式时，该模式对应的卷积平面在相应位置会出现高激发值，这意味着神经元的激发值反映了图片中所包含的内容。同时，不同特征平面代表不同的模式，这些模式之间的协同激发关系反映了图片内容的呈现方式，因此反映了图片的风格特征。