人工智能应用-机器视觉:绘画大师 02.深度神经网络中的内容与风格

深度神经网络中的内容与风格

德国图宾根大学的研究者发现,一个用于图像识别的深度卷积神经网络,能够将图片的"内容"和"风格"分离开来。他们通过观察发现,在网络的较深层次,神经元的激发值可以还原图片中的物体,但会丢弃掉风格细节(下图上半部分)。

相反,神经元激发值之间的相关性则体现了色彩分布等风格信息(下图下半部分),而且随着网络层次的加深,神经元感受野逐步扩大,所代表的风格信息在空间尺度上也越来越大。

神经网络中对内容与风格的表示。图片来源:Gatys et al., 2016.

拓展阅读:神经网络中的风格矩阵

图片的风格体现在神经元激发值之间的关系矩阵上。那么,如何计算这个关系矩阵呢?设在卷积神经网络的第 m 层中有 N 个激活平面。我们将第 i 个激活平面表示为一个长向量 F (m, i)。通过计算不同激活平面之间的关系,可以得到风格矩阵。

明确了内容和风格在神经网络中的表示方式后,可以采用一种"迭代更新法"来复现任意图片的内容或风格。例如,我们要复现某一参考图片 C 的内容。首先随机初始化一张噪声图片 A ,对该图片逐渐调整,使其在某一卷积层上的激发值 F (A ) 一点点趋近于参考图片在该卷积层上的激发值 F (C )。调整过程一般采用梯度下降算法,损失函数是 F (A ) 和 F (C ) 之间的平方误差,即 ||F (A ) − F (C)||2。下图展示了这一调整过程。

值得说明的是,卷积神经网络这种内容-风格分离特性与网络结构和训练目标是密切相关的。卷积网络的结构特性决定了当图片上出现某一模式时,该模式对应的卷积平面在相应位置会出现高激发值,这意味着神经元的激发值反映了图片中所包含的内容。同时,不同特征平面代表不同的模式,这些模式之间的协同激发关系反映了图片内容的呈现方式,因此反映了图片的风格特征。

相关推荐
l1t2 小时前
DeepSeek总结的SQLite 数据库的版本更新历史摘要
数据库·人工智能·sqlite
晓风残月淡2 小时前
AI生成视频变现思路总结
大数据·人工智能·音视频
2501_941329722 小时前
人体正面检测与面部识别:基于改进GA-RPN模型的精准定位与区分技术
人工智能·计算机视觉·目标跟踪
zhengfei6112 小时前
精选资源、工具、论文和平台,用于快速构建大型语言模型 (LLM) 和生成式人工智能
人工智能
程序员:钧念2 小时前
深度学习与大语言模型LLM的区别
人工智能·python·深度学习·语言模型·自然语言处理·transformer·agent
数智顾问2 小时前
(162页PPT)罗兰贝格奥迪品牌浙江和广某省市场提升战略(附下载方式)
人工智能
旷野说2 小时前
工银科技-人工智能平台
人工智能·科技
wechat_Neal2 小时前
Overview of AI concepts-Computer vision
人工智能·计算机视觉
学习3人组2 小时前
大模型领域的核心相关名词解释
人工智能·机器学习·语言模型