人工智能应用-机器视觉:绘画大师 02.深度神经网络中的内容与风格

深度神经网络中的内容与风格

德国图宾根大学的研究者发现,一个用于图像识别的深度卷积神经网络,能够将图片的"内容"和"风格"分离开来。他们通过观察发现,在网络的较深层次,神经元的激发值可以还原图片中的物体,但会丢弃掉风格细节(下图上半部分)。

相反,神经元激发值之间的相关性则体现了色彩分布等风格信息(下图下半部分),而且随着网络层次的加深,神经元感受野逐步扩大,所代表的风格信息在空间尺度上也越来越大。

神经网络中对内容与风格的表示。图片来源:Gatys et al., 2016.

拓展阅读:神经网络中的风格矩阵

图片的风格体现在神经元激发值之间的关系矩阵上。那么,如何计算这个关系矩阵呢?设在卷积神经网络的第 m 层中有 N 个激活平面。我们将第 i 个激活平面表示为一个长向量 F (m, i)。通过计算不同激活平面之间的关系,可以得到风格矩阵。

明确了内容和风格在神经网络中的表示方式后,可以采用一种"迭代更新法"来复现任意图片的内容或风格。例如,我们要复现某一参考图片 C 的内容。首先随机初始化一张噪声图片 A ,对该图片逐渐调整,使其在某一卷积层上的激发值 F (A ) 一点点趋近于参考图片在该卷积层上的激发值 F (C )。调整过程一般采用梯度下降算法,损失函数是 F (A ) 和 F (C ) 之间的平方误差,即 ||F (A ) − F (C)||2。下图展示了这一调整过程。

值得说明的是,卷积神经网络这种内容-风格分离特性与网络结构和训练目标是密切相关的。卷积网络的结构特性决定了当图片上出现某一模式时,该模式对应的卷积平面在相应位置会出现高激发值,这意味着神经元的激发值反映了图片中所包含的内容。同时,不同特征平面代表不同的模式,这些模式之间的协同激发关系反映了图片内容的呈现方式,因此反映了图片的风格特征。

相关推荐
风象南3 小时前
普通人用AI加持赚到的第一个100块
人工智能·后端
牛奶4 小时前
2026年大模型怎么选?前端人实用对比
前端·人工智能·ai编程
牛奶4 小时前
前端人为什么要学AI?
前端·人工智能·ai编程
罗西的思考6 小时前
AI Agent框架探秘:拆解 OpenHands(10)--- Runtime
人工智能·算法·机器学习
冬奇Lab7 小时前
OpenClaw 源码精读(2):Channel & Routing——一条消息如何找到它的 Agent?
人工智能·开源·源码阅读
冬奇Lab7 小时前
一天一个开源项目(第38篇):Claude Code Telegram - 用 Telegram 远程用 Claude Code,随时随地聊项目
人工智能·开源·资讯
格砸9 小时前
从入门到辞职|从ChatGPT到OpenClaw,跟上智能时代的进化
前端·人工智能·后端
可观测性用观测云9 小时前
可观测性 4.0:教系统如何思考
人工智能
sunny8659 小时前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
小笼包包仔9 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能