人工智能应用-机器视觉:绘画大师 02.深度神经网络中的内容与风格

深度神经网络中的内容与风格

德国图宾根大学的研究者发现,一个用于图像识别的深度卷积神经网络,能够将图片的"内容"和"风格"分离开来。他们通过观察发现,在网络的较深层次,神经元的激发值可以还原图片中的物体,但会丢弃掉风格细节(下图上半部分)。

相反,神经元激发值之间的相关性则体现了色彩分布等风格信息(下图下半部分),而且随着网络层次的加深,神经元感受野逐步扩大,所代表的风格信息在空间尺度上也越来越大。

神经网络中对内容与风格的表示。图片来源:Gatys et al., 2016.

拓展阅读:神经网络中的风格矩阵

图片的风格体现在神经元激发值之间的关系矩阵上。那么,如何计算这个关系矩阵呢?设在卷积神经网络的第 m 层中有 N 个激活平面。我们将第 i 个激活平面表示为一个长向量 F (m, i)。通过计算不同激活平面之间的关系,可以得到风格矩阵。

明确了内容和风格在神经网络中的表示方式后,可以采用一种"迭代更新法"来复现任意图片的内容或风格。例如,我们要复现某一参考图片 C 的内容。首先随机初始化一张噪声图片 A ,对该图片逐渐调整,使其在某一卷积层上的激发值 F (A ) 一点点趋近于参考图片在该卷积层上的激发值 F (C )。调整过程一般采用梯度下降算法,损失函数是 F (A ) 和 F (C ) 之间的平方误差,即 ||F (A ) − F (C)||2。下图展示了这一调整过程。

值得说明的是,卷积神经网络这种内容-风格分离特性与网络结构和训练目标是密切相关的。卷积网络的结构特性决定了当图片上出现某一模式时,该模式对应的卷积平面在相应位置会出现高激发值,这意味着神经元的激发值反映了图片中所包含的内容。同时,不同特征平面代表不同的模式,这些模式之间的协同激发关系反映了图片内容的呈现方式,因此反映了图片的风格特征。

相关推荐
大龄程序员狗哥1 小时前
第47篇:使用Speech-to-Text API快速构建语音应用(操作教程)
人工智能
KKKlucifer1 小时前
数据安全合规自动化:策略落地、审计追溯与风险闭环技术解析
人工智能·安全
RWKV元始智能2 小时前
RWKV超并发项目教程,RWKV-LM训练提速40%
人工智能·rnn·深度学习·自然语言处理·开源
dyj0952 小时前
Dify - (一)、本地部署Dify+聊天助手/Agent
人工智能·docker·容器
墨染天姬2 小时前
【AI】Hermes的GEPA算法
人工智能·算法
小超同学你好2 小时前
OpenClaw 深度解析系列 · 第8篇:Learning & Adaptation(学习与自适应)
人工智能·语言模型·chatgpt
紫微AI2 小时前
前端文本测量成了卡死一切创新的最后瓶颈,pretext实现突破了
前端·人工智能·typescript
码途漫谈2 小时前
Easy-Vibe开发篇阅读笔记(四)——前端开发之结合 Agent Skills 美化界面
人工智能·笔记·ai·开源·ai编程
易连EDI—EasyLink2 小时前
易连EDI–EasyLink实现OCR智能数据采集
网络·人工智能·安全·汽车·ocr·edi
冬奇Lab2 小时前
RAG 系列(二):用 LangChain 搭建你的第一个 RAG Pipeline
人工智能·langchain·llm