鲁鹏教授《计算机视觉与深度学习》课程笔记与思考 ——13. 生成模型 VAE:从无监督学习到显式密度估计的建模与实现

承接上一篇 CNN 可视化的内容,本节课鲁鹏教授聚焦生成模型核心内容,以无监督学习为基础,从密度估计核心出发,拆解生成模型的分类与典型架构,重点讲解 PixelRNN/CNN 的序列生成逻辑,并深入剖析变分自编码器(VAE)的模型设计、训练原理与应用特点,完整呈现显式密度估计类生成模型的构建思路。

课程链接:

https://www.bilibili.com/video/BV1V54y1B7K3/?spm_id_from=333.788.player.switch&vd_source=a42184218f2a2585e044c7563e890c29

目录

一、课程基础:无监督学习的核心任务与价值

二、生成模型定位:以密度估计为核心的样本生成逻辑

[三、显式可解生成模型:PixelRNN/CNN 的序列生成原理](#三、显式可解生成模型:PixelRNN/CNN 的序列生成原理)

[四、VAE 基础:自编码器的结构与应用局限](#四、VAE 基础:自编码器的结构与应用局限)

[五、VAE 核心设计:从确定编码到概率分布的关键改进](#五、VAE 核心设计:从确定编码到概率分布的关键改进)

[六、VAE 训练:双损失函数与对数似然下界优化](#六、VAE 训练:双损失函数与对数似然下界优化)

[七、VAE 特性:模型优势、局限与应用特点](#七、VAE 特性:模型优势、局限与应用特点)

八、学习感悟:生成模型的设计思路与核心逻辑

九、结语


一、课程基础:无监督学习的核心任务与价值

无监督学习与有监督学习的核心区别在于无标签数据,无需学习 x 到 y 的映射,而是挖掘数据中隐含的模式与结构,是生成模型的学习基础。

其核心典型任务有三类,且各有实际应用价值:

  1. 聚类:将数据分组,如广告投放中对电视用户聚类,实现同时间段精准投放,提升平台与广告商双方效益;
  2. 降维:将高维数据降至低维并保留核心信息,如 PCA(线性)、自编码器(非线性),解决高维数据噪声多、模型效果差的问题;
  3. 密度估计:拟合数据的概率分布,是生成模型的核心基础,为后续贝叶斯决策等任务提供概率密度函数支撑。

二、生成模型定位:以密度估计为核心的样本生成逻辑

生成模型 学习分布并生成同分布样本

生成模型的核心目标是概率密度估计,即学习训练样本的真实分布,进而生成与该分布一致的新样本。

  1. 密度估计分类:分为显式(可定义分布方程,可计算样本生成概率)和隐式(仅能生成样本,无明确分布方程)两类;
  2. 生成模型应用:可实现图像合成、图像属性编辑、风格转移等实际场景需求;
  3. 课程讲解框架:各选取一类典型模型讲解,分别为显式可解的 PixelRNN/CNN、显式需近似求解的 VAE、隐式的 GAN。

生成模型的分类框架

三、显式可解生成模型:PixelRNN/CNN 的序列生成原理

PixelRNN 与 PixelCNN 是显式密度估计中分布方程可解的典型,二者均将图像生成拆解为逐像素的序列生成过程,通过链式准则依次生成像素,且均通过极大似然估计训练,能输出显式的像素生成概率分布。
PixelRNN 与 PixelCNN的核心公式(链式准则)

二者的核心差异与局限性如下:

  1. PixelRNN :基于循环神经网络(RNN)处理像素序列,RNN 擅长时序 / 序列任务,但该模型训练和生成速度均较慢;
    PixelRNN
  2. PixelCNN :基于卷积神经网络(CNN)优化,可批量训练,提升了训练效率,但仍需逐像素生成图像;
    PixelCNN
  3. 共同局限:生成速度慢,不适合生成大图,且生成结果可编辑性差,效果远不如主流生成模型。

PixelRNN 与 PixelCNN的优缺点总结

四、VAE 基础:自编码器的结构与应用局限

变分自编码器(Variational Autoencoder,VAE)是融合变分推断与自编码器结构的生成式无监督模型,作为显式密度估计类生成模型的典型,核心用于学习数据概率分布并生成新样本。

VAE(变分自编码器) 基于自编码器改进而来,先掌握自编码器的基础是理解 VAE 的关键,自编码器是实现非线性降维的无监督模型,核心结构与应用存在明显局限:

  • 核心结构 :由编码器和解码器组成,编码器将高维输入映射为低维编码 z,解码器将 z 重构为与输入近似的输出,通过输入与重构的 L2 损失训练;
    自编码器的核心结构
  • 基础应用:编码器可提取特征,用于小样本分类任务;解码器可尝试图像生成,从编码空间采样 z 生成图像;

编码器提取特征用于分类
编码器提取图像特征,解码器生成图像
解码器生成图像
解码器生成图像

  • 核心局限:编码空间的泛化能力极差,神经网络仅稀疏记录训练过的 z 与图像的对应关系,未在训练中出现的 z 无法生成有效图像内容。

自编码器的缺陷:泛化能力差

五、VAE 核心设计:从确定编码到概率分布的关键改进

VAE解决了自编码器的泛化问题

VAE 是显式密度估计中分布方程需近似求解的典型,核心改进是将自编码器的确定编码改为概率编码,彻底解决了自编码器的泛化问题:

  1. 编码方式改进 :编码器不再直接输出确定的编码 z,而是输出 z 的高斯分布均值和方差,从该分布中采样带噪声的 z 输入解码器,通过指数操作保证标准差为正数;
    自编码器编码方式(上) 与 VAE编码方式(下) 的 对比
  2. 与高斯混合模型关联 :高斯混合模型用有限个高斯组件拟合数据分布,VAE 则用无限个高斯组件逼近真实数据分布,且编码 z 的每一维可对应图像的一个属性,调整 z 的不同维度可控制生成图像的对应特征。
    VAE与高斯混合模型关联

六、VAE 训练:双损失函数与对数似然下界优化

VAE 无法直接最大化观测数据对数似然

VAE 无法直接最大化观测数据的对数似然(因隐变量 z 存在,难以完成积分操作),因此采用近似求解的方式,核心是双损失函数设计与对数似然下界优化:

  1. 双损失函数:一是重构损失,即输入 x 与重构 x 的 L2 损失,保证解码器的重构效果;二是 KL 散度损失,约束编码器输出的高斯分布逼近零均值、一方差的标准正态分布,避免模型退化为普通自编码器;
  2. 对数似然下界(ELBO)优化:引入分布 q (z|x) 逼近真实的后验分布 p (z|x),转而优化对数似然的下界,该下界可直接分解为重构项和 KL 散度项,成为 VAE 的实际优化目标。

双损失函数的数学理论源头
KL损失与网络

七、VAE 特性:模型优势、局限与应用特点

VAE 作为生成模型的主流方向之一,其模型使用方式、核心优势与局限性十分鲜明:

  1. 模型使用:训练完成后可丢弃编码器,直接从标准正态分布中采样 z,输入解码器即可生成新图像;
  2. 核心优势:能得到编码 z 的概率分布,泛化能力强,可应用于多种生成相关任务;
  3. 主要局限:仅优化对数似然下界而非真实的对数似然,模型评估难度大,且生成的图像质量相较于 GAN 偏低。

利用VAE实现宝可梦生成
利用VAE生成的图像
VAE的问题

八、学习感悟:生成模型的设计思路与核心逻辑

  • 生成模型的设计始终围绕密度估计展开,显式与隐式、可解与近似解的分类,本质是密度估计的不同实现方式;
  • VAE 的核心创新是概率思维的引入,将自编码器的确定编码改为概率编码,通过高斯分布采样实现了编码空间的泛化,这是解决自编码器局限的关键;
  • 损失函数的设计是模型优化的核心,VAE 的双损失函数实现了重构效果分布约束的权衡,避免了模型退化,这种权衡思维是深度学习模型设计的重要思路;
  • 不同生成模型各有优劣,PixelRNN/CNN 胜在显式概率可计算,VAE 胜在泛化能力,而后续 GAN 的优势则在生成效果,需根据实际场景选择。

VAE总结
产生式模型分类

九、结语

本节课以无监督学习为切入点,厘清了生成模型以密度估计为核心的本质,先剖析了显式可解的 PixelRNN/CNN 的序列生成逻辑,再从自编码器的结构与局限出发,层层深入讲解了 VAE 的概率编码改进、双损失函数设计与对数似然下界优化。VAE 作为显式密度估计中近似求解的典型模型,通过概率思维的引入解决了自编码器的泛化问题,完整呈现了显式生成模型的建模与训练思路,也为后续学习隐式生成模型 GAN 奠定了重要的理论基础。理解密度估计的不同实现方式,以及各类生成模型的设计取舍,是掌握生成模型的核心关键。

相关推荐
AI_Auto1 小时前
智能制造-MES与AI结合的核心价值与逻辑
大数据·人工智能·制造
聊聊科技1 小时前
5款AI编曲软件荣登2026年度榜单,逐项对比适合原创音乐人参考
人工智能
董厂长1 小时前
RAG 中的分块策略(Chunking Strategy)
人工智能·llm·rag·分块策略
皮卡丘不断更2 小时前
让数据“开口说话”!SwiftBoot AI 智能看板 v0.1.8 震撼来袭
人工智能·系统架构·ai编程
向哆哆2 小时前
七种常见虫子的图像识别数据集分享(适用于目标检测任务)
人工智能·目标检测·计算机视觉
AI浩2 小时前
面向对象保真度的遥感图像生成扩散模型
人工智能·目标检测
CareyWYR2 小时前
每周AI论文速递(260209-260213)
人工智能
小刘的大模型笔记2 小时前
向量数据库深度剖析:核心优劣势 + 适用场景,避开 RAG 落地的选型坑
数据库·人工智能·深度学习·机器学习
田里的水稻2 小时前
FA_融合和滤波(FF)-图优化
人工智能·算法·机器学习