VAE中的负对数似然损失与自适应容忍度

stable diffusion中的vae并没有直接使用L1损失作为重建损失,而是采用了负对数似然损失,代码如下:

python 复制代码
rec_loss = torch.abs(inputs.contiguous() - reconstructions.contiguous())
nll_loss = rec_loss / torch.exp(self.logvar) + self.logvar
nll_loss = torch.sum(nll_loss) / nll_loss.shape[0]

其中self.logvar是一个可以学习的参数。

这里涉及到拉普拉斯分布,其概率密度函数如下

拉普拉斯与正太分布的区别如下,

不直接使用L1损失而采用负对数似然损失是因为考虑到对于纹理,边界这些变化比较剧烈的地方需要更大的容忍度,而不是要求图像完全还原像素。

而使用拉普拉斯不使用正太分布的愿意有以下几点。

(1) 对异常值的鲁棒性
  • 拉普拉斯分布的长尾特性

    拉普拉斯分布对远离均值的值(异常值)的惩罚是线性的(L1),而高斯分布的惩罚是二次的(L2)。

    • 实际意义:在图像生成任务中,某些像素可能存在较大的重建误差(如复杂纹理区域),使用 L1 损失对这些异常值的敏感度更低,模型优化更稳定。

    • 示例:若某个像素的误差为 10,L1 损失贡献为 10,L2 损失贡献为 100。拉普拉斯分布更容忍大误差,避免模型被少数异常像素主导。

(2) 稀疏性诱导
  • L1 正则化与稀疏性

    拉普拉斯分布作为先验时,会倾向于产生稀疏的重建误差(许多误差接近零,少数较大)。

    • 在生成模型中的应用:图像中大部分区域(如平坦背景)容易精确重建,误差集中在小部分复杂区域。拉普拉斯假设更符合这种特性。
(3) 建模非对称性与多模态的灵活性
  • 拉普拉斯分布的对称性限制

    尽管拉普拉斯分布是对称的,但其对误差的线性惩罚比高斯分布更能适应实际数据中非均匀的误差分布。

    • 对比高斯分布:高斯分布强加了一个平滑的二次惩罚,假设误差在所有区域均匀分布,这在真实数据中往往不成立。
相关推荐
张子夜 iiii5 分钟前
4步OpenCV-----扫秒身份证号
人工智能·python·opencv·计算机视觉
华新嘉华DTC创新营销2 小时前
华新嘉华:AI搜索优化重塑本地生活行业:智能推荐正取代“关键词匹配”
人工智能·百度·生活
SmartBrain3 小时前
DeerFlow 实践:华为IPD流程的评审智能体设计
人工智能·语言模型·架构
l1t4 小时前
利用DeepSeek实现服务器客户端模式的DuckDB原型
服务器·c语言·数据库·人工智能·postgresql·协议·duckdb
寒月霜华5 小时前
机器学习-数据标注
人工智能·机器学习
九章云极AladdinEdu6 小时前
超参数自动化调优指南:Optuna vs. Ray Tune 对比评测
运维·人工智能·深度学习·ai·自动化·gpu算力
人工智能训练师7 小时前
Ubuntu22.04如何安装新版本的Node.js和npm
linux·运维·前端·人工智能·ubuntu·npm·node.js
cxr8288 小时前
SPARC方法论在Claude Code基于规则驱动开发中的应用
人工智能·驱动开发·claude·智能体
研梦非凡9 小时前
ICCV 2025|从粗到细:用于高效3D高斯溅射的可学习离散小波变换
人工智能·深度学习·学习·3d
幂简集成9 小时前
Realtime API 语音代理端到端接入全流程教程(含 Demo,延迟 280ms)
人工智能·个人开发