深度学习中的结构化概率模型 - 学习依赖性的关系篇

序言

在深度学习的探索之旅中,结构化概率模型以其独特的能力,在学习数据间复杂依赖关系方面展现出非凡的潜力。传统模型往往难以有效捕捉变量间错综复杂的相互作用,而结构化概率模型则通过引入结构化的先验知识,使得模型能够深入理解并建模这些依赖关系。这种能力对于处理现实世界中的复杂问题至关重要,如自然语言中的语义关联、图像中的空间布局、以及时间序列数据中的动态变化等。通过结构化建模,深度学习系统能够更准确地理解数据背后的规律,从而做出更加精准和可靠的预测与决策。

学习依赖性的关系

  • 良好的生成模型需要准确地捕获所观察到的或 ''可见'' 变量 v \textbf{v} v 上的分布。

    • 通常 v \textbf{v} v 的不同元素彼此高度依赖。
    • 在深度学习中,最常用于建模这些依赖性关系的方法是引入几个潜在的或 ''隐藏'' 变量 h \textbf{h} h。
    • 然后,该模型可以捕获任何对之间的依赖性关系(变量 v i \text{v}_i vi 和 v j \text{v}_j vj 间接依赖, v i \text{v}_i vi 和 h \textbf{h} h 之间直接依赖, v \textbf{v} v 和 hj 直接依赖)。
  • 一个好的不包含任何潜变量的关于 v \textbf{v} v 的模型需要在贝叶斯网络中的每个节点具有大量父节点或在马尔可夫网络中具有非常大的团。

    • 仅仅表示这些高阶的相互作用是昂贵的。
    • 首先从计算角度上,存储在存储器中的参数数量是团中成员数量的指数级别。
    • 接着在统计学意义上,因为这个指数数量的参数需要大量的数据来准确估计。
  • 当模型旨在描述直接连接的可见变量之间的依赖性关系时,通常不可能连接所有变量,因此设计图模型时需要连接那些紧密相关的变量,并忽略其他变量之间的作用。

    • 机器学习中有一个称为结构学习 ( structure learning \text{structure learning} structure learning) 的领域来专门讨论这个问题。
    • Koller and Friedman (2009) \text{Koller and Friedman (2009)} Koller and Friedman (2009) 是一个结构学习的好的参考资料。
    • 大多数结构学习技术是基于一种贪婪搜索的形式。
    • 它们提出了一种结构,对具有该结构的模型进行训练,然后给出分数。
    • 该分数奖励训练集上的高精度并惩罚复杂的模型。
    • 然后提出添加或移除少量边的候选结构作为搜索的下一步。
    • 搜索向一个预计会增加分数的方向发展。
  • 使用潜变量而不是自适应结构避免了离散搜索和多轮训练的需要。

    • 可见变量和潜变量之间的固定结构可以使用可见单元和隐藏单元之间的直接作用,从而使得可见单元之间间接作用。
    • 使用简单的参数学习技术,我们可以学习到一个具有固定结构的模型,这个模型在边缘分布 p ( v ) p(\boldsymbol{v}) p(v) 上拥有正确的结构。
  • 潜变量还有一个额外的优势,即能够高效地描述 p ( v ) p(\text{v}) p(v)。

    • 新变量 h \textbf{h} h 还提供了 v \textbf{v} v的替代表示。
    • 例如,如应用数学与机器学习基础 - 概率与信息论篇 - 常用概率分布所示, GMM \text{GMM} GMM学习了一个潜变量,这个潜变量对应于输入样本是从哪一个混合体中抽出。
    • 这意味着 GMM \text{GMM} GMM中的潜变量可以用于做分类。
    • 在++系列篇章:自编码器++中,我们看到了简单的概率模型如稀疏编码是如何学习可以用作分类器输入特征或者作为流形上坐标的潜变量的。
    • 其他模型也可以使用相同的方式,但是更深的模型和具有多种相互作用方式的模型可以获得更丰富的输入描述。
    • 许多方法通过学习潜变量来完成特征学习。
    • 通常,给定 v \textbf{v} v 和 h \textbf{h} h,实验观察显示 E [ h ∣ v ] \mathbb{E}[\textbf{h} \mid \textbf{v}] E[h∣v] 或 arg max ⁡ h p ( h , v ) \argmax_h p(\boldsymbol{h},\boldsymbol{v}) hargmaxp(h,v) 都是 v \boldsymbol{v} v 的良好特征映射。

总结

综上所述,深度学习中的结构化概率模型在学习数据间依赖关系方面展现出了显著的优势。它们不仅能够捕捉变量间的直接依赖,还能通过结构化的方式揭示隐藏的、间接的以及非线性的关系。这种能力极大地增强了模型的表达能力和泛化能力,使得深度学习系统能够更好地适应复杂多变的数据环境。随着技术的不断进步,我们有理由相信,结构化概率模型将在更多领域发挥关键作用,推动人工智能技术的持续创新与发展。

往期内容回顾

应用数学与机器学习基础 - 概率与信息论篇

相关推荐
余额不足121383 分钟前
C语言基础十六:枚举、c语言中文件的读写操作
linux·c语言·算法
終不似少年遊*9 分钟前
美国加州房价数据分析01
人工智能·python·机器学习·数据挖掘·数据分析·回归算法
嘿嘻哈呀16 分钟前
使用ID3算法根据信息增益构建决策树
决策树·机器学习·信息增益·id3算法
区块链小八歌27 分钟前
链原生 Web3 AI 网络 Chainbase 推出 AVS 主网, 拓展 EigenLayer AVS 场景
人工智能
禾高网络30 分钟前
租赁小程序成品|租赁系统搭建核心功能
java·人工智能·小程序
湫ccc2 小时前
《Opencv》基础操作详解(3)
人工智能·opencv·计算机视觉
Jack_pirate2 小时前
深度学习中的特征到底是什么?
人工智能·深度学习
微凉的衣柜2 小时前
微软在AI时代的战略布局和挑战
人工智能·深度学习·microsoft
火星机器人life2 小时前
基于ceres优化的3d激光雷达开源算法
算法·3d
GocNeverGiveUp2 小时前
机器学习1-简单神经网络
人工智能·机器学习