累计概率分布、概率分布函数(概率质量函数、概率密度函数)、度量空间、负采样(Negative Sampling)

这里写自定义目录标题

  • 机器学习的基础知识
    • 累计概率分布
    • 概率分布函数
    • 度量空间
    • [负采样(Negative Sampling)](#负采样(Negative Sampling))
      • [基于分布的负采样(Distribution-based Negative Sampling):](#基于分布的负采样(Distribution-based Negative Sampling):)
      • [基于近邻的负采样(Neighbor-based Negative Sampling):](#基于近邻的负采样(Neighbor-based Negative Sampling):)

机器学习的基础知识

累计概率分布、概率分布函数(概率质量函数、概率密度函数)、度量空间、负采样(Negative Sampling)

累计概率分布

累计概率分布是指离散随机变量或连续随机变量的概率分布函数(Probability Distribution Function,简称PDF)在某个取值点之前的概率之和。

对于离散随机变量,累计概率分布函数(Cumulative Distribution Function,简称CDF)定义为在该点之前所有概率质量函数(Probability Mass Function,简称PMF)值的累加和。

对于连续随机变量,累计概率分布函数定义为在该点之前的概率密度函数(Probability Density Function,简称PDF)的积分。

以离散随机变量为例,设随机变量X具有概率质量函数P(X = x),则其累计概率分布函数F(x)定义为:

F(x) = P(X ≤ x) = ΣP(X = x')

其中,x'为所有小于或等于x的可能取值。

以连续随机变量为例,设随机变量X具有概率密度函数f(x),则其累计概率分布函数F(x)定义为:

F(x) = P(X ≤ x) = ∫f(t)dt,积分从负无穷到x

累计概率分布函数提供了随机变量小于或等于某个特定值的概率。在统计学和概率论中,累计概率分布函数常用于计算随机变量的分位数、概率计算以及随机变量之间的比较等任务。

值得注意的是,累计概率分布函数的取值范围在[0, 1]之间,并且具有单调递增的性质。

概率分布函数

概率分布函数(Probability Distribution Function,简称PDF)是描述随机变量取值与其概率之间关系的函数。对于离散型随机变量,概率分布函数也被称为概率质量函数(Probability Mass Function,简称PMF)。对于连续型随机变量,概率分布函数也被称为概率密度函数(Probability Density Function,简称PDF)。

离散型随机变量的概率质量函数(PMF):

对于离散型随机变量X,其概率质量函数P(X = x)给出了X取特定值x的概率。概率质量函数满足以下性质:

非负性:P(X = x) ≥ 0

归一性:∑P(X = x) = 1,求和范围覆盖了所有可能的取值

连续型随机变量的概率密度函数(PDF):

对于连续型随机变量X,其概率密度函数f(x)描述了X落在某个区间内的概率密度。概率密度函数满足以下性质:

非负性:f(x) ≥ 0

归一性:∫f(x)dx = 1,积分范围覆盖了所有可能的取值

概率分布函数是概率质量函数(PMF)或概率密度函数(PDF)的累积函数。对于离散型随机变量,概率分布函数F(x)定义为X小于或等于x的概率之和。对于连续型随机变量,概率分布函数F(x)定义为X小于或等于x的概率密度之积分。

概率分布函数的性质:

非负性:概率分布函数的值始终非负,即F(x) ≥ 0。

单调性:概率分布函数是单调非减函数,即如果x1 ≤ x2,则F(x1) ≤ F(x2)。

归一性:概率分布函数在整个取值空间上的值范围是[0, 1],即F(-∞) = 0,F(+∞) = 1。

概率分布函数在统计学和概率论中起到重要的作用,可以用于计算随机变量的概率、期望、方差以及进行随机变量之间的比较等任务。常见的概率分布函数包括正态分布、均匀分布、二项分布、泊松分布等。

度量空间

度量空间(Metric Space)是数学中的一个概念,用于描述具有度量(Metric)的空间。度量是一种用于衡量空间中两个元素之间距离的函数。

在一个度量空间中,我们有一个集合X以及一个定义在X上的度量函数d,满足以下条件:

python 复制代码
非负性:对于任意的x, y ∈ X,有d(x, y) ≥ 0,并且当且仅当x = y时,d(x, y) = 0。
对称性:对于任意的x, y ∈ X,有d(x, y) = d(y, x)。
三角不等式:对于任意的x, y, z ∈ X,有d(x, z) ≤ d(x, y) + d(y, z)。

度量空间中的度量函数可以理解为表示元素之间距离的度量方式。它可以是实数值的距离,也可以是其他形式的度量,如欧氏距离、曼哈顿距离等。度量函数的定义使我们能够在度量空间中进行距离的比较和分析。

度量空间的例子包括欧几里得空间(Euclidean Space)和离散度量空间。在欧几里得空间中,度量函数是欧氏距离,用于测量点之间的直线距离。在离散度量空间中,度量函数可以是汉明距离、编辑距离等,用于度量离散对象之间的差异。

度量空间的概念在数学、计算机科学和物理学等领域中有广泛的应用。它为我们提供了一种形式化的框架,用于研究和分析空间中的距离、连续性、收敛性等性质。

负采样(Negative Sampling)

负采样(Negative Sampling,负样本的采样方式)是一种用于优化训练过程的技术,常用于词嵌入模型(如Word2Vec)等自然语言处理任务中。负采样通过减少训练样本的数量和计算复杂度,提高了训练效率,同时仍能保持模型的性能。

在传统的词嵌入模型中,目标是学习每个单词的词向量表示,使得具有相似上下文的单词在向量空间中的距离更近。传统的训练过程中,需要对每个训练样本计算softmax概率分布,这对于大规模语料库来说计算量很大。

负采样通过将训练样本中的正例(目标单词及其上下文)与负例(目标单词与随机选择的其他单词)进行区分,从而减少了计算量。具体来说,对于每个训练样本,负采样会随机选择一些负例,数量通常远小于语料库中的所有单词,并将它们作为负样本,而不再考虑其他单词。

负采样的目标是调整模型参数,使得正例的得分高于负例的得分,从而更好地区分正例和负例。一种常见的负采样方法是使用二元逻辑回归模型,将目标单词与上下文的词向量作为输入,通过sigmoid函数将其转化为概率。正例的标签为1,负例的标签为0,模型的目标是最大化正例的概率、最小化负例的概率。

负采样的优点是能够降低计算复杂度,加快训练速度。此外,负采样还有助于将模型更专注于区分目标单词和上下文,提高了模型的性能。但是,负采样也引入了一定的偏差,因为负例是随机选择的,并不能保证完全涵盖语料库中的所有负例。

需要注意的是,负采样在不同任务和模型中的具体实现方式会有所不同。具体的选择和调整负采样的数量、采样策略等,需要根据实际情况和任务需求进行调整和优化。

除了二元逻辑回归模型,还有其他几种常用的负采样方式,下面列举其中两种。

基于分布的负采样(Distribution-based Negative Sampling):

这种负采样方式基于单词的频率分布来选择负例。具体步骤如下:

统计每个单词在语料库中的出现频次,并计算每个单词出现的概率。

根据单词的概率分布,随机选择负例。常用的选择方法是使用单词的概率分布的幂次进行采样,即根据频次的幂次对单词进行采样,出现频次较高的单词被选择为负例的概率较低,频次较低的单词被选择为负例的概率较高。

基于近邻的负采样(Neighbor-based Negative Sampling):

这种负采样方式基于单词的上下文关系来选择负例。具体步骤如下:

对于每个训练样本中的目标单词,选取其真实上下文单词。

对于每个上下文单词,从其上下文窗口中选择一部分单词作为负例。这些负例单词可以是随机选择的,也可以根据一定的概率分布进行选择。

这些负采样方式的选择取决于具体的任务和模型。不同的负采样方式可能适用于不同的应用场景,并且可能会对模型的性能产生不同的影响。因此,在实际应用中,可以尝试不同的负采样方式,并进行实验和比较,选择最适合的方式。

相关推荐
CM莫问10 小时前
详解机器学习中的马尔可夫链
人工智能·算法·机器学习·概率论·马尔可夫·马尔科夫
做cv的小昊13 小时前
【TJU】研究生应用统计学课程笔记(4)——第二章 参数估计(2.1 矩估计和极大似然估计、2.2估计量的优良性原则)
人工智能·笔记·考研·数学建模·数据分析·excel·概率论
朱阿朱2 天前
机器学习数学基础
人工智能·机器学习·概率论·高数
做cv的小昊2 天前
【TJU】研究生应用统计学课程笔记(2)——第一章 数理统计的基本知识(1.3 统计中常用的分布族)
笔记·线性代数·数学建模·矩阵·概率论·学习方法·抽象代数
做cv的小昊3 天前
【TJU】研究生应用统计学课程笔记(3)——第一章 数理统计的基本知识(1.4 正态总体的样本均值和样本方差的分布、1.5 充分统计量和完备统计量)
笔记·学习·线性代数·机器学习·数学建模·概率论
the sun343 天前
概率论:事件与概率的深度剖析
概率论
Chen--Xing7 天前
密码杂凑函数 -- 生日攻击
概率论·hash·生日攻击·crypto·杂凑函数
做cv的小昊11 天前
【TJU】研究生应用统计学课程笔记(1)——第一章 数理统计的基本知识(1.1 数理统计的基本内容、1.2 数理统计的基本概念)
笔记·线性代数·考研·数学建模·ai·矩阵·概率论
做cv的小昊11 天前
【TJU】应用统计学——第五周作业(3.1 假设检验的基本思想、3.2 单个正态总体参数的假设检验)
学习·线性代数·机器学习·数学建模·矩阵·概率论·tju
炼金士14 天前
大模型、运筹优化、概率论与控制论在港口物流智能调度中的融合应用(挑战与未来研究报告)
人工智能·概率论·集装箱码头