累计概率分布、概率分布函数（概率质量函数、概率密度函数）、度量空间、负采样（Negative Sampling）

这里写自定义目录标题

机器学习的基础知识
- 累计概率分布
- 概率分布函数
- 度量空间
- [负采样（Negative Sampling）](#负采样（Negative Sampling）)
- - [基于分布的负采样（Distribution-based Negative Sampling）：](#基于分布的负采样（Distribution-based Negative Sampling）：)
  - [基于近邻的负采样（Neighbor-based Negative Sampling）：](#基于近邻的负采样（Neighbor-based Negative Sampling）：)

机器学习的基础知识

累计概率分布

累计概率分布是指离散随机变量或连续随机变量的概率分布函数（Probability Distribution Function，简称PDF）在某个取值点之前的概率之和。

对于离散随机变量，累计概率分布函数（Cumulative Distribution Function，简称CDF）定义为在该点之前所有概率质量函数（Probability Mass Function，简称PMF）值的累加和。

对于连续随机变量，累计概率分布函数定义为在该点之前的概率密度函数（Probability Density Function，简称PDF）的积分。

以离散随机变量为例，设随机变量X具有概率质量函数P(X = x)，则其累计概率分布函数F(x)定义为：

F(x) = P(X ≤ x) = ΣP(X = x')

其中，x'为所有小于或等于x的可能取值。

以连续随机变量为例，设随机变量X具有概率密度函数f(x)，则其累计概率分布函数F(x)定义为：

F(x) = P(X ≤ x) = ∫f(t)dt，积分从负无穷到x

累计概率分布函数提供了随机变量小于或等于某个特定值的概率。在统计学和概率论中，累计概率分布函数常用于计算随机变量的分位数、概率计算以及随机变量之间的比较等任务。

值得注意的是，累计概率分布函数的取值范围在 $0, 1$ 之间，并且具有单调递增的性质。

概率分布函数

概率分布函数（Probability Distribution Function，简称PDF）是描述随机变量取值与其概率之间关系的函数。对于离散型随机变量，概率分布函数也被称为概率质量函数（Probability Mass Function，简称PMF）。对于连续型随机变量，概率分布函数也被称为概率密度函数（Probability Density Function，简称PDF）。

离散型随机变量的概率质量函数（PMF）：

对于离散型随机变量X，其概率质量函数P(X = x)给出了X取特定值x的概率。概率质量函数满足以下性质：

非负性：P(X = x) ≥ 0

归一性：∑P(X = x) = 1，求和范围覆盖了所有可能的取值

连续型随机变量的概率密度函数（PDF）：

对于连续型随机变量X，其概率密度函数f(x)描述了X落在某个区间内的概率密度。概率密度函数满足以下性质：

非负性：f(x) ≥ 0

归一性：∫f(x)dx = 1，积分范围覆盖了所有可能的取值

概率分布函数是概率质量函数（PMF）或概率密度函数（PDF）的累积函数。对于离散型随机变量，概率分布函数F(x)定义为X小于或等于x的概率之和。对于连续型随机变量，概率分布函数F(x)定义为X小于或等于x的概率密度之积分。

概率分布函数的性质：

非负性：概率分布函数的值始终非负，即F(x) ≥ 0。

单调性：概率分布函数是单调非减函数，即如果x1 ≤ x2，则F(x1) ≤ F(x2)。

归一性：概率分布函数在整个取值空间上的值范围是 $0, 1$ ，即F(-∞) = 0，F(+∞) = 1。

概率分布函数在统计学和概率论中起到重要的作用，可以用于计算随机变量的概率、期望、方差以及进行随机变量之间的比较等任务。常见的概率分布函数包括正态分布、均匀分布、二项分布、泊松分布等。

度量空间

度量空间（Metric Space）是数学中的一个概念，用于描述具有度量（Metric）的空间。度量是一种用于衡量空间中两个元素之间距离的函数。

在一个度量空间中，我们有一个集合X以及一个定义在X上的度量函数d，满足以下条件：

python 复制代码

非负性：对于任意的x, y ∈ X，有d(x, y) ≥ 0，并且当且仅当x = y时，d(x, y) = 0。
对称性：对于任意的x, y ∈ X，有d(x, y) = d(y, x)。
三角不等式：对于任意的x, y, z ∈ X，有d(x, z) ≤ d(x, y) + d(y, z)。

度量空间中的度量函数可以理解为表示元素之间距离的度量方式。它可以是实数值的距离，也可以是其他形式的度量，如欧氏距离、曼哈顿距离等。度量函数的定义使我们能够在度量空间中进行距离的比较和分析。

度量空间的例子包括欧几里得空间（Euclidean Space）和离散度量空间。在欧几里得空间中，度量函数是欧氏距离，用于测量点之间的直线距离。在离散度量空间中，度量函数可以是汉明距离、编辑距离等，用于度量离散对象之间的差异。

度量空间的概念在数学、计算机科学和物理学等领域中有广泛的应用。它为我们提供了一种形式化的框架，用于研究和分析空间中的距离、连续性、收敛性等性质。

负采样（Negative Sampling）

负采样（Negative Sampling，负样本的采样方式）是一种用于优化训练过程的技术，常用于词嵌入模型（如Word2Vec）等自然语言处理任务中。负采样通过减少训练样本的数量和计算复杂度，提高了训练效率，同时仍能保持模型的性能。

在传统的词嵌入模型中，目标是学习每个单词的词向量表示，使得具有相似上下文的单词在向量空间中的距离更近。传统的训练过程中，需要对每个训练样本计算softmax概率分布，这对于大规模语料库来说计算量很大。

负采样通过将训练样本中的正例（目标单词及其上下文）与负例（目标单词与随机选择的其他单词）进行区分，从而减少了计算量。具体来说，对于每个训练样本，负采样会随机选择一些负例，数量通常远小于语料库中的所有单词，并将它们作为负样本，而不再考虑其他单词。

负采样的目标是调整模型参数，使得正例的得分高于负例的得分，从而更好地区分正例和负例。一种常见的负采样方法是使用二元逻辑回归模型，将目标单词与上下文的词向量作为输入，通过sigmoid函数将其转化为概率。正例的标签为1，负例的标签为0，模型的目标是最大化正例的概率、最小化负例的概率。

负采样的优点是能够降低计算复杂度，加快训练速度。此外，负采样还有助于将模型更专注于区分目标单词和上下文，提高了模型的性能。但是，负采样也引入了一定的偏差，因为负例是随机选择的，并不能保证完全涵盖语料库中的所有负例。

需要注意的是，负采样在不同任务和模型中的具体实现方式会有所不同。具体的选择和调整负采样的数量、采样策略等，需要根据实际情况和任务需求进行调整和优化。

除了二元逻辑回归模型，还有其他几种常用的负采样方式，下面列举其中两种。

基于分布的负采样（Distribution-based Negative Sampling）：

这种负采样方式基于单词的频率分布来选择负例。具体步骤如下：

统计每个单词在语料库中的出现频次，并计算每个单词出现的概率。

根据单词的概率分布，随机选择负例。常用的选择方法是使用单词的概率分布的幂次进行采样，即根据频次的幂次对单词进行采样，出现频次较高的单词被选择为负例的概率较低，频次较低的单词被选择为负例的概率较高。

基于近邻的负采样（Neighbor-based Negative Sampling）：

这种负采样方式基于单词的上下文关系来选择负例。具体步骤如下：

对于每个训练样本中的目标单词，选取其真实上下文单词。

对于每个上下文单词，从其上下文窗口中选择一部分单词作为负例。这些负例单词可以是随机选择的，也可以根据一定的概率分布进行选择。

这些负采样方式的选择取决于具体的任务和模型。不同的负采样方式可能适用于不同的应用场景，并且可能会对模型的性能产生不同的影响。因此，在实际应用中，可以尝试不同的负采样方式，并进行实验和比较，选择最适合的方式。