机器学习常用术语

损失函数又叫目标函数，简写为L(x)。这个L(x)的值是假设函数得出的预测结果y，如果L(x)的返回值越大，就表示预测结果与实际偏差越大；如果L(x)的返回值越小，则证明预测值越来越"逼近"真实值，这才是机器学习最终的目的。损失函数就像一个度量尺，让我们知道"假设函数"预测结果的优劣，从而做出相应的优化策略。

"优化方法"可以理解为假设函数和损失函数之间的沟通桥梁。通过L(x)可以得知假设函数输出的预测结果与实际值的偏差值，当该值较大时，就需要做出相应的调整，这个调整的过程叫作"参数优化"。而如何实现优化呢？有梯度下降、牛顿法与拟牛顿法、共轭梯度法等。

7、拟合、过拟合与欠拟合

"拟合 "就是把平面坐标系中一系列散落的点，用一条光滑的曲线连接起来，因此拟合也被称为"曲线拟合"。拟合的曲线一般用函数来表示，但是由于拟合曲线会存在许多种连接方式，因此就会出现多种拟合函数。

过拟合 ，就是模型的泛化能力较差，也就是过拟合的模型在训练样本中表现优越，但是在验证数据以及测试数据集中表现不佳。过拟合问题主要是因为训练时样本过少、特征值过多导致的。

欠拟合 (Underfitting)恰好与过拟合相反，它指的是"曲线"不能很好地"拟合"数据。在训练和测试阶段，欠拟合模型表现均较差 ，无法输出理想的预测结果。造成欠拟合的主要原因是没有选择好合适的特征值。

欠拟合和过拟合是机器学习中会遇到的问题，这两种情况都不是我们期望看到的，因此要避免。

8、激活函数(Activation Function)

激活函数（例如ReLU或Sigmoid）将前一层所有神经元激活值的加权和输入一个非线性函数中，然后向下一层传递该函数的输出值（典型的非线性）。

9、反向传播(Backpropagation)

反向传播算法是神经网络中完成梯度下降 的重要算法。首先，在前向传播的过程中计算每个节点的输出值；然后，在反向传播的过程中计算与每个参数对应的误差的偏导数。

10、基线(Baseline)

基线是指用作比较参考的简单模型，它帮助模型开发者量化模型在特定问题上的预期表现

11、批量(Batch)

批量是指模型训练中一个迭代（指一次梯度更新）所使用的样本集。

12、批量大小(Batch Size)

批量大小指一个批量中样本的数量。批量大小通常在训练与推理的过程中确定，但是TensorFlow框架不允许动态更改批量大小。

13、二元分类器(Binary Classification)

二元分类器输出两个互斥（不相交）类别中的一个。

14、标定层(Calibration Layer)

标定层是一种调整后期预测的结构，通常用于解释预测偏差。调整后的预期和概率必须匹配一个观察标签集的分布。

15、候选采样(Candidate Sampling)

候选采样是一种在训练时进行的优化方法，使用Softmax等算法计算所有正标签的概率，同时只计算一些随机取样的负标签的概率

16、检查点(Checkpoint)

检查点指在特定时刻标记模型变量的状态的数据。检查点允许输出模型的权重，也允许通过多个阶段训练模型。检查点还允许跳过错误继续进行（例如，抢占作业）。注意，模型自身的图式并不包含于检查点内。

17、类别(Class)

所有同类属性的目标值作为一个标签

18、类别不平衡数据集(Class-Imbalanced Data Set)

数据集样本类别极不平衡，一般针对二元分类问题，表示两个类别的标签的分布频率有很大的差异。

19、分类模型(Classification)

机器学习模型的一种，将数据分离为两个或多个离散类别。分类模型与回归模型(Regression Model)成对比。

20、分类阈值(Classification Threshold)

分类阈值指应用于模型的预测分数以分离正类别和负类别的一种标量值标准。当需要将逻辑回归的结果映射到二元分类模型中时，就需要使用分类阈值。

21、混淆矩阵(Confusion Matrix)

混淆矩阵指总结分类模型的预测结果的表现水平（即标签和模型分类的匹配程度）的NN×维表格。混淆矩阵的一个轴列出模型预测的标签，另一个轴列出实际的标签。N表示类别的数量。

22、连续特征(Continuous Feature)

连续特征拥有无限个取值点的浮点特征。和离散特征(Discrete Feature)相反

23、收敛(Convergence)

训练过程达到的某种状态，其中训练损失和验证损失在经过确定的迭代次数后，在每一次迭代中改变很小或完全不变。换句话说，当对当前数据继续训练而无法再提升模型的表现水平的时候，就称模型已经收敛。在深度学习中，损失值在下降之前，有时候经过多次迭代仍保持常量或者接近常量，就会造成模型已经收敛的错觉。

24、凸函数(Convex Function)

一种形状大致呈字母U形或碗形的函数。但是，在退化情形中，凸函数的形状就像一条线

25、交叉熵(Cross-Entropy)

多类别分类问题中对Log损失函数的推广。交叉熵量化两个概率分布之间的区别

26、数据集(Data Set)

样本的集合。

27、决策边界(Decision Boundary)

在一个二元分类或多类别分类问题中，模型学习的类别之间的分离器

28、深度模型(Deep Model)

一种包含多个隐藏层的神经网络。深度模型依赖于其可训练的非线性性质。和宽度模型(Wide Model)对照

29、密集特征(Dense Feature)

大多数取值为非零的一种特征，通常用取浮点值的张量(Tensor)表示。和稀疏特征(Sparse Feature)相反。

30、Dropout正则化(Dropout Regularization)

训练神经网络时一种有用的正则化方法。Dropout正则化的过程是在单次梯度计算中删去一层网络中随机选取的固定数量的单元。删去的单元越多，正则化越强

31、动态模型(Dynamic Model)

动态模型是一种以连续更新的方式在线训练的模型，即数据连续不断地输入模型

32、早期停止法(Early Stopping)

一种正则化方法，在训练损失完成下降之前停止模型训练过程。当验证数据集(Validation Data Set)的损失开始上升的时候，即泛化表现变差的时候，就应该使用早期停止法。

33、嵌入(Embeddings)

一类表示为连续值特征的明确的特征。嵌入通常指将高维向量转换到低维空间中

34、集成(Ensemble)

多个模型预测的综合考虑

35、评估器(Estimator)

评估器是一种封装了各种机器学习模型的工具，是拟合和训练数据的机器学习算法或者其他算法的抽象。

36、样本(Example)

一个数据集的一行内容。一个样本包含了一个或多个特征，也可能是一个标签。标注样本(Labeled Example)和无标注样本(Unlabeled Example)

37、假负类(False Negative，FN)

被模型错误预测为负类的样本。例如，模型推断一封邮件为非垃圾邮件（负类），但实际上这封邮件是垃圾邮件。

38、假正类(False Positive，FP)

被模型错误预测为正类的样本。例如，模型推断一封邮件为垃圾邮件（正类），但实际上这封邮件是非垃圾邮件

39、假正类率(False Positive Rate，FP率)

ROC曲线中的x轴。FP率的计算公式是：假正率=假正类数／（假正类数+真负类数）。

40、特征列(Feature Columns)

具有相关性的特征的集合，例如用户可能居住的所有国家的集合。一个样本的一个特征列中可能会有一个或者多个特征。

41、特征集(Feature Set)

特征集指机器学习模型训练的时候使用的特征群。例如，邮政编码、面积要求和物业状况等，可以组成一个简单的特征集，使模型能预测房价。

42、特征定义(Feature Spec)

特征指的是描述一个实例的属性或特征，也可以称为自变量(independentvariable)或输入变量(input variable)

43、泛化(Generalization)

泛化是指模型利用新的没见过的数据而不是训练数据做出正确预测的能力

44、广义线性模型(Generalized Linear Model)

广义线性模型是线性模型的扩展，通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系

45、梯度(Gradient)

梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线

46、梯度截断(Gradient Clipping)

在应用梯度之前先修饰数值，梯度截断有助于确保数值稳定性，防止梯度爆炸出现。

47、梯度下降(Gradient Descent)

梯度下降通过计算模型的相关参数和损失函数的梯度来最小化损失，值取决于训练数据。梯度下降迭代地调整参量，逐渐靠近权重和偏置的最佳组合，从而最小化损失函数

48、图(Graph)

图是由节点(Node)和边(Edge)组成的一种数据结构，用于描述事物之间的关系。图近来正逐渐变成机器学习的一大核心领域，例如，可以通过图来预测潜在的连接，从而理解社交网络的结构、检测欺诈、理解汽车租赁服务的消费者行为，或者进行实时推荐。