【机器学习】基础知识

基础知识

数据科学研究有4个主要步骤

数据科学就是关于数据的科学。如果数据的质量差，那么分析得再精确也只能得到平淡无奇的结果。

表格是最常用的数据表示形式。表格中的每一行就是一个数据点，代表一个观测结果；每一列是一个变量，用来描述数据点。变量也叫做属性、特征或维度。

变量主要有4类，正确区分他们对于算法选择合适的变量至关重要

标量类型	描述
二值变量	最简单的变量类型，它只有两种可能的值。在上述表中，"是否买鱼"就是二值变量
分类变量	当某信息可以取两个以上的值时，便可以使用分类变量来表示它
整形变量	这种变量用来表述可以使用整数表示的信息
连续变量	这是最惊喜的变量，用来表述小数

原始数据集可能包含许多变量。往一个算法中放入过多变量，可能导致计算速度变慢，或者因干扰过多而产生错误的预测结果。因此，需要从众多变量中选择出哪些与研究目标密切相关的变量，这个过程就是变量的选择。

有时候，需要做一些处理才能获得最佳变量。例如，如果要预测表中哪些动物顾客不会买鱼，可以通过查看"顾客类别"获知，兔子、马和长颈鹿不会买鱼。不过，如果以食草动物、杂食动物和食肉动物这3大类别划分表中的动物顾客，将得到更广义的结论：食草动物不吃鱼。

除了对单个变量进行重新编码之外，还可以合并多个变量，这个技巧叫做降维。降维可以提取最有用的信息，从而获得更精简的变量集，以供进一步分析。

方法	描述
近似	如果缺失值所属类别为二值变量或分类变量，那么可以是同该变量的众数来替换它。若缺失值属于整型变量或者连续变量，则可以使用中位数来替换它
计算	对于缺失值，还可以使用更高级的监督学习算法来将它计算出来
移除	尽量不要这样做

各种算法以及其对应的任务类型

任务目标：指出数据中隐藏的模式
当希望找到数据集中隐藏的模式时，可以使用k均值聚类、主成分分析、关联规则、社会网络分析等无监督学习算法。之所以称之为无监督学习算法，是因为我们不知道要找的模式是什么，而是依靠算法从数据集中发现模式。

无监督学习模型和监督学习模型在部署之后便无法更改。不同于此，强化学习模型自身可以通过反馈结果不断改进。

比较一个算法在不同参数作用下的预测结果

过拟合：算法过度敏感，他将数据中的随机波动错误地当成持久模式；过拟合模型对党前数据有着很高的预测准确性，但是对未知数据预测准确度较差，也就是说，过拟合模型的泛化能力不强
欠拟合：算法过于愚钝，他忽视了数据中的基本模式；欠拟合模型很可能会忽视数据中的重要趋势，这回导致模型对当前数据和未知数据的预测准确度下降
理想拟合：参数调整恰好合适，算法就能在识别主要趋势和忽略微小变化之间找到平衡，使最终得到的模型非常适合做预测。

对于大多数模型而言，过拟合是常见问题。为了最大限制地减少预测误差，可能会增加预测模型的复杂度，从而导致出现过拟合结果，即预测边界过度复杂。

**控制模型整体复杂度的一种方法是，通过正则化引入惩罚参数。**这个新参数会通过认为增大预测误差，对模型复杂度的增加进行惩罚，从而使算法同时考虑复杂度和准确度，使模型保持简单有助于提高模型的泛化能力。

分类指标：
回归指标

由于回归预测使用连续值，因此误差一般量化成预测值和实际值之差，惩罚随误差大小而不同。均方根误差是一个常用的回归指标，尤其可用于避免较大的误差：因为每个误差都取了平方，所以大误差就会被放大。这使得均方根误差对异常值极其敏感，对这些值的惩罚力度也比较大。
验证

验证是指评估模型对新数据的预测准确度。然而，在评估模型时，并不一定非要使用新数据，而是可以把当前的数据集划分为两个部分一部分训练集，用于生成和调整预测模型；另一部分是测试集，用来充当新数据并评估模型预测的准确性。交叉验证最大限制地利用了可用的数据，他把数据集划分成若干组，用来对模型进行反复测试。

数据集的交叉验证过程。数据集被划分成4组，模型最终的预测准确度是4个结果的平均值