统计学习,也称统计机器学习,什么是学习,如果一个系统能够通过执行某个过程改进它的性能,就说这个系统可以学习。按此定义,统计机器学习,就是计算机系统通过运行数据及统计方法提高系统性能的机器学习。
它以计算机和网络为平台,以数据为研究对象,目的是对数据进行预测与分析。统计学习以方法 为中心,方法构建模型,再应用模型去预测与分析。
-
统计学习建立在计算机和网络之上自不必说。
-
之所以以数据为研究对象,是因为统计学习理论认为,同类数据具有一定的统计规律性。
-
对数据进画行预测与分析有什么价值?它可以让人们获取新的知识,给人们带来新的发现。
-
这里方法是什么,方法是基于数据构建概率统计模型。由监督学习、无监督学习和强化学习等组成。
方法再详细点说就是,从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。所以方法的三要素是:模型、策略、算法。
再具体点就是方法执行的步骤了。
1)关于模型,先得到一个有限的训练数据集合,并确定包含所有可能的模型的假设空间,即模型的集合。关于策略,就是确定模型选择的准则。
2)关于算法,它是实现求解最优模型的算法。
3)通过上述步骤就可以选择最优模型。
4)再利用最优模型对新数据进行预测或分析。