《零基础入门Spark》学习笔记 Day 11

talen_hx2962026-04-02 21:51

Spark MLlib

机器学习简介

机器学习是人工智能的核心领域之一，专注于通过数据和算法让计算机系统自动学习并改进性能，而无需显式编程。其核心任务包括分类、回归、聚类、强化学习等，广泛应用于图像识别、自然语言处理、推荐系统等领域。

基于历史数据，机器会根据一定的算法，尝试从历史数据中挖掘并捕捉出一般规律。然后，再把找到的规律应用到新产生的，从而实现新数据上的预测与判断。它是一个计算过程：对于给定的训练数据，选择一种先验的数据分布模型，然后借助优化算法自动地持续调整模型参数，从而让模型不断逼近训练数据的原始分布。

主要类型

监督学习 ：通过已标注数据训练模型，预测未知数据的输出。典型算法包括线性回归、支持向量机（SVM）和神经网络。
无监督学习 ：从无标注数据中发现隐藏模式，如聚类（K-means）和降维（PCA）。
强化学习：通过与环境交互学习最优策略，如Q-learning和深度强化学习（DQN）。

数据探索

在机器学习领域中，与预测标的相关的属性，统称为"数据特征"，而选择有效特征的过程，称为"特征选择"。

具体的探索过程是这样的。首先，我们使用SparkSession的read API，从训练数据文件创建DataFrame，然后调用show与printSchema函数，来观察数据的样本构成与Schema。

数据提取

准备训练样本

模型训练

1、导入相关的模型库，在Spark MLlib中，线性回归模型由LinearRegression类实现

2、创建模型实例，并指定模型训练所需的必要信息

3、调用模型的fit函数，同时提供训练数据集，开始训练

模型效果评估

1、分类任务评估指标

2、回归任务评估指标

3、聚类任务评估指标

4、交叉验证方法

5、模型比较与选择