《零基础入门Spark》学习笔记 Day 11

Spark MLlib

机器学习简介

机器学习是人工智能的核心领域之一,专注于通过数据和算法让计算机系统自动学习并改进性能,而无需显式编程。其核心任务包括分类、回归、聚类、强化学习等,广泛应用于图像识别、自然语言处理、推荐系统等领域。

基于历史数据,机器会根据一定的算法,尝试从历史数据中挖掘并捕捉出一般规律。然后,再把找到的规律应用到新产生的,从而实现新数据上的预测与判断。它是一个计算过程:对于给定的训练数据,选择一种先验的数据分布模型,然后借助优化算法自动地持续调整模型参数,从而让模型不断逼近训练数据的原始分布。

主要类型

监督学习 :通过已标注数据训练模型,预测未知数据的输出。典型算法包括线性回归、支持向量机(SVM)和神经网络。
无监督学习 :从无标注数据中发现隐藏模式,如聚类(K-means)和降维(PCA)。
强化学习:通过与环境交互学习最优策略,如Q-learning和深度强化学习(DQN)。

数据探索

在机器学习领域中,与预测标的相关的属性,统称为"数据特征",而选择有效特征的过程,称为"特征选择"。

具体的探索过程是这样的。首先,我们使用SparkSession的read API,从训练数据文件创建DataFrame,然后调用show与printSchema函数,来观察数据的样本构成与Schema。

数据提取

准备训练样本

模型训练

1、导入相关的模型库,在Spark MLlib中,线性回归模型由LinearRegression类实现

2、创建模型实例,并指定模型训练所需的必要信息

3、调用模型的fit函数,同时提供训练数据集,开始训练

模型效果评估

1、分类任务评估指标

2、回归任务评估指标

3、聚类任务评估指标

4、交叉验证方法

5、模型比较与选择

相关推荐
爱喝水的鱼丶10 分钟前
SAP-ABAP:SAP 简单报表输出开发系列(共6篇) 第四篇:SAP 报表异常处理机制:数据校验与消息提示规范落地
开发语言·数据库·学习·算法·sap·abap
東雪木1 小时前
泛型、反射、注解(Spring 框架核心底层)专属复习笔记
java·windows·笔记·学习·spring
小熊猫程序猿1 小时前
Datawhale Task04 具身智能零基础入门 打卡笔记
笔记
问心无愧05131 小时前
ctf show web入门71
android·前端·笔记
小陈phd2 小时前
多模态大模型学习笔记(四十七)——跨模态融合策略:早融合、中融合与晚融合核心解析
笔记·学习
进击的小头2 小时前
第7篇:MOS 管最全入门:原理、关键参数、选型、驱动与典型应用
经验分享·科技·嵌入式硬件·学习
叶子野格2 小时前
《C语言学习:文件操作》16
c语言·开发语言·c++·学习·visual studio
ZC跨境爬虫2 小时前
SQL学习日志 Day_3 :(SELECT查询语句入门)
数据库·sql·学习·oracle
cmes_love2 小时前
美股和港股的量化笔记-从下载逐笔tick到合成分钟
笔记·区块链
小郑加油3 小时前
一周读懂博弈论:从理性决策到信息博弈_Day2博弈论基础与战略思维
学习·管理学·经济学