《零基础入门Spark》学习笔记 Day 11

Spark MLlib

机器学习简介

机器学习是人工智能的核心领域之一,专注于通过数据和算法让计算机系统自动学习并改进性能,而无需显式编程。其核心任务包括分类、回归、聚类、强化学习等,广泛应用于图像识别、自然语言处理、推荐系统等领域。

基于历史数据,机器会根据一定的算法,尝试从历史数据中挖掘并捕捉出一般规律。然后,再把找到的规律应用到新产生的,从而实现新数据上的预测与判断。它是一个计算过程:对于给定的训练数据,选择一种先验的数据分布模型,然后借助优化算法自动地持续调整模型参数,从而让模型不断逼近训练数据的原始分布。

主要类型

监督学习 :通过已标注数据训练模型,预测未知数据的输出。典型算法包括线性回归、支持向量机(SVM)和神经网络。
无监督学习 :从无标注数据中发现隐藏模式,如聚类(K-means)和降维(PCA)。
强化学习:通过与环境交互学习最优策略,如Q-learning和深度强化学习(DQN)。

数据探索

在机器学习领域中,与预测标的相关的属性,统称为"数据特征",而选择有效特征的过程,称为"特征选择"。

具体的探索过程是这样的。首先,我们使用SparkSession的read API,从训练数据文件创建DataFrame,然后调用show与printSchema函数,来观察数据的样本构成与Schema。

数据提取

准备训练样本

模型训练

1、导入相关的模型库,在Spark MLlib中,线性回归模型由LinearRegression类实现

2、创建模型实例,并指定模型训练所需的必要信息

3、调用模型的fit函数,同时提供训练数据集,开始训练

模型效果评估

1、分类任务评估指标

2、回归任务评估指标

3、聚类任务评估指标

4、交叉验证方法

5、模型比较与选择

相关推荐
Star Learning Python6 分钟前
20260422-《我不擅长的生活》
笔记·生活
Fanfanaas8 分钟前
Linux 系统编程 进程篇(五)
linux·服务器·c语言·网络·学习·进程
Amazing_Cacao14 分钟前
品鉴师体系闭环:拒绝刻板记忆,打磨具备强悍迁移性的底层判断语言
笔记·学习
yi.Ist43 分钟前
2025CCPC郑州邀请赛
c++·学习·算法·acm
HERR_QQ1 小时前
端到端课程自用 2课 动静态感知decoder
笔记·学习·自动驾驶
是上好佳佳佳呀1 小时前
【前端(八)】CSS3 属性值笔记:渐变、自定义字体与字体图标
前端·笔记·css3
Keep Running *1 小时前
Django_学习笔记
笔记·学习·django
今天你TLE了吗1 小时前
LLM到Agent&RAG——AI概念概述 第五章:Skill
人工智能·笔记·后端·学习
不做无法实现的梦~2 小时前
显示屏和显卡驱动问题完整解决教程---ubuntu22.04安装显卡驱动解决显示屏黑屏幕问题
linux·学习
Swilderrr2 小时前
学术研读报告:Mem0 面向生产级 AI 智能体的可扩展长期记忆架构
人工智能·学习