机器学习(二) -- 数据预处理

系列文章目录

未完待续......


目录

系列文章目录

前言

一、数值分析简介

二、内容


前言

tips:这里只是总结,不是教程哈。

此处以下所有内容均为暂定,因为我还没找到一个好的,让小白(我自己)也能容易理解(更系统、嗯应该是宏观)的讲解顺序与方式。

第一文主要简述了一下机器学习大致有哪些东西(当然远远不止这些),对大体框架有了一定了解。接着我们根据机器学习的流程一步步来学习吧,掐掉其他不太用得上我们的步骤,精练起来就4步(数据预处理,特征工程,训练模型,模型评估),其中训练模型则是我们的重头戏,基本上所有算法也都是这一步,so,这个最后写,先把其他三个讲了,然后,在结合这三步来进行算法的学习,兴许会好点(个人拙见)。


一、概述

还是先拿出咱们的老朋友,机器学习的流程图。

咱们这主要将数据预处理,而要进行机器学习首先需要数据,然后才能对数据进行预处理。

实际一点讲:数据清理、数据集成、数据变换、数据规约都是数据预处理的主要步骤,但是这四个没有严格意义上的先后顺序,在实际应用时并非全部会被使用(可能一个也不用,比如后面我们直接调用官方的iris包,但在实际自己获得的数据集中就会有各种各样的问题,视情况而定)

二、数据获取

获取数据途径多种多样,(括号内为废话:按理来讲,当今世界数据就是财富,一般而言别人的数据是不可能透露给你的,如果你和我一样还是个学生,可能可以从老师那里拿到数据),我们学习一般使用的是公开的数据集,如下为sklearn数据集

(iris为例)

python 复制代码
from sklearn.datasets import load_iris
data = load_iris()

这样就获取到一个数据集了,但是我们还不知道这个数据集的其他性质,所以

python 复制代码
print(data.DESCR)    # 

三、【数据清洗】

四、【数据集成】

获取数据途径多种多样

五、【数据变换】

获取数据途径多种多样

六、【数据归约】

获取数据途径多种多样

七、数据拆分

数据拆分:机器学习的数据集划分一般分为两个部分:

训练数据:用于训练,构建模型。一般占70%-80%(数据量越大,取得比例最好越大)

测试数据:用于模型评估,检验模型是否有效。一般占20%-30%

1、近似值

该处使用的url网络请求的数据。

2、内容

该处使用的url网络请求的数据。

3、思维方式

该处使用的url网络请求的数据。

4、根本课题

该处使用的url网络请求的数据。

1.1、嗡嗡嗡

嗡嗡嗡

1.2、十五万

嗡嗡嗡

相关推荐
有梦想的牛牛13 小时前
GPT-6 能力畅想:当 AI 跨越“理解”走向“共生”
人工智能·gpt
米猴设计师13 小时前
PS电商详情页高效制作:Nano Banana一键生成电商高转化套图(附实操教程)
大数据·图像处理·人工智能·ai·aigc·startai·banana修图
落羽的落羽13 小时前
【Linux系统】深入线程:多线程的互斥与同步原理,封装实现两种生产者消费者模型
java·linux·运维·服务器·c++·人工智能·python
财经资讯数据_灵砚智能13 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月17日
人工智能·python·信息可视化·自然语言处理·ai编程
人工智能AI技术13 小时前
批量归一化基础:让模型训练更稳定
人工智能
PNP Robotics13 小时前
集智联机器人(PNP)亮相第三届中国具身智能大会,以“双臂+遥操作“多维方案定义具身交互新范式
大数据·人工智能·python·深度学习·机器人
电子科技圈15 小时前
SmartDV展示完整的边缘与连接IP解决方案,以高速和低功耗特性赋能移动、物联网和媒体处理设备创新
人工智能·嵌入式硬件·mcu·物联网·智能家居·智能硬件·iot
Rubin智造社15 小时前
04月17日AI每日参考:Claude Opus 4.7正式发布,智元机器人大会今日开幕
大数据·人工智能·机器学习·claude code·智元机器人·deepseek v4·claude opus 4.7
Raink老师1 天前
【AI面试临阵磨枪】详细解释 Transformer 架构的核心组件与工作流程。
人工智能·深度学习·transformer·ai 面试·ai 应用开发