【数据挖掘】学习笔记

文章目录


< 数据预处理 >

  • 聚集:多个样本或特征进行合并(减少样本规模、转换标度、更稳定)
  • 抽样:抽取一部分样本
  • 降维:在地位空间中表示样本(PCA、SVD)
  • 特征选择:选取重要特征(Lasso)
  • 特征创建:重新构建有用特征(Fouter转换)
  • 离散化
    • 将连续属性转换为离散属性的过程
    • 常用于分类
  • 二元化
    • 将连续或类别属性映射到一个或多个二值变量
    • 关联分析
    • 将连续属性转换为类别属性,将类别属性转换为一组二值变量
  • 变量变换
    • 将给定属性的值转换
    • 线性变换方法(简单函数)
  • 规范化
    • 最小-最大规范化(归一化)
    • z-score规范化(零均值规范化)
    • 小数定标规范化

< sklearn 机器学习平台 >

MLlib学习库:

  • 涵盖算法:分类算法、聚类算法、回归算法、降维算法
  • Scikit-learn 主要用法:
    • 符号标记:训练数据、训练集标签、测试数据、测试集标签、完整数据、标签数据
    • 数据划分:
      • train_test_split(x,y,random)
      • shuffle = True
    • 数据预处理
    • 监督学习算法(分类、
      • 逻辑回归
      • 支持向量机
      • 朴素贝叶斯
相关推荐
scdifsn29 分钟前
动手学深度学习12.7. 参数服务器-笔记&练习(PyTorch)
pytorch·笔记·深度学习·分布式计算·数据并行·参数服务器
恰薯条的屑海鸥1 小时前
零基础在实践中学习网络安全-皮卡丘靶场(第十六期-SSRF模块)
数据库·学习·安全·web安全·渗透测试·网络安全学习
喜欢吃燃面1 小时前
C++刷题:日期模拟(1)
c++·学习·算法
2301_797604242 小时前
学习记录:DAY32
学习
蓝婷儿3 小时前
6个月Python学习计划 Day 16 - 面向对象编程(OOP)基础
开发语言·python·学习
叶子2024223 小时前
学习使用YOLO的predict函数使用
人工智能·学习·yolo
jackson凌3 小时前
【Java学习笔记】SringBuffer类(重点)
java·笔记·学习
火星数据-Tina3 小时前
AI数据分析在体育中的应用:技术与实践
人工智能·数据挖掘·数据分析
huangyuchi.4 小时前
【Linux】LInux下第一个程序:进度条
linux·运维·服务器·笔记·进度条·c/c++
黑客老李5 小时前
JavaSec | SpringAOP 链学习分析
java·运维·服务器·开发语言·学习·apache·memcached