机器学习笔记-01

一...AI(人工智能)

二.机器学习--是人工智能实现的途径

三.深度学习--是机器学习的一个方法

1.机器学习能做什么:
1.1 传统预测
1.2 图像识别
1.3 自然语言处理(nlp)

2.数据集包含:特征值 + 目标值

3.机器学习分为:监督学习 、非监督学习、半监督学习

4.机器学习开发流程:
4.1 获取数据
4.2 处理数据
4.3 特征工程
4.4 算法模型-- 模型
4.5 模型评估
4.6 应用

基础书籍:机器学习 -"西瓜书"- 周志华 统计学习方法 - 李航 深度学习 - "花书"

5.数据集:

5.1.sklearn

sklearn.datasets
load_ * 获取小规模的数据集 sklearn.datasets.load_iris()
fetch_ * 获取大规模的数据集

sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')

数据集的返回值

datasets.base.Bunch(继承自字典)

dict["key"] = values

bunch.key = values

5.2.kaggle

5.3.UCI

5.4数据集的划分:

训练集:用于训练,构建模型

测试集:在模型检验时使用,用于评估模型是否有效,20%~30%

sklearn.model_selection.triain_test_split(arrays, *options)
训练集特征值,训练集目标值,测试集特征值,测试集目标值

x_train,x_test,y_train,y_test

6.特征的提取

sklearn.feature_extraction

6.1 字典特征提取 - 类别--》one-hot 编码

sklearn.feature_extraction.DictVectorizer(sparse=True,...)

矩阵 matrix 二维数组

向量 vector 一维数组

6.2 文本特征提取

单词 作为 特征

句子、短语、单词、字母

特征:特征词
方法1:CountVectorizer

统计每个样本特征词出现的个数

stop_words停用的

停用词表

关键词:在某一个类别的文章中,出现的次数很多,但是在其他类别的文章当中出现很少
方法2:TfidfVectorizer

TF-IDF - 重要程度

TF - 词频(term frequency,tf)

IDF - 逆向文档频率

6.3 特征预处理

无量纲化

归一化:会有异常值影响大小

标准化:(x - mean) / std

标准差:集中程度

应用场景:在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

  1. 特征降维
    7.1降低维度
    维数:嵌套的层数
    0维 标量
    1维 向量
    2维 矩阵
    3维
    n维
    二维数组:
    此处的降维:降低特征个数
    效果:消除特征与特征之间的相关性

主成分分析(PCA)

sklearn.decomposition.PCA(n_components=None)

n_components

小数 表示保留百分之多少的信息

整数 减少到多少特征

相关推荐
一个小番茄10 分钟前
# AI武装大脑:技术管理者如何用人工智能重构认知与决策系统
人工智能·重构
楼台的春风10 分钟前
【Linux驱动开发 ---- 2.1_深入理解 Linux 内核架构】
linux·c++·人工智能·驱动开发·嵌入式硬件·ubuntu·架构
ruanjiananquan9916 分钟前
辩证视角下 “辫子戏” 的文化反思与价值重构
笔记
VI8664956I261 小时前
AEO:从搜索引擎到答案引擎,AI时代搜索优化的新战场
人工智能·搜索引擎
蒙奇D索大1 小时前
【数据结构】图论实战:DAG空间压缩术——42%存储优化实战解析
数据结构·笔记·学习·考研·图论·改行学it
国际云,接待1 小时前
从CentOS迁移到TencentOS:9%成功率的一键替换实操
服务器·网络·人工智能·腾讯云
^可乐1 小时前
中控ST语言笔记
笔记
西岭千秋雪_2 小时前
计算机网络学习笔记:TCP流控、拥塞控制
网络·笔记·学习·tcp/ip·计算机网络
CSTechEi2 小时前
【IEEE/EI/Scopus检索】2025年第五届机器学习与大数据管理国际会议 (MLBDM 2025)
大数据·人工智能·机器学习·大数据管理·ei学术会议
要努力啊啊啊2 小时前
YOLOv5 模型结构详解
人工智能·深度学习·yolo·计算机视觉·目标跟踪