机器学习学习笔记

人工智能之父:约翰麦卡锡

机器学习之父:约翰塞缪尔

一.机器学习概述

人工智能,机器学习,深度学习

人工智能:是研究智能行为的计算代理的合成和分析的领域,用电脑模拟人脑

给一段文本视频或者文件,预测判断

机器学习:赋予计算机学习能力而不需要明确编程的研究领域

给大量数据集,挑选目标集合

深度学习:也叫深度神经网络,大脑仿生,设计一层层的神经元模拟万事万物

把现实世界中的样本分类,根据不同标签,做成库

机器学习是实现人工智能的一种途径,深度学习是机器学习的一种方法发展而来的

算法的学习方式:1.基于规则:传统if-else变成

2.基于模型:基于模型训练

ai的期望:期望ai像人一样思考,期望ai像人一样理性的思考,期望像人一样行动,期望像人一样理性的行动

ai发展三要素:数据,算法,算力

CPU适合IO密集型任务,GPU适合计算密集型任务,TPU专门针对大型网格训练设计的处理器

样本,特征,标签,训练集,测试集

样本:一行数据就是一个样本,有时也叫记录,多个样本组成数据集

特征:一列数据一个特征,有时也叫属性

标签:模型要预测的那一列数据

数据集一般划分成两部分,比例8:2或者7:3

训练集:用于训练模型的数据集

测试集:用于测试模型的数据集

有监督学习,无监督学习,半监督学习,强化学习

有监督学习:输入数据是由输入特征值和目标值组成,即输入的训练数据是有标签的

数据集需要标注数据的标签和目标值

标签连续则是回归问题,标签不连续则是分类问题

分类方法:计算欧氏距离最短的几个样本对应的标签,通过投票决定结果

无监督学习:输入的数据没有标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本集聚类,以发现结构以及相关关系

通过样本间的相似性对样本聚类,发现事物内部结构及相互关系

半监督学习:专家标注少量数据,利用已经标记的数据训练模型,再通过该模型套用未标记的数据

大幅降低专家标记成本

强化学习:寻找最短路径(最优解)获取最多奖励

四个要素:agent,环境状态,奖励,动作

机器学习建模流程

加载数据:搜集与完成机器学习任务相关的数据集,获取经验数据,图像数据,文本数据

数据预处理:缺失值处理,异常值处理

特征工程:特征提取,特征与处理,特征降维

模型训练:线性回归,逻辑回归,决策树,GBDT

模型评估:回归评测指标,分类评测指标,聚类评测指标

模型预测

特征工程

利用专业背景知识和技巧处理数据,让机器学习算法效果最好

特征提取

原始数据中提取与任务相关的特征,构成特征向量

特征预处理

不同特征对模型影响一致性

归一化处理:(当前值-最小值)/(最大值-最小值)

特征的单位或者大小相差较大,或者某个特征的方差过大,容易影响目标结果,使一些算法无法学习到其他特征

适用于传统精确小数据场景,如果出现异常点,影响最大最小值,则会对结果产生影响

标准化处理:(当前值-平均值)/标准差

适用于大数据集的处理

出现异常点由于有一定的数据量,少量异常点对平均值影响不大

特征降维

将原始数据的维度降低,保证数据的主要信息保留下来

特征选择

选取与任务相关的重要特征集合子集训练模型

特征组合

多个特征合成一个特征

模型拟合问题

拟合:在机器学习领域,用来表示模型对样本点的拟合情况

欠拟合:模型在训练集测试集表现都不好

训练数据不足,模型过于简单

过拟合:模型在训练集表现好,在测试集表现不好

训练数据不足,模型过于复杂,数据不纯

泛化:模型在新数据集上的表现好坏的能力,拟合能力就是泛化能力

奥卡姆剃刀原则:具有两个相同泛化误差的模型,较简单的模型比较复杂的模型更可取

环境搭建

pip install scikit-learn安装数据挖掘和数据分析库,基于python

KNN算法

k近邻算法:如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别

基于样本相似性,如果样本是属于一个任务数据集的,样本距离越近则越相似

k值小会导致过拟合,容易受到异常点影响,模型复杂

k值大会导致欠拟合,容易受到样本均衡问题,模型简单,k为n时,只会按照训练集中最多的类别预测

分类流程:前k个训练样本投票

回归流程:前k个样本平均值

距离计算

欧氏距离:对应维度数值平方和开平方根

切比雪夫距离:对应维度差值的最大值

曼哈顿距离(城市街区距离):对应维度差值的绝对值之和

闵式距离:对应维度差值绝对值的p次方之和开p次根

相关推荐
minglie11 小时前
utf8转utf16
学习
三品吉他手会点灯2 小时前
STM32F103 学习笔记-22-DMA(第1节)-DMA功能框图讲解和DMA初始化结构体讲解
笔记·stm32·单片机·嵌入式硬件·学习
咸甜适中2 小时前
rust语言学习笔记Trait(十一)Deref、DerefMut(解引用)
笔记·学习·rust
ZHANG8023ZHEN2 小时前
Diffusion 数学推理
人工智能·python·机器学习
hj2862512 小时前
Linux存储空间管理完整笔记
linux·运维·笔记
_She0012 小时前
硬件知识 cadence16.6 导入log 的笔记及其他问题
笔记
玄米乌龙茶1233 小时前
思维导图笔记:大模型幻觉问题
笔记
AI小技巧3 小时前
商务英语在线学习哪家好?主流平台深度测评与避坑指南
学习
ZHW_AI课题组3 小时前
基于LDA的Olivetti人脸降维与身份识别
目标检测·机器学习·视觉检测