【机器学习】基础知识

目录

基础知识

数据科学研究有4个主要步骤

数据准备

数据科学就是关于数据的科学。如果数据的质量差,那么分析得再精确也只能得到平淡无奇的结果。

数据格式

表格 是最常用的数据表示形式。表格中的每一行就是一个数据点,代表一个观测结果;每一列是一个变量,用来描述数据点。变量也叫做属性、特征或维度。

变量类型

变量主要有4类,正确区分他们对于算法选择合适的变量至关重要

标量类型 描述
二值变量 最简单的变量类型,它只有两种可能的值。在上述表中,"是否买鱼"就是二值变量
分类变量 当某信息可以取两个以上的值时,便可以使用分类变量来表示它
整形变量 这种变量用来表述可以使用整数表示的信息
连续变量 这是最惊喜的变量,用来表述小数

变量选择

原始数据集可能包含许多变量。往一个算法中放入过多变量,可能导致计算速度变慢,或者因干扰过多而产生错误的预测结果。因此,需要从众多变量中选择出哪些与研究目标密切相关的变量,这个过程就是变量的选择。

特征工程

有时候,需要做一些处理才能获得最佳变量。例如,如果要预测表中哪些动物顾客不会买鱼,可以通过查看"顾客类别"获知,兔子、马和长颈鹿不会买鱼。不过,如果以食草动物、杂食动物和食肉动物这3大类别划分表中的动物顾客,将得到更广义的结论:食草动物不吃鱼。

除了对单个变量进行重新编码之外,还可以合并多个变量,这个技巧叫做降维。降维可以提取最有用的信息,从而获得更精简的变量集,以供进一步分析。

缺失数据

方法 描述
近似 如果缺失值所属类别为二值变量或分类变量,那么可以是同该变量的众数来替换它。若缺失值属于整型变量或者连续变量 ,则可以使用中位数来替换它
计算 对于缺失值,还可以使用更高级的监督学习算法来将它计算出来
移除 尽量不要这样做

选择算法

各种算法以及其对应的任务类型

无监督学习

  • 任务目标:指出数据中隐藏的模式
    当希望找到数据集中隐藏的模式时,可以使用k均值聚类、主成分分析、关联规则、社会网络分析等无监督学习算法。之所以称之为无监督学习算法,是因为我们不知道要找的模式是什么,而是依靠算法从数据集中发现模式。

监督学习

  • 任务目标:使用数据中的模式做预测
    当需要做预测时,就会用到回归分析,k最近邻、支持向量机、决策树、随机森林、神经网络等见多学习算法。

强化学习

  • 任务目标:使用数据中的模式做预测,并根据越来越多的反馈结果不断改进

无监督学习模型和监督学习模型在部署之后便无法更改。不同于此,强化学习模型自身可以通过反馈结果不断改进。

参数调优

比较一个算法在不同参数作用下的预测结果

  • 过拟合:算法过度敏感,他将数据中的随机波动错误地当成持久模式;过拟合模型对党前数据有着很高的预测准确性,但是对未知数据预测准确度较差,也就是说,过拟合模型的泛化能力不强
  • 欠拟合:算法过于愚钝,他忽视了数据中的基本模式;欠拟合模型很可能会忽视数据中的重要趋势,这回导致模型对当前数据和未知数据的预测准确度下降
  • 理想拟合:参数调整恰好合适,算法就能在识别主要趋势和忽略微小变化之间找到平衡,使最终得到的模型非常适合做预测。

对于大多数模型而言,过拟合是常见问题。为了最大限制地减少预测误差,可能会增加预测模型的复杂度,从而导致出现过拟合结果,即预测边界过度复杂。

**控制模型整体复杂度的一种方法是,通过正则化引入惩罚参数。**这个新参数会通过认为增大预测误差,对模型复杂度的增加进行惩罚,从而使算法同时考虑复杂度和准确度,使模型保持简单有助于提高模型的泛化能力。

评价模型

  • 分类指标:

  • 回归指标

    由于回归预测使用连续值,因此误差一般量化成预测值和实际值之差,惩罚随误差大小而不同。均方根误差是一个常用的回归指标,尤其可用于避免较大的误差:因为每个误差都取了平方,所以大误差就会被放大。这使得均方根误差对异常值极其敏感,对这些值的惩罚力度也比较大。

  • 验证

    验证是指评估模型对新数据的预测准确度。然而,在评估模型时,并不一定非要使用新数据,而是可以把当前的数据集划分为两个部分一部分训练集,用于生成和调整预测模型;另一部分是测试集,用来充当新数据并评估模型预测的准确性 。交叉验证最大限制地利用了可用的数据,他把数据集划分成若干组,用来对模型进行反复测试。

    数据集的交叉验证过程。数据集被划分成4组,模型最终的预测准确度是4个结果的平均值

相关推荐
唔皇万睡万万睡22 分钟前
Matlab人脸识别考勤系统【PCA(主成分分析)+ SVM(支持向量机)】
机器学习·支持向量机·matlab
xiangzhihong823 分钟前
Google 决定终止开源 Android项目
人工智能·android-studio
Matrix_1129 分钟前
论文阅读:GS-Blur: A 3D Scene-Based Dataset for Realistic Image Deblurring
论文阅读·人工智能·计算摄影
Fuction.33 分钟前
聚类注意点
人工智能·python·机器学习·kmeans·聚类
穆易青34 分钟前
2025.03.26【基因数据解析】| BackSPIN:高效基因聚类与过滤工具详解
机器学习·数据挖掘·聚类·clustering·genefiltering
xc101141 分钟前
树莓派5从零开发至脱机脚本运行教程——6.实战篇
人工智能·opencv·计算机视觉
WhyNot?44 分钟前
深度学习入门(二):从感知机到神经网络
人工智能·深度学习·神经网络
腾讯安全应急响应中心1 小时前
命悬生死线:当游戏遭遇DDoS围剿,如何用AI破局?
网络·人工智能·游戏·ddos
jamison_11 小时前
文心一言与 DeepSeek 的竞争分析:技术先发优势为何未能转化为市场主导地位?
人工智能·ai·chatgpt·gpt-3·1024程序员节
一只小闪闪1 小时前
langchain4j搭建失物招领系统(四)---实现更新功能
java·人工智能·后端