【机器学习】基础知识

目录

基础知识

数据科学研究有4个主要步骤

数据准备

数据科学就是关于数据的科学。如果数据的质量差,那么分析得再精确也只能得到平淡无奇的结果。

数据格式

表格 是最常用的数据表示形式。表格中的每一行就是一个数据点,代表一个观测结果;每一列是一个变量,用来描述数据点。变量也叫做属性、特征或维度。

变量类型

变量主要有4类,正确区分他们对于算法选择合适的变量至关重要

标量类型 描述
二值变量 最简单的变量类型,它只有两种可能的值。在上述表中,"是否买鱼"就是二值变量
分类变量 当某信息可以取两个以上的值时,便可以使用分类变量来表示它
整形变量 这种变量用来表述可以使用整数表示的信息
连续变量 这是最惊喜的变量,用来表述小数

变量选择

原始数据集可能包含许多变量。往一个算法中放入过多变量,可能导致计算速度变慢,或者因干扰过多而产生错误的预测结果。因此,需要从众多变量中选择出哪些与研究目标密切相关的变量,这个过程就是变量的选择。

特征工程

有时候,需要做一些处理才能获得最佳变量。例如,如果要预测表中哪些动物顾客不会买鱼,可以通过查看"顾客类别"获知,兔子、马和长颈鹿不会买鱼。不过,如果以食草动物、杂食动物和食肉动物这3大类别划分表中的动物顾客,将得到更广义的结论:食草动物不吃鱼。

除了对单个变量进行重新编码之外,还可以合并多个变量,这个技巧叫做降维。降维可以提取最有用的信息,从而获得更精简的变量集,以供进一步分析。

缺失数据

方法 描述
近似 如果缺失值所属类别为二值变量或分类变量,那么可以是同该变量的众数来替换它。若缺失值属于整型变量或者连续变量 ,则可以使用中位数来替换它
计算 对于缺失值,还可以使用更高级的监督学习算法来将它计算出来
移除 尽量不要这样做

选择算法

各种算法以及其对应的任务类型

无监督学习

  • 任务目标:指出数据中隐藏的模式
    当希望找到数据集中隐藏的模式时,可以使用k均值聚类、主成分分析、关联规则、社会网络分析等无监督学习算法。之所以称之为无监督学习算法,是因为我们不知道要找的模式是什么,而是依靠算法从数据集中发现模式。

监督学习

  • 任务目标:使用数据中的模式做预测
    当需要做预测时,就会用到回归分析,k最近邻、支持向量机、决策树、随机森林、神经网络等见多学习算法。

强化学习

  • 任务目标:使用数据中的模式做预测,并根据越来越多的反馈结果不断改进

无监督学习模型和监督学习模型在部署之后便无法更改。不同于此,强化学习模型自身可以通过反馈结果不断改进。

参数调优

比较一个算法在不同参数作用下的预测结果

  • 过拟合:算法过度敏感,他将数据中的随机波动错误地当成持久模式;过拟合模型对党前数据有着很高的预测准确性,但是对未知数据预测准确度较差,也就是说,过拟合模型的泛化能力不强
  • 欠拟合:算法过于愚钝,他忽视了数据中的基本模式;欠拟合模型很可能会忽视数据中的重要趋势,这回导致模型对当前数据和未知数据的预测准确度下降
  • 理想拟合:参数调整恰好合适,算法就能在识别主要趋势和忽略微小变化之间找到平衡,使最终得到的模型非常适合做预测。

对于大多数模型而言,过拟合是常见问题。为了最大限制地减少预测误差,可能会增加预测模型的复杂度,从而导致出现过拟合结果,即预测边界过度复杂。

**控制模型整体复杂度的一种方法是,通过正则化引入惩罚参数。**这个新参数会通过认为增大预测误差,对模型复杂度的增加进行惩罚,从而使算法同时考虑复杂度和准确度,使模型保持简单有助于提高模型的泛化能力。

评价模型

  • 分类指标:

  • 回归指标

    由于回归预测使用连续值,因此误差一般量化成预测值和实际值之差,惩罚随误差大小而不同。均方根误差是一个常用的回归指标,尤其可用于避免较大的误差:因为每个误差都取了平方,所以大误差就会被放大。这使得均方根误差对异常值极其敏感,对这些值的惩罚力度也比较大。

  • 验证

    验证是指评估模型对新数据的预测准确度。然而,在评估模型时,并不一定非要使用新数据,而是可以把当前的数据集划分为两个部分一部分训练集,用于生成和调整预测模型;另一部分是测试集,用来充当新数据并评估模型预测的准确性 。交叉验证最大限制地利用了可用的数据,他把数据集划分成若干组,用来对模型进行反复测试。

    数据集的交叉验证过程。数据集被划分成4组,模型最终的预测准确度是4个结果的平均值

相关推荐
小牛头#2 小时前
clickhouse 各个引擎适用的场景
大数据·clickhouse·机器学习
杨小扩3 小时前
第4章:实战项目一 打造你的第一个AI知识库问答机器人 (RAG)
人工智能·机器人
whaosoft-1433 小时前
51c~目标检测~合集4
人工智能
雪兽软件3 小时前
2025 年网络安全与人工智能发展趋势
人工智能·安全·web安全
元宇宙时间4 小时前
全球发展币GDEV:从中国出发,走向全球的数字发展合作蓝图
大数据·人工智能·去中心化·区块链
小黄人20254 小时前
自动驾驶安全技术的演进与NVIDIA的创新实践
人工智能·安全·自动驾驶
ZStack开发者社区5 小时前
首批 | 云轴科技ZStack加入施耐德电气技术本地化创新生态
人工智能·科技·云计算
X Y O6 小时前
神经网络初步学习3——数据与损失
人工智能·神经网络·学习
kngines6 小时前
【力扣(LeetCode)】数据挖掘面试题0002:当面对实时数据流时您如何设计和实现机器学习模型?
机器学习·数据挖掘·面试题·实时数据
唯创知音6 小时前
玩具语音方案选型决策OTP vs Flash 的成本功耗与灵活性
人工智能·语音识别