【机器学习】基础知识

目录

基础知识

数据科学研究有4个主要步骤

数据准备

数据科学就是关于数据的科学。如果数据的质量差,那么分析得再精确也只能得到平淡无奇的结果。

数据格式

表格 是最常用的数据表示形式。表格中的每一行就是一个数据点,代表一个观测结果;每一列是一个变量,用来描述数据点。变量也叫做属性、特征或维度。

变量类型

变量主要有4类,正确区分他们对于算法选择合适的变量至关重要

标量类型 描述
二值变量 最简单的变量类型,它只有两种可能的值。在上述表中,"是否买鱼"就是二值变量
分类变量 当某信息可以取两个以上的值时,便可以使用分类变量来表示它
整形变量 这种变量用来表述可以使用整数表示的信息
连续变量 这是最惊喜的变量,用来表述小数

变量选择

原始数据集可能包含许多变量。往一个算法中放入过多变量,可能导致计算速度变慢,或者因干扰过多而产生错误的预测结果。因此,需要从众多变量中选择出哪些与研究目标密切相关的变量,这个过程就是变量的选择。

特征工程

有时候,需要做一些处理才能获得最佳变量。例如,如果要预测表中哪些动物顾客不会买鱼,可以通过查看"顾客类别"获知,兔子、马和长颈鹿不会买鱼。不过,如果以食草动物、杂食动物和食肉动物这3大类别划分表中的动物顾客,将得到更广义的结论:食草动物不吃鱼。

除了对单个变量进行重新编码之外,还可以合并多个变量,这个技巧叫做降维。降维可以提取最有用的信息,从而获得更精简的变量集,以供进一步分析。

缺失数据

方法 描述
近似 如果缺失值所属类别为二值变量或分类变量,那么可以是同该变量的众数来替换它。若缺失值属于整型变量或者连续变量 ,则可以使用中位数来替换它
计算 对于缺失值,还可以使用更高级的监督学习算法来将它计算出来
移除 尽量不要这样做

选择算法

各种算法以及其对应的任务类型

无监督学习

  • 任务目标:指出数据中隐藏的模式
    当希望找到数据集中隐藏的模式时,可以使用k均值聚类、主成分分析、关联规则、社会网络分析等无监督学习算法。之所以称之为无监督学习算法,是因为我们不知道要找的模式是什么,而是依靠算法从数据集中发现模式。

监督学习

  • 任务目标:使用数据中的模式做预测
    当需要做预测时,就会用到回归分析,k最近邻、支持向量机、决策树、随机森林、神经网络等见多学习算法。

强化学习

  • 任务目标:使用数据中的模式做预测,并根据越来越多的反馈结果不断改进

无监督学习模型和监督学习模型在部署之后便无法更改。不同于此,强化学习模型自身可以通过反馈结果不断改进。

参数调优

比较一个算法在不同参数作用下的预测结果

  • 过拟合:算法过度敏感,他将数据中的随机波动错误地当成持久模式;过拟合模型对党前数据有着很高的预测准确性,但是对未知数据预测准确度较差,也就是说,过拟合模型的泛化能力不强
  • 欠拟合:算法过于愚钝,他忽视了数据中的基本模式;欠拟合模型很可能会忽视数据中的重要趋势,这回导致模型对当前数据和未知数据的预测准确度下降
  • 理想拟合:参数调整恰好合适,算法就能在识别主要趋势和忽略微小变化之间找到平衡,使最终得到的模型非常适合做预测。

对于大多数模型而言,过拟合是常见问题。为了最大限制地减少预测误差,可能会增加预测模型的复杂度,从而导致出现过拟合结果,即预测边界过度复杂。

**控制模型整体复杂度的一种方法是,通过正则化引入惩罚参数。**这个新参数会通过认为增大预测误差,对模型复杂度的增加进行惩罚,从而使算法同时考虑复杂度和准确度,使模型保持简单有助于提高模型的泛化能力。

评价模型

  • 分类指标:

  • 回归指标

    由于回归预测使用连续值,因此误差一般量化成预测值和实际值之差,惩罚随误差大小而不同。均方根误差是一个常用的回归指标,尤其可用于避免较大的误差:因为每个误差都取了平方,所以大误差就会被放大。这使得均方根误差对异常值极其敏感,对这些值的惩罚力度也比较大。

  • 验证

    验证是指评估模型对新数据的预测准确度。然而,在评估模型时,并不一定非要使用新数据,而是可以把当前的数据集划分为两个部分一部分训练集,用于生成和调整预测模型;另一部分是测试集,用来充当新数据并评估模型预测的准确性 。交叉验证最大限制地利用了可用的数据,他把数据集划分成若干组,用来对模型进行反复测试。

    数据集的交叉验证过程。数据集被划分成4组,模型最终的预测准确度是4个结果的平均值

相关推荐
2501_920953862 小时前
工业4.0时代,制造企业精益管理咨询的标准化实施步骤
大数据·人工智能·制造
~央千澈~2 小时前
《2026鸿蒙NEXT纯血开发与AI辅助》第四章 对鸿蒙next项目结构目录详解以及实战解决一个最初的依赖安装的报错·卓伊凡
人工智能
xinlianyq2 小时前
2026企业流量破局:四大主流短视频矩阵获客系统深度解析与选型指南
人工智能·矩阵
机器学习之心2 小时前
NRBO-SVM分类预测+特征贡献SHAP分析+特征依赖图!机器学习可解释分析,Matlab代码实现
机器学习·支持向量机·分类·shap分析·nrbo-svm分类预测
workflower3 小时前
用硬件换时间”与“用算法降成本”之间的博弈
人工智能·算法·安全·集成测试·无人机·ai编程
Cx330❀4 小时前
一文吃透Linux System V共享内存:原理+实操+避坑指南
大数据·linux·运维·服务器·人工智能
OPHKVPS4 小时前
Anthropic 为 Claude Code 推出“自动模式”:AI 编码工具迈向更高自主性
网络·人工智能·安全·ai
Allen_LVyingbo4 小时前
斯坦福HAI官网完整版《2025 AI Index Report》全面解读
人工智能·数学建模·开源·云计算·知识图谱
金融小师妹4 小时前
基于AI通胀预期建模与能源冲击传导机制的政策分析:高频信号下的风险再评估
人工智能·svn·能源
胡摩西4 小时前
当大模型遇上毫米级定位:机器人将拥有“空间思维”?
人工智能·机器人·slam·gps·室内定位·roomaps