机器学习(概述)

1.说明有监督学习和无监督学习的各自的特点及区别

  • 监督学习

  • 有标签

  • 分类:标签值离散

  • 回归:标签值连续

  • ​ 无监督学习

  • 无标签,按照样本的相似性进行聚合

  • 半监督学习

  • 部分有标签,部分无标签

  • 强化学习

2.说明下机器学习的建模流程

  • 获取数据

  • 数据基本处理

  • 特征工程

  • 模型训练

  • 模型评估

3.谈一下你对特征工程的理解

​ 用专业背景知识和技巧处理数据,让机器学习算法效果最好

  • 特征提取

  • 特征预处理

  • 特征降维

  • 特征选择

  • 特征组合

4.说下模型拟合问题及产生的原因

  • 欠拟合:训练集上表现很差、在测试集表现也很差

  • 原因:模型过于简单

  • 过拟合:训练集上表现很好、在测试集表现很差

  • 原因:模型太过于复杂

人工智能(AL)

  • Artificial Intelligence 人工智能

  • AI is the field that studies the synthesis and analysis of computational agents that act intelligently

  • AI is to use computers to analog and instead of human brain

  • 释义 - 仿智; 像人一样机器智能的综合与分析;机器模拟人类

机器学习(ML)

  • Machine Learning 释义:机器学习

  • Field of study that gives computers the ability to learn without being explicitly programmed

  • 释义:让机器自动学习,而不是基于规则的编程(不依赖特定规则编程)

深度学习(DL)

深度学习(DL, Deep Learning) : ,也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物

机器学习发展三要素

  • 数据、算法、算力三要素相互作用,是AI发展的基石
  1. CPU:负责调度任务、计算任务等;主要适合I\O密集型的任务

  2. GPU:更加适合矩阵运算;主要适合计算密集型任务

  3. TPU:Tensor,专门针对神经网络训练设计一款处理器

样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录

特征(feature) :一列数据一个特征,有时也被称为属性

标签/目标(label/target) :模型要预测的那一列数据。

数据集可划分两部分:训练集、测试集 比例:8 : 2,7 : 3

训练集(training set) :用来训练模型(model)的数据集

测试集(testing set):用来测试模型的数据集

有监督学习

  • 定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的

  • 数据集:需要人工标注数据

分类

  • 目标值(标签值)是不连续的

  • 分类种类:二分类、多分类任务、

回归

目标值(标签值)是连续的

无监督学习

  • 定义:输入数据没有被标记,即样本数据类别未知,**没有标签**,根据样本间的相似性,对样本集聚类,以发现事物内部 结构及相互关系。

  • 数据集:不需要标注数据

**无监督学习特点:**

**1** 训练数据无标签

2 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

半监督学习

工作原理:

1 让专家标注少量数据,利用已经标记的数据(也就

是带有类标签)训练出一个模型

2 再利用该模型去套用未标记的数据

3 通过询问领域专家分类结果与模型分类结果做对比,

从而对模型做进一步改善和提高

强化学习

1 强化学习(Reinforcement Learning):机器学习的一个重要分支

2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理:基本原理:通过构建四个要素:agent,环境状态,行动,奖励,

agent根据环境状态进行行动获得最多的累计奖励。。

特征工程

从数据集角度来看: 一列一列的数据为特征。

从模型训练角度来看: 对预测结果有用的属性为特征

特征工程是:利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程

Coming up with features is difficult, time-consuming, requires expert knowledge. "Applied machine learning" is basically feature engineering. "

释义:特征工程是困难、耗时、需要专业知识。应用机器学习基础就是特征工程

【理解】数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

特征提取

从原始数据中提取与任务相关的特征,构成特征向量

对于文本、图片这种非行列形式的数据行列形式转换,

一旦转换成行列形式一列就是特征

特征预处理

特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小

将不同的单位的特征数据转换成同一个范围内

使训练数据中不同特征对模型产生较为一致的影响

特征降维

将原始数据的维度降低,叫做特征降维

会丢失部分信息。降维就需要保证数据的主要信息要保留下来

原始数据会发生变化,不需要了解数据本身是什么含义,它保留了最主要的信息

特征选择

原始数据特征很多,但是对任务相关是其中一个特征集合子集。

从特征中选择出一些重要特征(选择就需要根据一些指标来选择)

特征选择不会改变原来的数据

特征组合

把多个的特征合并成一个特征。

通过加法、乘法等方法将特征值合并

欠拟合:模型在训练集上表现很差、在测试集表现也很差

原因:模型过于简单

过拟合:模型在训练集上表现很好、在测试集表现很差

原因:模型太过于复杂、数据不纯、训练数据太少

泛化:模型在新数据集(非训练数据)上的表现好坏的能力

奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

相关推荐
sonadorje6 分钟前
什么是半正定 (PSD) 矩阵
决策树·机器学习·矩阵
Elastic 中国社区官方博客8 分钟前
Agent Builder,超越聊天框:推出增强型基础设施
大数据·运维·人工智能·elasticsearch·搜索引擎·ai·全文检索
Elastic 中国社区官方博客12 分钟前
使用 Elastic Agent Builder 构建语音 agents
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·语音识别
MM_MS15 分钟前
Halcon图像采集助手、ROI操作和画图、ROI实现区域与轮廓之间的相互转换、区域的交集差集取反
图像处理·人工智能·数码相机·算法·目标检测·计算机视觉·视觉检测
莫非王土也非王臣17 分钟前
网页端的TensorFlow开发实践
人工智能·python·tensorflow
victory043125 分钟前
medicalgpt项目微调准备
人工智能
爱吃肉的鹏36 分钟前
树莓派4B连接无线
人工智能·树莓派
小Tomkk42 分钟前
PyTorch +YOLO + Label Studio + 图像识别 深度学习项目实战 (一)
人工智能·pytorch·yolo
星爷AG I42 分钟前
9-10 运动感知(AGI基础理论)
人工智能·agi
资讯雷达1 小时前
2026年十大外贸ERP软件深度测评与选型白皮书
大数据·人工智能·物联网