机器学习（一）：机器学习概述

个人主页-爱因斯晨

文章专栏-机器学习

文章目录

- 个人主页-爱因斯晨
- 文章专栏-机器学习
- 一、人工智能三大概念
- - [Artificial Intelligence 人工智能：](#Artificial Intelligence 人工智能：)
  - [Machine Learning 机器学习：](#Machine Learning 机器学习：)
  - 深度学习
  - 三者区别
- 二、机器学习的应用领域和发展史
- 三、机器学习常用术语
- 四、机器学习算法分类
- 五、机器学习建模流程
- 六、特征工程概念入门
- 七、模型拟合问题
- 八、机器学习开发环境

一、人工智能三大概念

Artificial Intelligence 人工智能：

研究智能行为的计算代理的合成和分析的领域。人工智能是用计算机来模拟人脑。

AI的期望：让计算机能模拟人脑，让计算机能理性的思考。让计算机能像人类一样行动，像计算机一样运作。

Machine Learning 机器学习：

赋予计算机学习能力而不需要明确编程的研究领域。

历史数据：经历过的事儿。

模型：找规律，经验

机器学习：先训练，再预测，然后评估

深度学习

也叫深度神经网络，大脑仿生，设计一层一层的神经元模拟万事万物

三者区别

学习方式

基于规则学习：程序员根据经验利用手工的if-else方式进行预测。

有很多问题无法明确的写下规则，此时我们无法使用规则学习的方式来解决这一类问题，比如：图像和语音识别和自然语言处理。

基于模型的学习：从数据中自动学出规律

二、机器学习的应用领域和发展史

应用领域：

计算机视觉CV：对人看到的东西进行理解

自然语言处理：对人交流的东西进行理解

数据挖掘和数据分析：也属于人工智能的范畴

发展史

人工智能之父:约翰麦卡锡

机器学习之父：亚瑟赛缪尔

AI发展的三要素：数据、算法、算力

三、机器学习常用术语

（样本、特征、标签、训练集和测试集）

样本：一行数据就是一个样本，多个样本组成数据集，有时一条样本被叫成一条记录

特征：一列数据一个特征，有时也被称为属性。特征是从数据中抽取出来的，对结果预测有用的信息。

标签/目标：模型要预测的那一列数据。

数据集可划分为：训练集、测试集比例：8：2，7：3

训练集（training set）:用来训练模型（model）的数据集

测试集（testing set）：用来测试模型的数据集

四、机器学习算法分类

（有监督学习、无监督学习、半监督学习、强化学习）

有监督学习：

输入数据是由输入特征值和目标值所组成，即输入的训练数据有标签的，数据集需要标注数据的标签/目标值.

有监督问题分为（分类问题与回归问题）

复制代码

分类问题：
目标值（标签值）是不连续的
分类种类：二分类、多分类
回归问题：
目标值（标签值）是连续的

无监督学习：

输入数据没有被标记，即样本数据类别未知，没有标签，根据样本间的相似性，对样本聚集类，以发现事情内部结构及相互关系。

学习特点：训练数据无标签，根据样本间的相似性对样本集进行聚类，发现事物内部结构及相互关系

半监督学习：

工作原理：

让专家标注少量数据，利用已经标记的数据（也就是带有类标签）训练出一个模型
再利用该模型去套用未标记的数据
通过询问领域专家分类结果与模型分类结果做对比，从而对模型做进一步改善和提高

优势？半监督学习方式可大幅降低标记成本

强化学习：

机器学习的一个重要分支

应用场景：里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

基本原理：通过构建四个要素：agent，环境状态，行动，奖励，agent根据环境状态进行行动获得最多的累计奖励

强化学习=寻求最优解，以便获取最多奖励

五、机器学习建模流程

获取数据-数据基本处理-特征工程-机器学习（模拟训练）-模型评估

有监督学习模型训练和模型预测

六、特征工程概念入门

（特征工程、特征工程子领域）

特征工程：利用专业背景知识和技巧处理数据，让机器学习算法效果最好，这个过程就是特征工程。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

特征提取：从原始数据中提取与任务相关的特征

特征预处理：特征对，模型产生影响：因量纲问题，有些特征对模型影响大、有些影响小

归一化：（当前值-最小值）/（最大值-最小值）

特征降维：将数据原始维度降低

特征选择：原始数据特征很多，与任务相关是其中一个特征集合子集，不会改变原数据

特征组合：把多个的特征合并成一个特征。利用乘法和加法来完成。

七、模型拟合问题

拟合：模型对样本点的拟合情况

欠拟合：模型在训练集上的表现很差，在测试集中的表现也很差

过拟合：模型在训练集中的表现很好，在测试集表现很差

欠拟合产生的原因：模型过于简单

过拟合产生的原因：模型过于复杂，数据不纯，训练数据太少

泛化：模型在新数据集（非训练数据）上的表现按好坏的能力

奥卡姆剃须刀原则：给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取

八、机器学习开发环境

基于py的scikit-learn库

安装方法： pip install scikit-learn