【人工智能Ⅰ】6-机器学习之分类

6-1 机器学习在人工智能中的地位

学习能力是智能的本质

人工智能 => 机器学习 => 深度学习

什么是机器学习？

baidu：多领域交叉学科（做什么）

wiki：the study of algorithms and mathematical models（怎么做）

人工智能的核心是使计算机具有智能的根本途径

大数据建模分析的理论和方法

依赖的理论和方法：统计学、机器学习、数据挖掘、深度学习

统计学：人工学习特征，人工学习规律

机器学习：人工学习特征，自动学习规律

深度学习：自动学习特征，自动学习规律

实现基础：数据库、数据仓库、分布式存储、并行计算、流式计算、GPU加速...

机器学习历史

神经网络发展3起2落

6-2 机器学习的一般过程

历史数据：训练模型

新数据：输入模型

结果：由模型预测

即，自动学习数据规律，解决分类/回归/聚类等问题

机器学习的实质：寻找函数

6-3 机器学习的基本流程

本质：通过构建数学模型，从数据中学习特征和规律，收获有用的知识

特征：决定数据对象所蕴含的知识的关键属性
规律：将特征表达为目标知识的一种模式，及其参数
学习：从样本数据集计算得到规律的过程

6-4 学习方法分类

根据反馈的不同，学习技术分为：

监督学习（学习有标签数据）（解决分类、回归）
非监督学习（学习无标签数据）（解决聚类）
半监督学习（学习有标签和无标签数据）（海量数据分类）
强化学习（学习无标签但有反馈的数据）（策略推理）

半监督学习案例：图片分类

step1：用有标签图片训练分类器

step2：对无标签的数据进行分类，按照信任度从大到小排序

step3：将信任度最高的图片自动加入标识项

step4：重新训练分类器，重复step2---step4

6-5 完整的及其学习过程实施

1：数据预处理（数据清洗、数据集成、数据采样）

数据完整性、一致性、合法性等

数据采样均衡：（例如二分类问题的正负样本悬殊）

过采样：随机复制少数类
欠采样：随机消除占多数类的样本

数据集拆分：

训练数据集（train）：构建机器学习模型
验证数据集（validation）：辅助构建模型，评估模型并提供无偏估计，进而调整模型参数
测试数据集（test）：评估训练好的最终模型的性能

2：特征工程（特征编码、特征选择、特征降维、规范化）

特征降维：减小特征矩阵，降低计算量和训练时间

规范化：通过归一化等进行规范

3：数据建模（回归问题、分类问题、聚类问题、其他问题）

分类：决策树、贝叶斯、SVM、逻辑回归、集成学习

回归：线性回归、广义线性回归、岭回归、Lasso回归

聚类：K-means、高斯混合聚类、密度聚类、层次聚类

其他：隐马尔可夫模型、LDA主题模型、条件随机场、神经网络、深度学习

4：结果评估（拟合度量、准确率、召回率、F1值、PR曲线等）

欠拟合：学习太少，划分太粗糙
过拟合：学习太多，划分太细致

5：总结

有监督学习（有x有y，y是标签）：分类、回归

无监督学习（有x无y，只有数据没有标签）：聚类、降维

6-6 贝叶斯分类方法

条件概率
P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(A∣B)=P(AB)/P(B)
乘法定理
P ( A B C ) = P ( A ) ∗ P ( B ∣ A ) ∗ P ( C ∣ A B ) P(ABC)=P(A)*P(B|A)*P(C|AB) P(ABC)=P(A)∗P(B∣A)∗P(C∣AB)
全概率公式
P ( A ) = ∑ i = 1 n P ( B ) ∗ P ( A ∣ B i ) P(A)=∑_{i=1}^{n}P(B)*P(A|B_i) P(A)=i=1∑nP(B)∗P(A∣Bi)

分解为若干个简单事件的概率计算问题，利用可加性求出最终的概率结果

贝叶斯公式
P ( B i ∣ A ) = P ( A ∣ B i ) ∗ P ( B i ) / ( ∑ j = 1 n P ( A ∣ B j ) ∗ P ( B j ) ) P(B_i|A)=P(A|B_i)*P(B_i)/(∑_{j=1}^nP(A|B_j)*P(B_j)) P(Bi∣A)=P(A∣Bi)∗P(Bi)/(j=1∑nP(A∣Bj)∗P(Bj))

已知A事件确已发生，求原因B_j所导致的概率（从结果分析原因）

贝叶斯分类
P ( H ∣ X ) = P ( X ∣ H ) ∗ P ( H ) / P ( X ) P(H|X)=P(X|H)*P(H)/P(X) P(H∣X)=P(X∣H)∗P(H)/P(X)

P(H)：先验概率

P(H|X)：后验概率（某个特定条件下具体事物发生的概率）

6-7 朴素贝叶斯分类

工作过程

1：每个数据样本用1个n维特征向量X={x1,...,xn}表示，分别描述对n个属性A1~An样本的n个度量

2：假设有m个类C1~Cm，给定1个未知数据样本X，分类器将预测X属于具有最高后验概率的类

3：根据贝叶斯定理计算，其中P(X)对于所有类为常数，因此只需要计算分子；如果先验概率未知，则假设各类是等概率的

4：给定具有许多属性的样本数据集，为降低计算P(X|Ci)的开销，可做类条件独立的朴素假定，即属性值相互条件独立
P ( A B ) = P ( A ) ∗ P ( B ) P(AB)=P(A)*P(B) P(AB)=P(A)∗P(B)

5：对未知样本X分类，对每个类Ci，计算P(X|Ci)*P(Ci)

优点

可运用于大量数据库，不亚于决策树、神经网络分类算法
方法简单，分类准确率高，速度快，所需估计的参数少，对缺失数据不敏感

缺点

需要知道先验概率
相互独立实际上难以满足