机器学习概述

一，机器学习概述

1.机器学习概念

新的数据---＞输入--->训练---＞预测--->未知数据

人工智能＞机器学习>深度学习

2.涉及学科:微积分（偏导数，向量---值函数，方向梯度），概率论（bayes定理，组合学，抽样方法），计算科学，凸分析，算法复杂度

3.机器学习发展史
1950（阿兰.图灵创造了"图灵测试"）---＞1957（Frank Rosenblat设计出第一个计算机神经网络感知机）---＞1981（Geral Dejong提出基于解释的学习）---＞1990年代机器学习的方法从知识驱动转为数据驱动---＞2016年谷歌的人工智能算法打败围棋专业选手

4.机器学习应用场景

属性预测，价值评估，客户分层，异常检测，疾病检测，风险管控，个性化推荐，垃圾信息识别，智能排序，等级评分，流失预警，文本识别，图像识别，量化交易分析，用户画像，路径优化，店铺选址，资源优化，作诗作歌词，恶意软件识别，精准营销，智能投顾，搜索优化，诈骗检测，关联匹配等

二，机器学习的分类

1.机器学习算法划分
监督学习:分类，回归，排序，匹配学习
半监督学习:Transductive SVM,协同训练
非监督学习:聚类，关联
强化学习:PPO,A2C/A3C

2.机器学习一般过程

数据采集---＞数据处理---＞选择建模算法---＞结果实施

3.无监督有监督概念
无监督:是指在未加标签的数据中，根据数据本身质检的属性对数据进行分类，相似相近的数据分为同一类，不相相似或不相近的数据分在不同的类中
有监督:通过已知数据以及其对应的输出来训练，得到耦合最优模型，再利用这个模型将所有新的数据样本映射为应用的输出结果，对输出结果进行简单的判断从而实现分类。

4.有监督常见算法

K-Means,K-Mediods,DBSCAN,Aprior,FP-Growth

三，机器学习术语与概念

数据集:训练集，验证集，测试集:训练模型的数据集合
样本，示例:行Record一个事件或对象
属性，特征:列feature性质
样本空间:属性成长空间
训练数据，训练样本:模型训练
学习，训练:从数据集中学得模型的过程
模型，学习器:训练后的结果
模型评价:评估模型性能优差过程
目标函数:算法学习后得到的参数，阈值，比例等构成的函数
损失函数，代价函数:评估原始数据与预测数据差距的函数评估模型效果
泛化能力:机器学习的目标是使得学的模型能够很好地适用于新的样本，而不是仅仅在训练样本上工* * 作的很好，学得的模型适用于新样本的能力称之为泛化能力
误差:学习到的模型在样本上的预测结果与样本的真实结果之间的差。
训练误差:在训练集上
泛化误差:在新样本上
过拟合,欠拟合: