机器学习简答题

1、请简述人工智能和机器学习，深度学习的关系？

机器学习是人工智能的一个实现途径。深度学习是机器学习的一个方法发展而来

监督学习、无监督学习、半监督学习、强化学习

有监督学习是指训练数据中包含了输入和输出的标签信息，目标是通过已知输入和输出来预测新数据的标签。

无监督学习是指训练数据中只有输入特征，没有输出标签，目标是根据数据的内在结构、分布或相似性进行聚类、降维等操作。

具体例子：

假设我们有一组包含房屋面积和销售价格的数据。如果我们要根据已有数据预测新房屋的销售价格，这就是一个有监督学习的问题。而如果我们只有房屋面积的数据，但没有任何关于价格的信息，我们可以使用聚类算法将相似大小的房屋分组，这是一个无监督学习的问题。

机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。

1.获取数据

2.数据基本处理

4.机器学习(模型训练)

5.模型评估

结果达到要求就上线服务，如果没有达到要求，重新上面步骤

线性回归 是利用回归方程 (函数)对一个或多个自变量 (特征值)和因变量 (目标值)之间关系进行建模 的一种分析方式。

特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。

全梯度下降算法，随机梯度下降算法，小批量梯度下降算法，随机平均梯度下降算法。

答：过拟合是指在训练数据上表现很好，但在新数据上表现较差的现象。

防止过拟合的方法包括：

9、欠拟合和过拟合的原因分别有哪些？如何避免？

分析：

欠拟合的原因：模型复杂度过低，不能很好的拟合所有的数据，训练误差大；

避免欠拟合：增加模型复杂度，如采用高阶模型（预测）或者引入更多特征（分类）等。

过拟合的原因：模型复杂度过高，训练数据过少，训练误差小，测试误差大；

避免过拟合：降低模型复杂度，如加上正则惩罚项，如L1，L2，增加训练数据等。

10、简述一下K-means算法的优点和缺点。

优点

1）原理简单（靠近中心点），实现容易。

2）聚类效果中上（依赖K的选择）。

3）空间复杂度o(N)，时间复杂度o(IKN) 。N为样本点个数，K为中心点个数，I为迭代次数。

缺点

1）对离群点，噪声敏感（中心点易偏移）。

2）很难发现大小差别很大的簇及进行增量计算。

3）结果不一定是全局最优，只能保证局部最优（与K的个数及初值选取有关）。