引言

本人数学功底并不是非常的出色所以其笔记内容有部分借鉴了网络大佬的解释说明

下面进入正题！！！

什么是机器学习

1、解释说明：

机器学习是一种人工智能领域的技术，它使计算机系统能够通过分析和学习数据来自动改进其性能。在机器学习中，算法会从大量数据中学习规律和模式，并根据这些规律对新的数据进行预测或做出决策。机器学习可以分为监督学习、无监督学习、半监督学习和强化学习等类型。

2、使用示例：

在Python中，我们可以使用scikit-learn库来实现机器学习算法。以下是一个简单的线性回归示例：

python 复制代码

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

# 创建数据集
X = np.random.rand(100, 1)
y = 2 * X + 1 + 0.1 * np.random.randn(100, 1)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型
score = model.score(X_test, y_test)
print("模型评分：", score)

3、注意事项：

在进行机器学习时，需要确保数据集的质量和数量，以便算法能够从中学到有效的规律。
选择合适的机器学习算法和参数对于解决问题至关重要。不同的问题可能需要不同的算法和参数设置。
防止过拟合和欠拟合。过拟合是指模型在训练集上表现很好，但在测试集上表现较差；欠拟合是指模型在训练集和测试集上都表现不佳。可以通过交叉验证、正则化等方法来缓解这些问题。
注意模型的解释性和可扩展性。在实际应用中，我们需要理解模型的预测结果，并在需要时对其进行调整和优化。

监督学习

监督学习是已经知道数据的label，例如预测房价问题，给出了房子的面积和价格。

回归问题是预测连续值的输出，例如预测房价。
分类问题是预测离散值输出，例如判断肿瘤是良性还是恶性。

无监督学习

无监督学习是不知道数据具体的含义，比如给定一些数据但不知道它们具体的信息，对于分类问题无监督学习可以得到多个不同的聚类，从而实现预测的功能。

线性回归

线性回归是拟合一条线，将训练数据尽可能分布到线上。另外还有多变量的线性回归称为多元线性回归。

代价函数

cost function，一般使用最小均方差来评估参数的好坏。

梯度下降

梯度下降，首先为每个参数赋一个初值，通过代价函数的梯度，然后不断地调整参数，最终得到一个局部最优解。初值的不同可能会得到两个不同的结果，即梯度下降不一定得到全局最优解。

梯度下降在具体的执行时，每一次更新需要同时更新所有的参数。

梯度下降公式中有两个部分，学习率和偏导数。

偏导数，用来计算当前参数对应代价函数的斜率，导数为正则θ减小，导数为负则θ增大，通过这样的方式可以使整体向θ=0收敛。

α用来描述学习率，即每次参数更新的步长。α的大小不好确定，如果太小则需要很多步才能收敛，如果太大最后可能不会收敛甚至可能发散。

当θ处于局部最优解时，θ的值将不再更新，因为偏导为0。

这也说明了如果学习率α不改变，参数也可能收敛，假设偏导>0> 0>0，因为偏导一直在向在减小，所以每次的步长也会慢慢减小，所以α不需要额外的减小。

单元梯度下降

梯度下降每次更新的都需要进行偏导计算，这个偏导对应线性回归的代价函数。

对代价函数求导的结果为：

梯度下降的过程容易出现局部最优解：

但是线性回归的代价函数，往往是一个凸函数。它总能收敛到全局最优。

梯度下降过程的动图展示：

多元梯度下降

通常问题都会涉及到多个变量，例如房屋价格预测就包括，面积、房间个数、楼层、价格等

因此代价函数就不再只包含一个变量，为了统一可以对常量引入变量x0=1

虽然参数的个数增多，但是对每个参数求偏导时和单个参数类似。

特征缩放

多个变量的度量不同，数字之间相差的大小也不同，如果可以将所有的特征变量缩放到大致相同范围，这样会减少梯度算法的迭代。

特征缩放不一定非要落到[-1，1]之间，只要数据足够接近就可以。

缩放后的还原

学习率

学习率α的大小会影响梯度算法的执行，太大可能会导致算法不收敛，太小会增加迭代的次数。

可以画出每次迭代的J(θ)的变化，来判断当前算法执行的情况，然后选择合适的学习率。（调参开始...）

Batch梯度下降：每一步梯度下降，都需要遍历整个训练集样本。

矩阵和向量

一些数学计算转化为矩阵的形式，可以简化代码书写、提高效率、代码更容易理解。

矩阵乘法不满足交换律：

矩阵乘法满足结合律：

单位矩阵：

矩阵的逆：

首先是方阵
不是所有的矩阵都有逆

转置矩阵：

正则方程

偏导等于0对应线性方程的最小值：

利用线性代数的方法直接求解θ

矩阵可能存在不可逆的情况，这时可是删除一些不必要的特征，或使用正则化。

梯度下降和正则方程的优缺点：

逻辑回归

Logistic Regression

逻辑回归用于解决分类的问题，如果使用线性回归可能会造成很大的误差；假如样本的标签值为0、1，线性回归输出值是连续的存在>1和小于0的情况，不符合实际。

如果对于一个均匀的数据，使用线性回归，选取0.5作为分界线，可能会得到一个比较准确的模型，但是如果数据不太均匀就会存在很大的误差。

激活函数

python 复制代码

import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(-10, 10, 100)
y = 1 / (1 + np.exp(-x))

plt.xlabel('X')
plt.ylabel('Y')
yticks = np.linspace(0, 1, 11)
plt.yticks(yticks)
plt.text(-10, 1, r'$f(x)\ =\ \frac{1}{1+e^{-x}}$',
         fontdict={'size': 16, 'color': 'b'})

ax = plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.spines['bottom'].set_position(('data', 0))
ax.spines['left'].set_position(('data', 0))

plt.plot(x, y)
plt.show()