机器学习的魔法（一）从零开始理解吴恩达的精炼笔记

一、机器学习是什么？

1、机器学习的概念

机器学习是一种人工智能领域的技术和方法，旨在使计算机系统能够从经验数据中自动学习和改进，而无需显式地进行编程。它涉及开发算法和模型，使计算机能够自动分析和理解数据，并根据经验数据中的模式和规律做出预测或做出决策。

2、机器学习的核心思想

机器学习的核心思想是利用数据来训练计算机系统，使其能够从数据中学习，并根据学习到的知识进行推理和决策。机器学习算法可以自动发现数据中的模式和规律，并使用这些模式和规律来做出预测或做出决策，而无需显式地进行编程。

3、机器学习主要类型

机器学习可以分为监督学习(参数/非参数算法，支持向量机，核函数，神经网络)、无监督学习（聚类，降维，推荐系统，学习推荐）和强化学习三种主要类型。

监督学习

简单说就是我们教计算机如何完成任务，算法通过输入数据和相应的标签进行训练，以学习输入和输出之间的映射关系。
无监督学习

简单说就是我们打算让计算机自己进行学习，算法只有输入数据而没有标签，它通过发现数据中的模式和结构来进行学习。
在强化学习

算法通过与环境进行交互，根据反馈信号来学习如何采取行动以最大化某种形式的奖励。

4、机器学习应用领域

机器学习在许多领域都有广泛的应用，包括图像和语音识别、自然语言处理、推荐系统、金融预测、医疗诊断等。

二、监督学习

监督学习是一种机器学习的方法，其中模型通过标记的训练数据集进行学习，这些数据集包含了输入数据及其对应的正确输出。通过此种方式，模型可以学习到输入与输出之间的关系，并可以应用于新的、未见过的数据。

下面是一些监督学习的例子：

1、房价预测

在这个案例中，模型可能会通过房屋的各种特性（如面积，房间数量，位置等）和历史销售价格数据进行训练学习。然后模型可以预测市场上新出售的房屋的价格。

当我们使用机器学习来预测房屋价格时，通常会涉及以下步骤：

数据收集：首先，我们需要收集历史销售价格数据和房屋特性数据。这些特性可以包括房屋的面积、房间数量、位置（例如城市、街区）等。这些数据将成为我们模型的训练集。
特征工程：在这一步中，我们会对数据进行处理，提取有用的特征。例如，我们可以计算每平方米的价格、房间数量与总面积的比例等。
模型选择：选择适合房屋价格预测的机器学习模型。常见的模型包括线性回归、决策树、随机森林、神经网络等。
模型训练：使用历史数据来训练模型。模型会学习数据中的模式，以便能够预测未来市场上新出售房屋的价格。
模型评估：使用测试数据集来评估模型的性能。我们可以使用指标如均方误差、R² 等来衡量模型的预测能力。
预测房屋价格：一旦模型训练完成，我们就可以使用它来预测市场上新出售房屋的价格。输入新房屋的特性（例如面积、房间数量、位置等），模型会给出相应的价格预测结果。

2、天气预测

通过历史天气数据（温度、湿度、风速等）和相应的天气结果（晴、雨、风暴等），模型可以预测未来的天气情况。

当我们使用机器学习来预测未来的天气情况时，通常会涉及以下步骤：

（1）、数据收集：首先，我们需要收集历史天气数据，包括温度、湿度、风速等。这些数据将成为我们模型的训练集。

（2）、特征工程：在这一步中，我们会对数据进行处理，提取有用的特征。例如，我们可以计算每日平均温度、最大风速等。

（3）、模型选择：选择适合天气预测的机器学习模型。常见的模型包括线性回归、决策树、随机森林、神经网络等。

（4）、模型训练：使用历史数据来训练模型。模型会学习数据中的模式，以便能够预测未来的天气情况。

（5）、模型评估：使用测试数据集来评估模型的性能。我们可以使用指标如均方误差、准确率等来衡量模型的预测能力。

（6）、预测未来天气：一旦模型训练完成，我们就可以使用它来预测未来的天气情况。输入新的特征（例如明天的温度、湿度等），模型会给出相应的天气预测结果。

! $在这里插入图片描述$ (https://img-blog.csdnimg.cn/direct/f0f81c89bbef4f4c88cec61d10fac117.png#pic_center)

三、无监督学习

无监督学习与监督学习相对应。在监督学习中，我们有明确的目标和标签，而在无监督学习中，我们没有明确的目标，也不需要给数据打标签。以下是无监督学习的几个特点：

无明确目的：无监督学习没有预先定义的目标。我们试图从未标记的数据中发现潜在的结构。
无需标签：与监督学习不同，无监督学习不需要给数据打标签。
难以量化效果：由于缺乏明确目标，无监督学习的效果很难量化。

无监督学习在许多实际场景中都有广泛的应用。以下是一些例子：

用户细分：广告平台可以使用无监督学习对用户进行细分。除了基本的性别、年龄、地理位置等维度外，还可以根据用户行为进行更精细的分类。

以下是一些常见的用户细分维度和模型：

（1）、RFM模型：这是一种常用于用户价值分析的模型，基于以下三个指标对用户进行分类：
- 最近一次消费时间（Recently）：用户最近一次购买的时间距离现在有多久。
- 消费频次（Frequency）：用户在一段时间内购买的次数。
- 消费金额（Money）：用户在一段时间内的累计消费金额。
（2）、行为模式：根据用户的行为和互动模式进行分类，例如：
- 活跃度：用户在网站或应用上的活跃程度，包括登录频率、页面浏览次数等。
- 购买行为：用户的购买频率、购买金额、购买类别等。
- 社交互动：用户在社交媒体上的互动、分享、评论等。
（3）、兴趣和偏好：根据用户对不同内容、产品或服务的兴趣进行分类，例如：
- 浏览历史：用户在网站上浏览的页面、产品或文章。
- 点击行为：用户点击的广告、推荐内容或链接。
（4）、用户生命周期阶段：将用户分为不同的生命周期阶段，例如：
- 新用户：刚刚注册或开始使用产品的用户。
- 活跃用户：经常使用产品的用户。
- 流失用户：曾经活跃但现在不再使用产品的用户。
（5）、个性化标签：根据用户的特定属性或行为添加标签，例如：
- VIP用户：高价值、高忠诚度的用户。
- 优惠敏感用户：对折扣和促销活动敏感的用户。
推荐系统：无监督学习可以用于推荐系统。例如，根据用户的购买行为和浏览行为，推荐类似用户喜欢的商品。

以下是一些常见的无监督学习算法：

聚类算法 （Clustering）：将不带标签的数据分组成簇。这些算法可以帮助我们发现数据中的相似性。

一些常见的聚类算法包括：
- K-Means：将数据划分为k个组。
- K-Medoids：类似于K-Means，但选择簇中的中心点而不是平均值。
- DBSCAN：基于密度的聚类算法，可以发现不规则形状的簇。
- OPTICS：另一种基于密度的聚类算法。
- CLIQUE：用于发现高维数据中的簇。
关联规则学习（Association Rule Learning）：用于发现变量之间的有趣关系。例如，我们可以使用这些算法来发现购物篮中的商品之间的关联。一些常见的关联规则学习算法包括：
- Apriori：用于挖掘频繁项集和关联规则。
- FP-Growth/FPtree：另一种频繁项集挖掘算法。
- Eclat：用于发现频繁项集。