机器学习系列-1基础概念

复制代码

学习内容来自：谷歌ai学习
https://developers.google.cn/machine-learning/crash-course/framing/check-your-understanding?hl=zh-cn
本文作为学习记录

1.什么是（监督式）机器学习？

机器学习系统学习如何组合输入以对从未见过的数据生成有用的预测。

2.机器学习的基本术语。

2.1标签

标签是指我们要预测的内容，即简单线性回归中的 y 变量。标签可以是小麦的未来价格、图片中显示的动物类型、音频剪辑的含义，也可以是其他任何信息。

2.2特征

特征是输入变量，即简单线性回归中的 x 变量。一个简单的机器学习项目可能会使用单个功能，而更复杂的机器学习项目可以使用数百万个功能，如下所示：

x1,x2,x3,...xn

2.3样本

样本是指数据的特定实例：x 。（我们将 x 显示为粗体，表示它是一个矢量。）我们将示例分为两类：

有标签样本
无标签样本

有标签样本同时包含特征和标签。使用有标签样本来训练模型。具体来说：

复制代码

  labeled examples: {features, label}: (x, y)

无标签样本包含特征，但不包含标签。使用有标签样本训练模型后，我们便会使用该模型来预测无标签样本的标签。

复制代码

  unlabeled examples: {features, ?}: (x, ?)

2.4模型

模型定义了特征和标签之间的关系。例如，垃圾内容检测模型可能会将某些功能与"垃圾内容"紧密关联。我们重点介绍模型生命周期的两个阶段：

训练是指创建或学习模型。 也就是说，您向模型展示有标签样本，让模型逐渐学习特征与标签之间的关系。

推断表示将经过训练的模型应用于无标签样本。 也就是说，使用经过训练的模型做出有用的预测 (y')。例如，在推理期间，您可以针对新的无标签样本预测 medianHouseValue。

2.5回归与分类

回归模型可预测连续值。 例如，回归模型做出的预测可回答如下问题：

加利福尼亚州一栋房子的价值是多少？
用户点击此广告的可能性有多大？

分类模型可预测离散值。 例如，分类模型做出的预测可回答如下问题：

指定的电子邮件是垃圾邮件还是非垃圾邮件？
这是狗、猫还是仓鼠的图片？

3 理解题目：

3.1 监督式学习

假设您想开发一种监督式机器学习模型来预测指定的电子邮件是"垃圾邮件"还是"非垃圾邮件"。下列哪些陈述是正确的？

A：主题标头中的字词会成为良好的标签。（×）

主题标头中的字词可能具有出色的特征，但并不适合用作标签。

B：应用于某些示例的标签可能不可靠。（√）

请务必检查数据的可靠性。此数据集的标签可能来自将特定电子邮件标记为垃圾邮件的电子邮件用户。由于大多数用户不会将每封可疑的电子邮件都标记为垃圾邮件，因此我们可能不知道电子邮件是否为垃圾邮件。此外，垃圾内容发布者可能会故意提供错误的标签来误导我们的模型。

C:未标记为"垃圾邮件"或"不是垃圾邮件"的电子邮件是无标签样本。（√）

由于我们的标签由值"垃圾邮件"和"非垃圾邮件"组成，因此任何未标记为垃圾邮件或非垃圾邮件的电子邮件都是无标签样本。

D:我们将使用无标签样本来训练模型。（×）

我们将使用有标签样本来训练模型 。然后，我们可以针对无标签样本运行经过训练的模型，以推断无标签的电子邮件是垃圾邮件还是非垃圾邮件。

3.2 功能和标签

假设一家在线鞋店希望创建一种监督式机器学习模型，为用户提供个性化的鞋子推荐服务。也就是说，该模型会向小马推荐某些鞋子，而向小杰推荐另外一些鞋子。系统将使用过去的用户行为数据生成训练数据。下列哪些陈述是正确的？

A：假设一家在线鞋店希望创建一种监督式机器学习模型，为用户提供个性化的鞋子推荐服务。也就是说，该模型会向小马推荐某些鞋子，而向小杰推荐另外一些鞋子。系统将使用过去的用户行为数据生成训练数据。下列哪些陈述是正确的？（√）

"鞋码"是一项实用功能。

"鞋码"是一种可量化的信号，可能对用户是否会喜欢推荐的鞋子有很大的影响。例如，如果马蒂穿 9 号鞋，则不建议建议尺码 7 的鞋。

B：用户点击了鞋子的描述，这是个有用的标签。

用户可能只是想详细了解自己喜欢的鞋子。因此，

|--------------------------------------|
| "点击次数"是一种可观测、可量化的指标，可以用作合适的训练标签。 |

由于我们的训练数据源自既往用户行为，因此我们的标签需要源自与用户偏好密切相关的客观行为。

C:用户喜欢的鞋子是一种实用的标签。

|---------------------------|
| **"喜好"不是可观察且可量化的指标。** |

我们所能做的就是搜索可爱的代理指标。

D："鞋类美妆"是一项实用功能。

|------------------------------|
| **良好的特征具体且可量化。美观性太过模糊，** |

无法用作有用的特征。美观程度可能是某些具体特征（例如样式和颜色）的综合考量。样式和颜色都比美观性更好。