机器学习系列-1基础概念

机器学习系列-1基础概念

复制代码
学习内容来自:谷歌ai学习
https://developers.google.cn/machine-learning/crash-course/framing/check-your-understanding?hl=zh-cn
本文作为学习记录

1.什么是(监督式)机器学习?

  • 机器学习系统学习如何组合输入以对从未见过的数据生成有用的预测。

2.机器学习的基本术语。

2.1标签

标签是指我们要预测的内容,即简单线性回归中的 y 变量。标签可以是小麦的未来价格、图片中显示的动物类型、音频剪辑的含义,也可以是其他任何信息。

2.2特征

特征是输入变量,即简单线性回归中的 x 变量。一个简单的机器学习项目可能会使用单个功能,而更复杂的机器学习项目可以使用数百万个功能,如下所示:

x1,x2,x3,...xn

2.3样本

样本是指数据的特定实例:x 。(我们将 x 显示为粗体,表示它是一个矢量。)我们将示例分为两类:

  • 有标签样本
  • 无标签样本

有标签样本同时包含特征和标签。 使用有标签样本来训练模型。具体来说:

复制代码
  labeled examples: {features, label}: (x, y)

无标签样本包含特征,但不包含标签。 使用有标签样本训练模型后,我们便会使用该模型来预测无标签样本的标签。

复制代码
  unlabeled examples: {features, ?}: (x, ?)

2.4模型

模型定义了特征和标签之间的关系。例如,垃圾内容检测模型可能会将某些功能与"垃圾内容"紧密关联。我们重点介绍模型生命周期的两个阶段:

训练是指创建或学习模型。 也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。

推断表示将经过训练的模型应用于无标签样本。 也就是说,使用经过训练的模型做出有用的预测 (y')。例如,在推理期间,您可以针对新的无标签样本预测 medianHouseValue。

2.5回归与分类

回归模型可预测连续值。 例如,回归模型做出的预测可回答如下问题:

  • 加利福尼亚州一栋房子的价值是多少?
  • 用户点击此广告的可能性有多大?

分类模型可预测离散值。 例如,分类模型做出的预测可回答如下问题:

  • 指定的电子邮件是垃圾邮件还是非垃圾邮件?
  • 这是狗、猫还是仓鼠的图片?

3 理解题目:

3.1 监督式学习

假设您想开发一种监督式机器学习模型来预测指定的电子邮件是"垃圾邮件"还是"非垃圾邮件"。下列哪些陈述是正确的?

A:主题标头中的字词会成为良好的标签。(×)

主题标头中的字词可能具有出色的特征,但并不适合用作标签。

B:应用于某些示例的标签可能不可靠。(√)

请务必检查数据的可靠性。此数据集的标签可能来自将特定电子邮件标记为垃圾邮件的电子邮件用户。由于大多数用户不会将每封可疑的电子邮件都标记为垃圾邮件,因此我们可能不知道电子邮件是否为垃圾邮件。此外,垃圾内容发布者可能会故意提供错误的标签来误导我们的模型。

C:未标记为"垃圾邮件"或"不是垃圾邮件"的电子邮件是无标签样本。(√)

由于我们的标签由值"垃圾邮件"和"非垃圾邮件"组成,因此任何未标记为垃圾邮件或非垃圾邮件的电子邮件都是无标签样本。

D:我们将使用无标签样本来训练模型。(×)

我们将使用有标签样本来训练模型 。然后,我们可以针对无标签样本运行经过训练的模型,以推断无标签的电子邮件是垃圾邮件还是非垃圾邮件。

3.2 功能和标签

假设一家在线鞋店希望创建一种监督式机器学习模型,为用户提供个性化的鞋子推荐服务。也就是说,该模型会向小马推荐某些鞋子,而向小杰推荐另外一些鞋子。系统将使用过去的用户行为数据生成训练数据。下列哪些陈述是正确的?

A:假设一家在线鞋店希望创建一种监督式机器学习模型,为用户提供个性化的鞋子推荐服务。也就是说,该模型会向小马推荐某些鞋子,而向小杰推荐另外一些鞋子。系统将使用过去的用户行为数据生成训练数据。下列哪些陈述是正确的?(√)

"鞋码"是一项实用功能。

"鞋码"是一种可量化的信号,可能对用户是否会喜欢推荐的鞋子有很大的影响。例如,如果马蒂穿 9 号鞋,则不建议建议尺码 7 的鞋。

B:用户点击了鞋子的描述,这是个有用的标签。

用户可能只是想详细了解自己喜欢的鞋子。因此,

|--------------------------------------|
| "点击次数"是一种可观测、可量化的指标,可以用作合适的训练标签。 |

由于我们的训练数据源自既往用户行为,因此我们的标签需要源自与用户偏好密切相关的客观行为。

C:用户喜欢的鞋子是一种实用的标签。

|---------------------------|
| **"喜好"不是可观察且可量化的指标。** |

我们所能做的就是搜索可爱的代理指标。

D:"鞋类美妆"是一项实用功能。

|------------------------------|
| **良好的特征具体且可量化。美观性太过模糊,** |

无法用作有用的特征。 美观程度可能是某些具体特征(例如样式和颜色)的综合考量。样式和颜色都比美观性更好。

相关推荐
乌旭1 小时前
量子计算与GPU的异构加速:基于CUDA Quantum的混合编程实践
人工智能·pytorch·分布式·深度学习·ai·gpu算力·量子计算
deephub2 小时前
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
人工智能·深度学习·大语言模型·聚类
思通数科AI全行业智能NLP系统4 小时前
AI视频技术赋能幼儿园安全——教师离岗报警系统的智慧守护
大数据·人工智能·安全·目标检测·目标跟踪·自然语言处理·ocr
struggle20254 小时前
deepseek-cli开源的强大命令行界面,用于与 DeepSeek 的 AI 模型进行交互
人工智能·开源·自动化·交互·deepseek
ocr_sinosecu15 小时前
OCR定制识别:解锁文字识别的无限可能
人工智能·机器学习·ocr
奋斗者1号6 小时前
分类数据处理全解析:从独热编码到高维特征优化
人工智能·机器学习·分类
契合qht53_shine6 小时前
深度学习 视觉处理(CNN) day_02
人工智能·深度学习·cnn
学渣676566 小时前
【10分钟读论文】Power Transmission Line Inspections电力视觉水文
机器学习
就叫飞六吧6 小时前
如何判断你的PyTorch是GPU版还是CPU版?
人工智能·pytorch·python
zsffuture6 小时前
opencv 读取3G大图失败,又不想重新编译opencv ,可以如下操作
人工智能·opencv·webpack