Iterative loop of ML development｜机器学习的迭代发展

这是我在我的网站中截取的文章，有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn，这里还有很多有关计算机的知识，欢迎进行留言或者来我的网站进行留言！！！

一、机器学习迭代发展过程

这张图片展示了机器学习（ML）开发的迭代循环过程。循环包括三个主要步骤：

这个循环是迭代的，意味着在诊断后可能需要返回到选择架构的步骤进行调整。

左边的邮件：

发件人 ：++cheapsales@buystufffromme.com++，这是一个可能看起来不太可信的域名，常用于垃圾邮件发送者。
收件人：Andrew Ng，可能是一个真实存在的收件人。
主题：Buy now!，使用了紧迫性的语言，试图促使收件人立即行动。
内容：邮件内容提供了一些商品的促销信息，如"Rolex w4tches - $100"（故意拼写错误以规避过滤），"Med1cine (any kind) - £50"（同样使用了数字和字母的混合拼写），以及"Also low cost MOrgages available."（拼写错误）。这些内容通常与垃圾邮件相关，因为它们试图通过低价吸引收件人购买商品或服务。

右边的邮件：

这两封邮件的对比展示了垃圾邮件通常包含促销信息、拼写错误和紧迫性的语言，而非垃圾邮件则更可能是个人交流和询问。

这张图片详细说明了如何构建一个垃圾邮件分类器的过程，主要通过以下几个步骤：

监督学习 ：这是一个机器学习的方法，其中模型通过已标记的数据集进行训练，以学习如何对新的数据进行分类。在这个例子中，x 代表电子邮件的特征，而 y 是一个标签，表示邮件是垃圾邮件（1）还是非垃圾邮件（0）。
特征提取 ：特征是用于训练模型的输入数据。在这个案例中，特征是从电子邮件中提取的词汇。具体来说，选择了最常用的10,000个单词作为特征，这些单词用于构建特征向量 x 1,x 2,...,x10,000。
特征向量 ：图片中展示了一个特征向量 x 的示例。这个向量是一个包含10,000个元素的向量，每个元素对应一个特定的单词。如果某个单词在邮件中出现，则对应的元素值为1；如果没有出现，则为0。例如，单词 "andrew" 和 "deal" 在邮件中出现了，所以它们对应的特征值为1。
邮件内容分析：右侧展示了一封电子邮件的内容，其中一些单词被标记，这些单词在特征向量中对应的位置会有值。例如，"buy" 和 "deal" 在邮件中出现了，所以在特征向量中对应的位置会有值。

通过这种方式，每封电子邮件都可以被转换成一个特征向量，然后这个向量可以被用于训练一个分类器，以识别未来的邮件是否为垃圾邮件。

这张图片提供了减少垃圾邮件分类器错误的几种方法：