Iterative loop of ML development|机器学习的迭代发展


这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!


一、机器学习迭代发展过程

这张图片展示了机器学习(ML)开发的迭代循环过程。循环包括三个主要步骤:

  1. 选择架构(模型、数据等):确定模型类型和准备数据。

  2. 训练模型:使用选定的架构和数据来训练模型。

  3. 诊断(偏差、方差和错误分析):评估模型性能,识别问题。

这个循环是迭代的,意味着在诊断后可能需要返回到选择架构的步骤进行调整。


例子:建立一个垃圾邮件分类器


1. 垃圾邮件分类示例

左边的邮件:

  • 发件人++cheapsales@buystufffromme.com++,这是一个可能看起来不太可信的域名,常用于垃圾邮件发送者。

  • 收件人:Andrew Ng,可能是一个真实存在的收件人。

  • 主题:Buy now!,使用了紧迫性的语言,试图促使收件人立即行动。

  • 内容:邮件内容提供了一些商品的促销信息,如"Rolex w4tches - $100"(故意拼写错误以规避过滤),"Med1cine (any kind) - £50"(同样使用了数字和字母的混合拼写),以及"Also low cost MOrgages available."(拼写错误)。这些内容通常与垃圾邮件相关,因为它们试图通过低价吸引收件人购买商品或服务。

右边的邮件:

  • 发件人:Alfred Ng,看起来像是一个个人名字,可能是收件人的熟人。

  • 收件人:Andrew Ng,与左边邮件相同。

  • 主题:Christmas dates?,这是一个询问性质的主题,与个人交流相关。

  • 内容:邮件内容是关于圣诞节计划的个人交流,提到了与家人的对话和具体的会面日期(Dec 22),这表明邮件是私人和非商业性质的。

这两封邮件的对比展示了垃圾邮件通常包含促销信息、拼写错误和紧迫性的语言,而非垃圾邮件则更可能是个人交流和询问。


2. 构建垃圾邮件分类器

这张图片详细说明了如何构建一个垃圾邮件分类器的过程,主要通过以下几个步骤:

  1. 监督学习 :这是一个机器学习的方法,其中模型通过已标记的数据集进行训练,以学习如何对新的数据进行分类。在这个例子中,x 代表电子邮件的特征,而 y 是一个标签,表示邮件是垃圾邮件(1)还是非垃圾邮件(0)。

  2. 特征提取 :特征是用于训练模型的输入数据。在这个案例中,特征是从电子邮件中提取的词汇。具体来说,选择了最常用的10,000个单词作为特征,这些单词用于构建特征向量 x 1​,x 2​,...,x10,000​。

  3. 特征向量 :图片中展示了一个特征向量 x 的示例。这个向量是一个包含10,000个元素的向量,每个元素对应一个特定的单词。如果某个单词在邮件中出现,则对应的元素值为1;如果没有出现,则为0。例如,单词 "andrew" 和 "deal" 在邮件中出现了,所以它们对应的特征值为1。

  4. 邮件内容分析:右侧展示了一封电子邮件的内容,其中一些单词被标记,这些单词在特征向量中对应的位置会有值。例如,"buy" 和 "deal" 在邮件中出现了,所以在特征向量中对应的位置会有值。

通过这种方式,每封电子邮件都可以被转换成一个特征向量,然后这个向量可以被用于训练一个分类器,以识别未来的邮件是否为垃圾邮件。


3. 少垃圾邮件分类器错误的方法

这张图片提供了减少垃圾邮件分类器错误的几种方法:

  1. 收集更多数据,例如通过"Honeypot"项目。

  2. 基于电子邮件路由(从邮件头)开发更复杂的特征。

  3. 从电子邮件正文定义更复杂的特征,例如将"discounting"和"discount"视为同一个词。

  4. 设计算法来检测拼写错误,例如识别"w4tches"、"med1cine"和"m0rtgage"。


这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!


相关推荐
songyuc几秒前
VCD学习笔记
学习
xiaoxiaoxiaolll2 分钟前
偏振调控新维度!《Advanced Science》梯度下降算法赋能超表面实现24通道3D全息
学习
周名彥3 分钟前
### 基于CP++的天元算盘系统“长度-长“定义及工程实现方案
人工智能·去中心化·知识图谱·量子计算·agi
AMiner:AI科研助手4 分钟前
AI如何重新定义研究?以AMiner沉思为例讲透Deep Research
人工智能·glm·智谱·深度调研
数字孪生家族6 分钟前
以视频孪生融合空间智能,打造智慧城市领域物联感知与 AI 应用标杆案例
人工智能·智慧城市·视频孪生智慧交通·空间智能应用·视频孪生能源·数字乡村建设
Deepoch9 分钟前
智能清洁新纪元:移动式收垃圾机器人如何重塑城市环卫服务体系
人工智能·机器人·具身模型·deepoc·环卫机器人
ZEGO即构开发者9 分钟前
AI降噪,AI打分,AI唱歌?在线KTV+AI,让每一次欢唱“声”机勃勃
人工智能·在线ktv
CoovallyAIHub10 分钟前
200亿美元“反向收购雇佣”?老黄天价应对谷歌TPU压力
深度学习·算法·计算机视觉
南山安13 分钟前
Qoder:CLI与IDE,未来编程的双引擎模式
人工智能
其美杰布-富贵-李13 分钟前
TensorBoard 与 WandB 在 PyTorch Lightning 中的完整指南
人工智能·pytorch·python·监控·调优