Iterative loop of ML development|机器学习的迭代发展


这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!


一、机器学习迭代发展过程

这张图片展示了机器学习(ML)开发的迭代循环过程。循环包括三个主要步骤:

  1. 选择架构(模型、数据等):确定模型类型和准备数据。

  2. 训练模型:使用选定的架构和数据来训练模型。

  3. 诊断(偏差、方差和错误分析):评估模型性能,识别问题。

这个循环是迭代的,意味着在诊断后可能需要返回到选择架构的步骤进行调整。


例子:建立一个垃圾邮件分类器


1. 垃圾邮件分类示例

左边的邮件:

  • 发件人++cheapsales@buystufffromme.com++,这是一个可能看起来不太可信的域名,常用于垃圾邮件发送者。

  • 收件人:Andrew Ng,可能是一个真实存在的收件人。

  • 主题:Buy now!,使用了紧迫性的语言,试图促使收件人立即行动。

  • 内容:邮件内容提供了一些商品的促销信息,如"Rolex w4tches - $100"(故意拼写错误以规避过滤),"Med1cine (any kind) - £50"(同样使用了数字和字母的混合拼写),以及"Also low cost MOrgages available."(拼写错误)。这些内容通常与垃圾邮件相关,因为它们试图通过低价吸引收件人购买商品或服务。

右边的邮件:

  • 发件人:Alfred Ng,看起来像是一个个人名字,可能是收件人的熟人。

  • 收件人:Andrew Ng,与左边邮件相同。

  • 主题:Christmas dates?,这是一个询问性质的主题,与个人交流相关。

  • 内容:邮件内容是关于圣诞节计划的个人交流,提到了与家人的对话和具体的会面日期(Dec 22),这表明邮件是私人和非商业性质的。

这两封邮件的对比展示了垃圾邮件通常包含促销信息、拼写错误和紧迫性的语言,而非垃圾邮件则更可能是个人交流和询问。


2. 构建垃圾邮件分类器

这张图片详细说明了如何构建一个垃圾邮件分类器的过程,主要通过以下几个步骤:

  1. 监督学习 :这是一个机器学习的方法,其中模型通过已标记的数据集进行训练,以学习如何对新的数据进行分类。在这个例子中,x 代表电子邮件的特征,而 y 是一个标签,表示邮件是垃圾邮件(1)还是非垃圾邮件(0)。

  2. 特征提取 :特征是用于训练模型的输入数据。在这个案例中,特征是从电子邮件中提取的词汇。具体来说,选择了最常用的10,000个单词作为特征,这些单词用于构建特征向量 x 1​,x 2​,...,x10,000​。

  3. 特征向量 :图片中展示了一个特征向量 x 的示例。这个向量是一个包含10,000个元素的向量,每个元素对应一个特定的单词。如果某个单词在邮件中出现,则对应的元素值为1;如果没有出现,则为0。例如,单词 "andrew" 和 "deal" 在邮件中出现了,所以它们对应的特征值为1。

  4. 邮件内容分析:右侧展示了一封电子邮件的内容,其中一些单词被标记,这些单词在特征向量中对应的位置会有值。例如,"buy" 和 "deal" 在邮件中出现了,所以在特征向量中对应的位置会有值。

通过这种方式,每封电子邮件都可以被转换成一个特征向量,然后这个向量可以被用于训练一个分类器,以识别未来的邮件是否为垃圾邮件。


3. 少垃圾邮件分类器错误的方法

这张图片提供了减少垃圾邮件分类器错误的几种方法:

  1. 收集更多数据,例如通过"Honeypot"项目。

  2. 基于电子邮件路由(从邮件头)开发更复杂的特征。

  3. 从电子邮件正文定义更复杂的特征,例如将"discounting"和"discount"视为同一个词。

  4. 设计算法来检测拼写错误,例如识别"w4tches"、"med1cine"和"m0rtgage"。


这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!


相关推荐
whaosoft-143几秒前
51c视觉~合集2~目标跟踪
人工智能
钟爱蛋炒饭几秒前
基于深度学习神经网络协同过滤模型(NCF)的视频推荐系统
python·神经网络·机器学习
cyyt15 分钟前
深度学习周报(9.15~9.21)
人工智能·深度学习·量子计算
Deepoch26 分钟前
Deepoc具身智能模型:为传统机器人注入“灵魂”,重塑建筑施工现场安全新范式
人工智能·科技·机器人·人机交互·具身智能
风已经起了1 小时前
FPGA学习笔记——图像处理之对比度调节(直方图均衡化)
图像处理·笔记·学习·fpga开发·fpga
吃饭睡觉发paper1 小时前
High precision single-photon object detection via deep neural networks,OE2024
人工智能·目标检测·计算机视觉
醉方休2 小时前
TensorFlow.js高级功能
javascript·人工智能·tensorflow
云宏信息2 小时前
赛迪顾问《2025中国虚拟化市场研究报告》解读丨虚拟化市场迈向“多元算力架构”,国产化与AI驱动成关键变量
网络·人工智能·ai·容器·性能优化·架构·云计算
悟乙己2 小时前
基于AWS Lambda的机器学习动态定价系统 CI/CD管道部署方案介绍
机器学习·ci/cd·aws
红苕稀饭6662 小时前
VideoChat-Flash论文阅读
人工智能·深度学习·机器学习