第二章:13.1 机器学习的迭代发展

目录

机器学习模型开发流程

构建电子邮件垃圾邮件分类器示例

总结

垃圾邮件分类示例

构建垃圾邮件分类器


机器学习模型开发流程

  1. 确定系统架构

    • 首先,需要决定机器学习系统的总体架构,这包括选择合适的模型、确定使用的数据集、可能还包括选择超参数等。
  2. 实现和训练模型

    • 根据上述决定,实现并训练一个模型。通常,第一次训练的模型不会立即达到预期的效果。
  3. 诊断和调整

    • 对模型进行诊断,查看算法的偏差、方差或进行错误分析。

    • 根据诊断结果,做出决策,例如是否需要增大神经网络规模、调整正则化参数(如lambda)、增加或减少数据量、添加或删除特征等。

  4. 迭代优化

    • 在这个循环中,通常需要多次迭代,不断选择新的架构,直到模型性能满意。

构建电子邮件垃圾邮件分类器示例

  1. 问题描述

    • 构建一个分类器来识别垃圾邮件和非垃圾邮件。
  2. 数据和特征

    • 输入 X:电子邮件的特征。

    • 输出标签 y:1或0,表示是否为垃圾邮件。

    • 特征构建方法:

      • 使用英语词典中的前一万个单词作为特征,每个单词对应一个特征 X1​,X2​,...,X10000​。

      • 对于每封电子邮件,将这些特征设置为0或1,表示该单词是否出现。

      • 或者,计算单词在电子邮件中出现的次数。

  3. 模型训练

    • 使用构建的特征向量训练分类算法,如Logistic回归或神经网络。
  4. 性能改进

    • 如果初始模型效果不佳,可以考虑以下改进方法:

      • 收集更多数据

      • 开发更复杂的特征,如:

        • 基于电子邮件路由信息。

        • 电子邮件头信息,跟踪电子邮件在不同服务器间的传播路径。

        • 检测拼写错误或故意拼写错误的单词。

    • 根据算法的偏差或方差情况,选择最有希望的改进方向。


垃圾邮件分类示例

这幅图片展示了两个电子邮件的例子,用于说明垃圾邮件和非垃圾邮件的区别:

  1. 垃圾邮件示例

    • 发件人[email protected]

    • 收件人:Andrew Ng

    • 主题:Buy now!

    • 内容:Deal of the week! Buy now! Rolex watches - $100 Medicine (any kind) - £50 Also low cost Mortgages available.

    这封邮件具有典型的垃圾邮件特征,如过度夸张的促销语言、低价商品(如劳力士手表和各种药品),以及故意拼错的单词(如"w4tchs"、"med1cine"、"M0rtgage")。

  2. 非垃圾邮件示例

    • 发件人:Alfred Ng

    • 收件人:Andrew Ng

    • 主题:Christmas dates?

    • 内容:Hey Andrew, Was talking to Mom about plans for Xmas. When do you get off work. Meet Dec 22?

    这封邮件是私人通信,内容涉及家庭计划和个人安排,没有垃圾邮件的典型特征。

构建垃圾邮件分类器

这幅图片提供了减少垃圾邮件分类器错误的几种方法:

  1. 收集更多数据

    • 例如,通过"蜜罐"(Honeypot)项目收集数据。蜜罐是一种安全技术,通过设置诱饵来吸引并分析攻击者的行为,从而收集相关数据。
  2. 基于电子邮件路由开发复杂特征

    • 从电子邮件头信息中提取特征,分析邮件的传输路径,这有时可以帮助识别垃圾邮件。
  3. 从电子邮件正文定义复杂特征

    • 例如,是否应该将"discounting"和"discount"视为同一个词,这涉及到文本处理和特征工程的复杂性。
  4. 设计算法检测拼写错误

    • 例如,检测"w4tches"、"med1cine"、"m0rtgage"等故意拼错的单词,这些通常是垃圾邮件发送者用来规避垃圾邮件过滤器的技巧。

总结

  • 在机器学习的发展循环中,对于如何修改模型或数据,可能会有许多想法。

  • 不同的诊断方法可以提供指导,帮助决定哪些想法最有希望尝试。

  • 通过不断迭代和优化,可以逐步提高模型的性能。

相关推荐
月白风清江有声1 小时前
爆炸仿真的学习日志
人工智能
华奥系科技2 小时前
智慧水务发展迅猛:从物联网架构到AIoT系统的跨越式升级
人工智能·物联网·智慧城市
R²AIN SUITE2 小时前
MCP协议重构AI Agent生态:万能插槽如何终结工具孤岛?
人工智能
b***25113 小时前
动力电池点焊机:驱动电池焊接高效与可靠的核心力量|比斯特自动化
人工智能·科技·自动化
Gyoku Mint3 小时前
机器学习×第二卷:概念下篇——她不再只是模仿,而是开始决定怎么靠近你
人工智能·python·算法·机器学习·pandas·ai编程·matplotlib
小和尚同志3 小时前
通俗易懂的 MCP 概念入门
人工智能·aigc
dudly3 小时前
大语言模型评测体系全解析(下篇):工具链、学术前沿与实战策略
人工智能·语言模型
zzlyx993 小时前
AI大数据模型如何与thingsboard物联网结合
人工智能·物联网
说私域4 小时前
定制开发开源AI智能名片驱动下的海报工厂S2B2C商城小程序运营策略——基于社群口碑传播与子市场细分的实证研究
人工智能·小程序·开源·零售
猛犸MAMMOTH4 小时前
Python打卡第46天
开发语言·python·机器学习