吃瓜教程Task1:概览西瓜书+南瓜书第1、2章

由于本人之前已经学习过西瓜书,本次学习主要是对以往知识的查漏补缺,因此本博客记录了在学习西瓜书中容易混淆的点以及学习过程中的难点。更多学习内容可以参考下面的链接:

南瓜书的地址:https://github.com/datawhalechina/pumpkin-book

【视频链接】https://www.bilibili.com/video/BV1Mh411e7VU?p=1

文章目录

绪论

如何对机器学习任务进行分类?

  • 按标记的取值类型分:回归(连续)和分类(离散)
  • 按是否用到标记信息分:有有监督学习(有标记)和无监督学习(无标记)

归纳偏好的意义?

  • 机器学习算法在学习过程中对某种类型假设的偏好。
  • 任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果。
  • 归纳偏好对应了学习算法本身所做出的关于"什么样的模型更好"的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配 ,大多数时候直接决定了算法能否取得好的性能

没有免费的午餐定理(NFL)

众算法生而平等

实际应用:哪个算法训出来的模型在测试集上表现好哪个算法就nb

数据决定模型的上限,而算法则是让模型无限逼近上限

  • 数据决定模型效果的上限:其中数据是指从数据量特征工程 两个角度考虑。
    • 从数据量的角度来说,通常数据量越大模型效果越好,因为数据量大即表示累计的经验多,因此模型学习到的经验也多,自然表现效果越好。
    • 从特征工程的角度来说,通常对特征数值化越合理,特征收集越全越细致,模型效果通常越好,因为此时模型更易学得样本之间潜在的规律。
  • 算法则是让模型无限逼近上限:是指当数据相关的工作已准备充分时,接下来便可用各种可适用的算法从数据中学习其潜在的规律进而得到模型,不同的算法学习得到的模型效果自然有高低之分,效果越好则越逼近上限,即逼近真相。

模型评估与选择

常见的性能指标有那些?

错误率、精度、查准率、查全率、F1、ROC和AUC

ROC曲线和AUC

与P-R曲线使用查准率、查全率为纵、横轴不同,ROC曲线的纵轴是"真正例率"(True Positive Rate,简称TPR),横轴是"假正例率"(False PositiveRate,简称FPR)。关键推导的理解如下,更多内容见西瓜书。

总结

本文主要记录了在复习西瓜书一二章过程中容易混淆的一些点。

相关推荐
smilejingwei4 分钟前
用 AI 编程生成 ECharts 图表并嵌入报表的实践
前端·人工智能·echarts·bi·报表工具·商业智能
【建模先锋】5 分钟前
卷积网络(视觉模型)发展史:从 CNN 到 Vision Transformer,再到视觉 Mamba 的主干演化全景图
网络·人工智能·深度学习·cnn·transformer·轴承故障诊断
螺丝钉code6 分钟前
设计系统 showdown:Awesome DESIGN.md vs UI UX Pro Max - AI 时代的设计规范新范式
人工智能·ui·ux
大任视点7 分钟前
道通科技:锚定能源革命与AI创新,多维布局打开成长空间
人工智能
秦ぅ时15 分钟前
GPT-5.4 Nano 评测:轻量模型的效率天花板
人工智能·gpt
早起困难大户26 分钟前
使用TypeScript写一个获取天气的MCP Server
人工智能·node.js
阿杰学AI26 分钟前
AI核心知识123—大语言模型之 KV Cache
人工智能·ai·语言模型·自然语言处理·aigc·kv cache·键值缓存
金融Tech趋势派28 分钟前
Hermes Agent开源45天登顶GitHub,深度解析其记忆机制与部署方案
人工智能·微信·开源·github·企业微信·openclaw·hermes agent
砍材农夫37 分钟前
spring-ai 第十一mcp server调用入门(stdio协议)
人工智能·spring·microsoft
码农阿豪38 分钟前
一次 AI 调用 15 万 Token 只花了 $0.058?彻底搞懂 Token、缓存读、补全计费机制!(附完整架构图)
人工智能·spring·缓存