吃瓜教程Task1：概览西瓜书+南瓜书第1、2章

卡拉比丘流形2024-01-19 1:32

由于本人之前已经学习过西瓜书，本次学习主要是对以往知识的查漏补缺，因此本博客记录了在学习西瓜书中容易混淆的点以及学习过程中的难点。更多学习内容可以参考下面的链接：

南瓜书的地址：https://github.com/datawhalechina/pumpkin-book

【视频链接】https://www.bilibili.com/video/BV1Mh411e7VU?p=1

文章目录

绪论
模型评估与选择
- 常见的性能指标有那些？
- ROC曲线和AUC
总结

绪论

如何对机器学习任务进行分类？

按标记的取值类型分：回归（连续）和分类（离散）
按是否用到标记信息分：有有监督学习（有标记）和无监督学习（无标记）

归纳偏好的意义？

机器学习算法在学习过程中对某种类型假设的偏好。
任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果。
归纳偏好对应了学习算法本身所做出的关于"什么样的模型更好"的假设。在具体的现实问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身匹配 ，大多数时候直接决定了算法能否取得好的性能。

没有免费的午餐定理(NFL)

众算法生而平等

实际应用：哪个算法训出来的模型在测试集上表现好哪个算法就nb

数据决定模型的上限，而算法则是让模型无限逼近上限

数据决定模型效果的上限：其中数据是指从数据量 和特征工程 两个角度考虑。
- 从数据量的角度来说，通常数据量越大模型效果越好，因为数据量大即表示累计的经验多，因此模型学习到的经验也多，自然表现效果越好。
- 从特征工程的角度来说，通常对特征数值化越合理，特征收集越全越细致，模型效果通常越好，因为此时模型更易学得样本之间潜在的规律。
算法则是让模型无限逼近上限:是指当数据相关的工作已准备充分时，接下来便可用各种可适用的算法从数据中学习其潜在的规律进而得到模型，不同的算法学习得到的模型效果自然有高低之分，效果越好则越逼近上限，即逼近真相。

模型评估与选择

常见的性能指标有那些？

错误率、精度、查准率、查全率、F1、ROC和AUC

ROC曲线和AUC

与P-R曲线使用查准率、查全率为纵、横轴不同，ROC曲线的纵轴是"真正例率"(True Positive Rate，简称TPR),横轴是"假正例率"(False PositiveRate,简称FPR)。关键推导的理解如下，更多内容见西瓜书。

总结

本文主要记录了在复习西瓜书一二章过程中容易混淆的一些点。

上一篇：【USTC】verilog 习题练习 21-25

下一篇：python基础-base64编码理解

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03KGG转MP3工具|非KGM文件|解密音频 04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）07Spring 调试终于不再痛苦了 08Claude Code VSCode集成开发指南：AI编程助手完整配置 092025最新国内服务器可用docker源仓库地址大全（2025年8月更新）10【大模型实战篇】部署GPT-OSS-120B踩得坑（vllm / ollama等推理框架）