【2025版李宏毅机器学习系列课程】CH2 机器学习 Training Guide

作业流程

General Guide

  • model bias:增加模型的flexibility,比如激活函数、更多层数等
  • model bias 还是 optimization ?
    • comparison
    • Start from shallower network (or other models), which are easier to optimize
    • If deeper networks do not obtain smaller loss on training data, then there is optimization issue.
  • Overfitting:flexibility太大,training data不够多导致的
    • more training data:
      • data augmentation 数据增强,对现有数据进行各种变换来生成更多数据,要合理变换
    • less flexibility , constrained model:
      • Less parameters:less神经元、less层数
      • sharing parameters:CNN
      • Less features
      • Early stopping
      • Regularization
      • Dropout

Bias-Complexity Trade-off

  • benchmark corpora:基准测试语料库
  • how to select the best one?
    • 不建议的做法:直接比较model 在 public testing set的分数来选择。WHY?类比猴子敲出莎士比亚,如果test很多遍,即使是很废模型,还是有可能拿到好分数
    • testing set分public和private:public one 可以看成是训练时会用的,private one可以理解为实际放出来给大众用的,在public testing set上表现好可能是用了某些手段导致在此过拟合,但是在private testing set的表现不好
    • 建议的做法:cross validation,用validation set 来选model,少看public testing set的结果
    • n-fold cross validation

Mismatch

  • training and testing data have different distribution

critical point:local minima、saddle point

  • gradient为0的点统称critical point:比如local minima、saddle point
  • 判断critical point的类型:Hessian
  • saddle point:可以沿着负特征值的特征向量去更新参数
  • local minima:When you have lots of parameters, perhaps local minima is rare
    可能在高维空间只是个saddle point
  • 经验上看,其实local minima其实不常见,多数是saddle point

Batch

  • shuffle after each epoch

  • Why batch? 如果不用batch,那就是整个training set一起训练,相当于batch size = training set size,即极端情况的large batch

    • Small Batch v.s. Large Batch

      • large batch:Long time for cool down, but powerful(稳定)
      • small batch:Short time for cool down, but powerful but noisy
    • 时间上,large batch 跑完一个epoch的时间反而短,因为GPU并行运算的能力

    • 但noisy反而会有利于training

    • 而且 Small batch is better on testing data,大的batch size会让我们倾向于走到峡谷里面

  • 总结:Batch size is a hyperparameter you have to decide

相关推荐
久菜盒子工作室2 分钟前
中国工业气体行业研究报告(2026)
大数据·人工智能
GISer_Jing8 分钟前
AI时代面试新常态——从“会用工具”到“深挖原理”的跨越
前端·人工智能·ai编程
IT_陈寒19 分钟前
React的useEffect把我坑惨了,这些闭包陷阱真要命
前端·人工智能·后端
财经资讯数据_灵砚智能19 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月1日
大数据·人工智能·python·信息可视化·自然语言处理
Flandern111123 分钟前
# 学习AI Agent中了解到的几个概念
人工智能·学习
2601_9583205724 分钟前
【零基础新手入门 】OpenClaw 2.6.6 对接阿里云百炼配置教程(包含安装包)
人工智能·阿里云·云计算·open claw·小龙虾·open claw安装·open claw一键安装
java1234_小锋25 分钟前
Spring AI 2.0 开发Java Agent智能体 - Spring AI项目调用本地Ollama模型
java·人工智能·spring·spring ai2.0
深海鱼在掘金26 分钟前
深入浅出 LangChain —— 第六章:记忆与状态管理
人工智能·langchain·agent
qq_2837200529 分钟前
Python+LangChain 调用大模型全方案深度实战:原生调用、统一接口、流式输出、异步、自定义模型全解析
人工智能·langchain·agent·rag
葫三生29 分钟前
三生原理文章被AtomGit‌开源社区收录的意义探析?
人工智能·深度学习·神经网络·算法·搜索引擎·开源·transformer