唐宇迪2025最新机器学习课件——学习心得(1)

今天是10.21日,开始学习

这里推导了求似然函数,推导到最后让似然函数置零,得到最小二乘解,相当于构建了问题和问题的求解方向

下一步,需要用某个解法去更新他,不能求出来一个值就完事了,还要找到让目标函数最优的那个theta,即下图的梯度下降

批量下降和随机下降的区别就是运算量的区别,避免了m个样本数量过大带来计算量过大的问题,这么说,小样本是否是可以用枚举来满足目标函数最小的?

步长就是学习率

这里也侧面帮助理解梯度下降的本质其实就是一个搜索策略,每次将自变量往梯度的方向求解计算,然后直到目标函数不怎么变化

利用一个较小的值就可以约束目标函数的变化,就判断为收敛,比如设置一个阈值tolerance=1e-6

复制代码
# 检查是否收敛
        if abs(prev_loss - current_loss) < tolerance:
            no_improvement_count += 1
        else:
            no_improvement_count = 0
相关推荐
ytttr8731 天前
Landweber迭代算法用于一维、二维图像重建
人工智能·算法·机器学习
feifeigo1231 天前
Matlab编写压缩感知重建算法集
人工智能·算法·matlab
hongjianMa1 天前
【论文阅读】Hypercomplex Prompt-aware Multimodal Recommendation
论文阅读·python·深度学习·机器学习·prompt·推荐系统
紫小米1 天前
提示词(Prompt)工程与推理优化
人工智能·ai·prompt·ai agent
子非鱼9211 天前
1 NLP导论及环境准备
人工智能·自然语言处理
狠活科技1 天前
Claude Code 重大更新:支持一键原生安装,彻底别了 Node.js
人工智能·aigc·ai编程·claude·claude code
mwq301231 天前
解密“混合专家模型” (MoE) 的全部魔法
人工智能·llm
能来帮帮蒟蒻吗1 天前
深度学习(2)—— 神经网络与训练
人工智能·深度学习·神经网络
新加坡内哥谈技术1 天前
从文字到世界:空间智能是人工智能的下一个前沿
人工智能
面向星辰1 天前
k均值,密度聚类,层次聚类三种聚类底层逻辑的区别
机器学习·均值算法·聚类