唐宇迪2025最新机器学习课件——学习心得(1)

今天是10.21日,开始学习

这里推导了求似然函数,推导到最后让似然函数置零,得到最小二乘解,相当于构建了问题和问题的求解方向

下一步,需要用某个解法去更新他,不能求出来一个值就完事了,还要找到让目标函数最优的那个theta,即下图的梯度下降

批量下降和随机下降的区别就是运算量的区别,避免了m个样本数量过大带来计算量过大的问题,这么说,小样本是否是可以用枚举来满足目标函数最小的?

步长就是学习率

这里也侧面帮助理解梯度下降的本质其实就是一个搜索策略,每次将自变量往梯度的方向求解计算,然后直到目标函数不怎么变化

利用一个较小的值就可以约束目标函数的变化,就判断为收敛,比如设置一个阈值tolerance=1e-6

复制代码
# 检查是否收敛
        if abs(prev_loss - current_loss) < tolerance:
            no_improvement_count += 1
        else:
            no_improvement_count = 0
相关推荐
刺猬的温驯5 分钟前
Flow Matching 训练的输入分布问题:从 VAE Latent 统计性质到归一化工程实践——以 VoxFlash-TTS 为例
人工智能·语音合成·tts
机器之心9 分钟前
近80年后,埃尔德什经典「拉姆齐数下界」,被三位中国学者首次指数级改进
人工智能·openai
机器之心13 分钟前
Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?
人工智能·openai
美团技术团队1 小时前
LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
人工智能·算法
moMo1 小时前
从“你好”到 1024 维坐标:大模型怎么识字
人工智能
ShallWeL1 小时前
【机器学习】(2)—— 线性回归:损失函数
人工智能·机器学习
美团技术团队2 小时前
ICML 2026 | 美团技术团队学术论文精选
人工智能
moMo2 小时前
你的每一次对话,都是第一次
人工智能
不加辣椒2 小时前
第13章 检索增强提示工程
人工智能
小爷毛毛_卓寿杰2 小时前
我把 397B 的「Agentic 大脑」塞进了 Xinference,一键部署 Nex-N2
人工智能·架构·github