朴素贝叶斯分类器
朴素贝叶斯分类器认为样本的每个特征都是独立的


分类问题:混淆矩阵、F1、ROC和AUC

多分类问题的混淆矩阵:


对于根据老鼠体重来判断老鼠是否肥胖的二分类问题,使用罗辑回归的方式,并将阈值设置为0.5,高于这个阈值就认为老鼠肥胖

根据这个模型,可以得到分类的正确和错误情况:


通过设置不同的阈值,可以得到不同的分类结果和混淆矩阵
ROC曲线 (Receiver Operator Characteristic)

真阳性率(灵敏度):


特异度


ROC曲线中,越接近左上角,模型的效果越好

AUC (Area Under the Curve)
AUC越大的模型效果越好

PCA问题
各种分布的意义:
泊松分布 :描述单位时间/空间内某事件的发生次数
指数分布:连续时间下首次事件发生时间(连续)
二项分布:固定次数试验中成功次数
几何分布: 首次成功的试验次数 (离散)
指数分布和几何分布的区别:

各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)

Multi-Head Attention (MHA)示意图:

Multi-head Latent Attention(MLA)示意图:


原论文中画的MLA的示意图:
具体计算方式:
其中的W^UK可以和W^UQ合并,W^UV和W^O可以合并

RMSNorm
RMSNorm (Root Mean Square Layer Normalization)是一种 归一化方法,属于 LayerNorm 的变体,主要用于神经网络训练中稳定梯度和加速收敛。它在某些大模型中替代标准 LayerNorm,尤其在 Transformer 系列中。

