机器学习深度学习beginning5

1.自编码器（Auto-Encoder）：不需要标注数据，仅依赖数据本身的结构进行学习，属于自监督学习。自编码器试图学习一个恒等映射：输入 x→ 编码器 → 潜在表示 z→ 解码器 → 输出 x^，并让 x^尽可能接近 x。

核心结构：编码器 + 解码器

目标：最小化重构误差（输入与输出的差异）

变体：Denoising Auto-Encoder（去噪自编码器）：需要在输入数据上加入噪声，输出为不加噪声的结果，即对输入X人为加入噪声得到 X'，模型学习从 X' 重构出干净的 X

2.异常检测（Anomaly Detection）：找出与训练资料不一样的数据。即给定一个数据集，其中大部分是正常样本，极少数是异常样本（也叫离群点、异常值），异常检测的目标是识别出那些与大多数样本显著不同的样本。

应用：金融上的欺诈交易、工业上的产品缺陷检测、医疗上的CT影像中的肿瘤（异常区域）、网络安全上的入侵检测等。

异常检测的评估指标以及曲线：

ROC曲线：横轴FPR，纵轴TPR。曲线下面积（AUC-ROC）越接近1越好。不依赖阈值。

PR曲线：横轴召回率，纵轴精确率。对于极度不平衡数据，AUC-PR 比AUC-ROC更敏感。

Top-k 精确率：在异常分数最高的k个样本中，有多少是真的异常。适用于排序型异常检测（如安全告警排序）。

|------|-------|-------|
| | 预测为正常 | 预测为异常 |
| 真实正常 | TN | FP |
| 真实异常 | FN | TP |

指标	公式	含义	适用场景
精确率 (Precision)	TP / (TP+FP)	检出的"异常"中有多少是真的异常	误报成本高时（如垃圾邮件过滤）
召回率 (Recall)	TP / (TP+FN)	真正的异常被检出了多少	漏报成本高时（如癌症检测、诈骗）
F1-score	2 × (P×R)/(P+R)	精确率和召回率的调和平均	需要平衡两者时
假阳性率 (FPR)	FP / (FP+TN)	正常样本被误报的比例	用于ROC曲线
真阳性率 (TPR)	同召回率	异常检出率	用于ROC曲线

3.可解释机器学习（Explainable Mechine Leaning）

目标：给出一个理由，让人理解模型为什么这么判断。

（1）Local Explanation（局部解释）：解释"为什么这张图被分类为猫？"

Saliency Map（显著图）：计算每个像素对分类结果的影响强度，生成热力图。

显著图的改进：

SmoothGrad：对同一输入多次添加随机噪声，取多次梯度（或显著图）的平均，消除噪声干扰，使解释更稳定。

Integrated Gradients (IG)：从基线图像（如全黑）到输入图像，沿着路径积分梯度，满足敏感性和实现不变性，比原始显著图更准确

（2）global explanatin（全局解释）：解释"模型整体认为猫长什么样？"

需要全局解释的原因：

模型验证：确认模型学到的是合理特征，而非虚假关联（如背景水印）。

知识发现：从模型中提取领域知识（例如生物学、医学新规律）。

公平性审计：检查模型是否依赖敏感属性（如性别、种族）。

模型简化：用可解释模型（如决策树）近似黑盒，方便部署到合规场景。

4.网络处理输入数据的两个重要方法：

Visualization(可视化)：试图将网络内部的计算结果（激活值、梯度、特征图等）映射为人类可理解的图像或热力图，直接展示网络对输入的响应模式。

Probing（探针）：探针是一种诊断分类器------固定预训练模型参数，在某一中间层的特征之上训练一个简单的线性分类器（或浅层MLP），用于预测某个人工标注的属性。如果探针分类器准确率高，说明该中间层已经编码了该属性。

5.attack in NLP

evasion attack（逃逸攻击）：在输入样本（文本）上添加人眼不易察觉的扰动（类似图像上的微小噪声），使模型产生错误预测。在 NLP 中，扰动通常是单词替换、插入、删除或词序调整。

四要素：

（1）goal（攻击目标）：

Untargeted classification：让模型预测为任意错误类别。

Targeted classification：让模型预测为指定的错误类别。

Universal suffix dropped：可能指"通用对抗后缀"（universal adversarial suffix），即找到一个后缀附加到任意输入上都能导致误分类。这里写"dropped"可能是笔误，通常这类攻击不删除后缀而是添加或修改。

（2）Transformation（变换操作）：如单词替换（同义词、形近字）、插入标点/空格、改写句式等。

（3）constrain（约束条件）：保证扰动后的文本语义相似且自然通顺。例如：grammaticality（语法正确性）、POS consistency（词性一致性）。

（4）search method（搜索方法）：greedy search: 每次选择对模型预测影响最大且满足约束的扰动，逐步构造对抗样本。基因演算法：受自然选择启发，模拟"物竞天择，适者生存"的进化过程，在搜索空间中寻找能成功欺骗目标模型的对抗样本；算法维护一个由多个候选对抗文本组成的"种群"，通过选择、交叉（重组）和变异这三步操作，使种群一代代进化，不断逼近攻击目标。

imitation attack（模仿攻击）：攻击者通过观察目标模型的输入输出对，模仿其决策边界或功能，从而构建一个替代模型（surrogate model）。然后利用替代模型生成对抗样本，这些样本往往也能欺骗原始模型（迁移性）。

backdoor attack（后门攻击）：攻击者在训练阶段将"后门模式"（如特殊单词、短语、标点符号）植入模型，使得模型在遇到某些触发因素时输出不正常。当正常输入时模型表现良好；但一旦输入中包含后门触发器，模型就强制输出攻击者指定的错误标签。

6.攻击方法

方法	核心思路	特点
FGSM (Fast Gradient Sign Method)	这是一种高效的单步攻击方法。它通过计算损失函数的梯度，然后沿着梯度方向增加一个极小的扰动 ϵϵ 来生成对抗样本。公式为：=x+ϵ⋅sign(∇xJ(θ,x,y))xadv=x+ϵ⋅sign(∇xJ(θ,x,y))。	速度极快，是评估模型基础鲁棒性的标准方法。
I-FGSM (Iterative FGSM)	不满足于单步攻击，I-FGSM 将 FGSM 的一步攻击拆分为多步，每一步都施加一个微小的扰动，并重新计算梯度。	通常在相同总扰动下，比 FGSM 的攻击成功率更高。
偏微分 (Partial Derivative)	它不是一种具体攻击方法，而是FGSM等方法的数学基础。FGSM 中的关键操作就是计算损失函数对输入的偏微分（梯度），以此确定扰动的方向。	梯度的计算是整个攻击过程的理论基石。

补充：

攻击模型的存在不是未来"破坏"，而是未来发现隐患、推动安全加固；可以评估模型的安全性和可靠性；可以研究模型的可解释性和鲁棒性边界。