1.自编码器(Auto-Encoder):不需要标注数据,仅依赖数据本身的结构进行学习,属于自监督学习。自编码器试图学习一个恒等映射:输入 x→ 编码器 → 潜在表示 z→ 解码器 → 输出 x^,并让 x^尽可能接近 x。
核心结构:编码器 + 解码器
目标:最小化重构误差(输入与输出的差异)
变体:Denoising Auto-Encoder(去噪自编码器):需要在输入数据上加入噪声,输出为不加噪声的结果,即对输入X人为加入噪声得到 X',模型学习从 X' 重构出干净的 X
2.异常检测(Anomaly Detection):找出与训练资料不一样的数据。即给定一个数据集,其中大部分是正常样本,极少数是异常样本(也叫离群点、异常值),异常检测的目标是识别出那些与大多数样本显著不同的样本。
应用:金融上的欺诈交易、工业上的产品缺陷检测、医疗上的CT影像中的肿瘤(异常区域)、网络安全上的入侵检测等。
异常检测的评估指标以及曲线:
ROC曲线:横轴FPR,纵轴TPR。曲线下面积(AUC-ROC)越接近1越好。不依赖阈值。
PR曲线:横轴召回率,纵轴精确率。对于极度不平衡数据,AUC-PR 比AUC-ROC更敏感。
Top-k 精确率:在异常分数最高的k个样本中,有多少是真的异常。适用于排序型异常检测(如安全告警排序)。
|------|-------|-------|
| | 预测为正常 | 预测为异常 |
| 真实正常 | TN | FP |
| 真实异常 | FN | TP |
| 指标 | 公式 | 含义 | 适用场景 |
|---|---|---|---|
| 精确率 (Precision) | TP / (TP+FP) | 检出的"异常"中有多少是真的异常 | 误报成本高时(如垃圾邮件过滤) |
| 召回率 (Recall) | TP / (TP+FN) | 真正的异常被检出了多少 | 漏报成本高时(如癌症检测、诈骗) |
| F1-score | 2 × (P×R)/(P+R) | 精确率和召回率的调和平均 | 需要平衡两者时 |
| 假阳性率 (FPR) | FP / (FP+TN) | 正常样本被误报的比例 | 用于ROC曲线 |
| 真阳性率 (TPR) | 同召回率 | 异常检出率 | 用于ROC曲线 |
3.可解释机器学习(Explainable Mechine Leaning)
目标:给出一个理由,让人理解模型为什么这么判断。
(1)Local Explanation(局部解释):解释"为什么这张图被分类为猫?"
Saliency Map(显著图):计算每个像素对分类结果的影响强度,生成热力图。
显著图的改进:
SmoothGrad:对同一输入多次添加随机噪声,取多次梯度(或显著图)的平均,消除噪声干扰,使解释更稳定。
Integrated Gradients (IG):从基线图像(如全黑)到输入图像,沿着路径积分梯度,满足敏感性和实现不变性,比原始显著图更准确
(2)global explanatin(全局解释):解释"模型整体认为猫长什么样?"
需要全局解释的原因:
模型验证:确认模型学到的是合理特征,而非虚假关联(如背景水印)。
知识发现:从模型中提取领域知识(例如生物学、医学新规律)。
公平性审计:检查模型是否依赖敏感属性(如性别、种族)。
模型简化:用可解释模型(如决策树)近似黑盒,方便部署到合规场景。
4.网络处理输入数据的两个重要方法:
Visualization(可视化):试图将网络内部的计算结果(激活值、梯度、特征图等)映射为人类可理解的图像或热力图,直接展示网络对输入的响应模式。
Probing(探针):探针是一种诊断分类器------固定预训练模型参数,在某一中间层的特征之上训练一个简单的线性分类器(或浅层MLP),用于预测某个人工标注的属性。如果探针分类器准确率高,说明该中间层已经编码了该属性。
5.attack in NLP
evasion attack(逃逸攻击):在输入样本(文本)上添加人眼不易察觉的扰动(类似图像上的微小噪声),使模型产生错误预测。在 NLP 中,扰动通常是单词替换、插入、删除或词序调整。
四要素:
(1)goal(攻击目标):
Untargeted classification:让模型预测为任意错误类别。
Targeted classification:让模型预测为指定的错误类别。
Universal suffix dropped:可能指"通用对抗后缀"(universal adversarial suffix),即找到一个后缀附加到任意输入上都能导致误分类。这里写"dropped"可能是笔误,通常这类攻击不删除后缀而是添加或修改。
(2)Transformation(变换操作):如单词替换(同义词、形近字)、插入标点/空格、改写句式等。
(3)constrain(约束条件):保证扰动后的文本语义相似且自然通顺。例如:grammaticality(语法正确性)、POS consistency(词性一致性)。
(4)search method(搜索方法):greedy search: 每次选择对模型预测影响最大且满足约束的扰动,逐步构造对抗样本。基因演算法:受自然选择启发,模拟"物竞天择,适者生存"的进化过程,在搜索空间中寻找能成功欺骗目标模型的对抗样本;算法维护一个由多个候选对抗文本组成的"种群",通过选择、交叉(重组)和变异这三步操作,使种群一代代进化,不断逼近攻击目标。
imitation attack(模仿攻击):攻击者通过观察目标模型的输入输出对,模仿其决策边界或功能,从而构建一个替代模型(surrogate model)。然后利用替代模型生成对抗样本,这些样本往往也能欺骗原始模型(迁移性)。
backdoor attack(后门攻击):攻击者在训练阶段将"后门模式"(如特殊单词、短语、标点符号)植入模型,使得模型在遇到某些触发因素时输出不正常。当正常输入时模型表现良好;但一旦输入中包含后门触发器,模型就强制输出攻击者指定的错误标签。
6.攻击方法
| 方法 | 核心思路 | 特点 |
|---|---|---|
| FGSM (Fast Gradient Sign Method) | 这是一种高效的单步攻击方法。它通过计算损失函数的梯度,然后沿着梯度方向增加一个极小的扰动 ϵϵ 来生成对抗样本。公式为: |
速度极快,是评估模型基础鲁棒性的标准方法。 |
| I-FGSM (Iterative FGSM) | 不满足于单步攻击,I-FGSM 将 FGSM 的一步攻击拆分为多步,每一步都施加一个微小的扰动,并重新计算梯度。 | 通常在相同总扰动下,比 FGSM 的攻击成功率更高。 |
| 偏微分 (Partial Derivative) | 它不是一种具体攻击方法,而是FGSM等方法的数学基础。FGSM 中的关键操作就是计算损失函数对输入的 偏微分(梯度) ,以此确定扰动的方向。 | 梯度的计算是整个攻击过程的理论基石。 |
补充:
攻击模型的存在不是未来"破坏",而是未来发现隐患、推动安全加固;可以评估模型的安全性和可靠性;可以研究模型的可解释性和鲁棒性边界。