机器学习深度学习beginning5

1.自编码器(Auto-Encoder):不需要标注数据,仅依赖数据本身的结构进行学习,属于自监督学习。自编码器试图学习一个恒等映射:输入 x→ 编码器 → 潜在表示 z→ 解码器 → 输出 x^,并让 x^尽可能接近 x。

核心结构:编码器 + 解码器

目标:最小化重构误差(输入与输出的差异)

变体:Denoising Auto-Encoder(去噪自编码器):需要在输入数据上加入噪声,输出为不加噪声的结果,即对输入X人为加入噪声得到 X',模型学习从 X' 重构出干净的 X

2.异常检测(Anomaly Detection):找出与训练资料不一样的数据。即给定一个数据集,其中大部分是正常样本,极少数是异常样本(也叫离群点、异常值),异常检测的目标是识别出那些与大多数样本显著不同的样本。

应用:金融上的欺诈交易、工业上的产品缺陷检测、医疗上的CT影像中的肿瘤(异常区域)、网络安全上的入侵检测等。

异常检测的评估指标以及曲线:

ROC曲线:横轴FPR,纵轴TPR。曲线下面积(AUC-ROC)越接近1越好。不依赖阈值。

PR曲线:横轴召回率,纵轴精确率。对于极度不平衡数据,AUC-PR 比AUC-ROC更敏感。

Top-k 精确率:在异常分数最高的k个样本中,有多少是真的异常。适用于排序型异常检测(如安全告警排序)。

|------|-------|-------|
| | 预测为正常 | 预测为异常 |
| 真实正常 | TN | FP |
| 真实异常 | FN | TP |

指标 公式 含义 适用场景
精确率 (Precision) TP / (TP+FP) 检出的"异常"中有多少是真的异常 误报成本高时(如垃圾邮件过滤)
召回率 (Recall) TP / (TP+FN) 真正的异常被检出了多少 漏报成本高时(如癌症检测、诈骗)
F1-score 2 × (P×R)/(P+R) 精确率和召回率的调和平均 需要平衡两者时
假阳性率 (FPR) FP / (FP+TN) 正常样本被误报的比例 用于ROC曲线
真阳性率 (TPR) 同召回率 异常检出率 用于ROC曲线

3.可解释机器学习(Explainable Mechine Leaning)

目标:给出一个理由,让人理解模型为什么这么判断。

(1)Local Explanation(局部解释):解释"为什么这张图被分类为猫?"

Saliency Map(显著图):计算每个像素对分类结果的影响强度,生成热力图。

显著图的改进:

SmoothGrad:对同一输入多次添加随机噪声,取多次梯度(或显著图)的平均,消除噪声干扰,使解释更稳定。

Integrated Gradients (IG):从基线图像(如全黑)到输入图像,沿着路径积分梯度,满足敏感性和实现不变性,比原始显著图更准确

(2)global explanatin(全局解释):解释"模型整体认为猫长什么样?"

需要全局解释的原因:

模型验证:确认模型学到的是合理特征,而非虚假关联(如背景水印)。

知识发现:从模型中提取领域知识(例如生物学、医学新规律)。

公平性审计:检查模型是否依赖敏感属性(如性别、种族)。

模型简化:用可解释模型(如决策树)近似黑盒,方便部署到合规场景。

4.网络处理输入数据的两个重要方法:

Visualization(可视化):试图将网络内部的计算结果(激活值、梯度、特征图等)映射为人类可理解的图像或热力图,直接展示网络对输入的响应模式。

Probing(探针):探针是一种诊断分类器------固定预训练模型参数,在某一中间层的特征之上训练一个简单的线性分类器(或浅层MLP),用于预测某个人工标注的属性。如果探针分类器准确率高,说明该中间层已经编码了该属性。

5.attack in NLP

evasion attack(逃逸攻击):在输入样本(文本)上添加人眼不易察觉的扰动(类似图像上的微小噪声),使模型产生错误预测。在 NLP 中,扰动通常是单词替换、插入、删除或词序调整。

四要素:

(1)goal(攻击目标):

Untargeted classification:让模型预测为任意错误类别。

Targeted classification:让模型预测为指定的错误类别。

Universal suffix dropped:可能指"通用对抗后缀"(universal adversarial suffix),即找到一个后缀附加到任意输入上都能导致误分类。这里写"dropped"可能是笔误,通常这类攻击不删除后缀而是添加或修改。

(2)Transformation(变换操作):如单词替换(同义词、形近字)、插入标点/空格、改写句式等。

(3)constrain(约束条件):保证扰动后的文本语义相似且自然通顺。例如:grammaticality(语法正确性)、POS consistency(词性一致性)。

(4)search method(搜索方法):greedy search: 每次选择对模型预测影响最大且满足约束的扰动,逐步构造对抗样本。基因演算法:受自然选择启发,模拟"物竞天择,适者生存"的进化过程,在搜索空间中寻找能成功欺骗目标模型的对抗样本;算法维护一个由多个候选对抗文本组成的"种群",通过选择、交叉(重组)和变异这三步操作,使种群一代代进化,不断逼近攻击目标。

imitation attack(模仿攻击):攻击者通过观察目标模型的输入输出对,模仿其决策边界或功能,从而构建一个替代模型(surrogate model)。然后利用替代模型生成对抗样本,这些样本往往也能欺骗原始模型(迁移性)。

backdoor attack(后门攻击):攻击者在训练阶段将"后门模式"(如特殊单词、短语、标点符号)植入模型,使得模型在遇到某些触发因素时输出不正常。当正常输入时模型表现良好;但一旦输入中包含后门触发器,模型就强制输出攻击者指定的错误标签。

6.攻击方法

方法 核心思路 特点
FGSM (Fast Gradient Sign Method) 这是一种高效的单步攻击方法。它通过计算损失函数的梯度,然后沿着梯度方向增加一个极小的扰动 ϵϵ 来生成对抗样本。公式为:=x+ϵ⋅sign(∇xJ(θ,x,y))xadv​=x+ϵ⋅sign(∇x​J(θ,x,y))。 速度极快,是评估模型基础鲁棒性的标准方法。
I-FGSM (Iterative FGSM) 不满足于单步攻击,I-FGSM 将 FGSM 的一步攻击拆分为多步,每一步都施加一个微小的扰动,并重新计算梯度。 通常在相同总扰动下,比 FGSM 的攻击成功率更高。
偏微分 (Partial Derivative) 它不是一种具体攻击方法,而是FGSM等方法的数学基础。FGSM 中的关键操作就是计算损失函数对输入的 偏微分(梯度) ,以此确定扰动的方向。 梯度的计算是整个攻击过程的理论基石。

补充:

攻击模型的存在不是未来"破坏",而是未来发现隐患、推动安全加固;可以评估模型的安全性和可靠性;可以研究模型的可解释性和鲁棒性边界。

相关推荐
电子科技圈2 小时前
SmartDV展示AI & HPC连接与存储IP解决方案,以解锁下一代算力芯片和节点的“速度密码”
网络·数据库·人工智能·嵌入式硬件·aigc·边缘计算
Daydream.V2 小时前
计算机视觉——疲劳检测、基于DNN的年龄性别预测
人工智能·计算机视觉·dnn·疲劳检测·年龄性别预测
龙文浩_2 小时前
AI的jieba分词原理与多模式应用解析
人工智能·pytorch·深度学习·神经网络
元智启2 小时前
企业AI应用开发:三步搞定智能体落地
人工智能
甄心爱学习2 小时前
自然语言处理-句法分析
人工智能·自然语言处理
枫叶林FYL2 小时前
【自然语言处理 NLP】前沿架构与多模态 6.1.1.3 硬件感知状态空间优化(FlashConv/FlashFFTConv)
人工智能
sun_tao12 小时前
主流大语言模型的损失函数异同
人工智能·llm·损失函数·loss
墨染天姬2 小时前
【AI】MCP模型上下文协议
人工智能
半页码书2 小时前
2026年哪个AI改简历最好用
人工智能·chatgpt·面试·求职招聘·职场发展·远程工作