机器学习深度学习beginning5

1.自编码器(Auto-Encoder):不需要标注数据,仅依赖数据本身的结构进行学习,属于自监督学习。自编码器试图学习一个恒等映射:输入 x→ 编码器 → 潜在表示 z→ 解码器 → 输出 x^,并让 x^尽可能接近 x。

核心结构:编码器 + 解码器

目标:最小化重构误差(输入与输出的差异)

变体:Denoising Auto-Encoder(去噪自编码器):需要在输入数据上加入噪声,输出为不加噪声的结果,即对输入X人为加入噪声得到 X',模型学习从 X' 重构出干净的 X

2.异常检测(Anomaly Detection):找出与训练资料不一样的数据。即给定一个数据集,其中大部分是正常样本,极少数是异常样本(也叫离群点、异常值),异常检测的目标是识别出那些与大多数样本显著不同的样本。

应用:金融上的欺诈交易、工业上的产品缺陷检测、医疗上的CT影像中的肿瘤(异常区域)、网络安全上的入侵检测等。

异常检测的评估指标以及曲线:

ROC曲线:横轴FPR,纵轴TPR。曲线下面积(AUC-ROC)越接近1越好。不依赖阈值。

PR曲线:横轴召回率,纵轴精确率。对于极度不平衡数据,AUC-PR 比AUC-ROC更敏感。

Top-k 精确率:在异常分数最高的k个样本中,有多少是真的异常。适用于排序型异常检测(如安全告警排序)。

|------|-------|-------|
| | 预测为正常 | 预测为异常 |
| 真实正常 | TN | FP |
| 真实异常 | FN | TP |

指标 公式 含义 适用场景
精确率 (Precision) TP / (TP+FP) 检出的"异常"中有多少是真的异常 误报成本高时(如垃圾邮件过滤)
召回率 (Recall) TP / (TP+FN) 真正的异常被检出了多少 漏报成本高时(如癌症检测、诈骗)
F1-score 2 × (P×R)/(P+R) 精确率和召回率的调和平均 需要平衡两者时
假阳性率 (FPR) FP / (FP+TN) 正常样本被误报的比例 用于ROC曲线
真阳性率 (TPR) 同召回率 异常检出率 用于ROC曲线

3.可解释机器学习(Explainable Mechine Leaning)

目标:给出一个理由,让人理解模型为什么这么判断。

(1)Local Explanation(局部解释):解释"为什么这张图被分类为猫?"

Saliency Map(显著图):计算每个像素对分类结果的影响强度,生成热力图。

显著图的改进:

SmoothGrad:对同一输入多次添加随机噪声,取多次梯度(或显著图)的平均,消除噪声干扰,使解释更稳定。

Integrated Gradients (IG):从基线图像(如全黑)到输入图像,沿着路径积分梯度,满足敏感性和实现不变性,比原始显著图更准确

(2)global explanatin(全局解释):解释"模型整体认为猫长什么样?"

需要全局解释的原因:

模型验证:确认模型学到的是合理特征,而非虚假关联(如背景水印)。

知识发现:从模型中提取领域知识(例如生物学、医学新规律)。

公平性审计:检查模型是否依赖敏感属性(如性别、种族)。

模型简化:用可解释模型(如决策树)近似黑盒,方便部署到合规场景。

4.网络处理输入数据的两个重要方法:

Visualization(可视化):试图将网络内部的计算结果(激活值、梯度、特征图等)映射为人类可理解的图像或热力图,直接展示网络对输入的响应模式。

Probing(探针):探针是一种诊断分类器------固定预训练模型参数,在某一中间层的特征之上训练一个简单的线性分类器(或浅层MLP),用于预测某个人工标注的属性。如果探针分类器准确率高,说明该中间层已经编码了该属性。

5.attack in NLP

evasion attack(逃逸攻击):在输入样本(文本)上添加人眼不易察觉的扰动(类似图像上的微小噪声),使模型产生错误预测。在 NLP 中,扰动通常是单词替换、插入、删除或词序调整。

四要素:

(1)goal(攻击目标):

Untargeted classification:让模型预测为任意错误类别。

Targeted classification:让模型预测为指定的错误类别。

Universal suffix dropped:可能指"通用对抗后缀"(universal adversarial suffix),即找到一个后缀附加到任意输入上都能导致误分类。这里写"dropped"可能是笔误,通常这类攻击不删除后缀而是添加或修改。

(2)Transformation(变换操作):如单词替换(同义词、形近字)、插入标点/空格、改写句式等。

(3)constrain(约束条件):保证扰动后的文本语义相似且自然通顺。例如:grammaticality(语法正确性)、POS consistency(词性一致性)。

(4)search method(搜索方法):greedy search: 每次选择对模型预测影响最大且满足约束的扰动,逐步构造对抗样本。基因演算法:受自然选择启发,模拟"物竞天择,适者生存"的进化过程,在搜索空间中寻找能成功欺骗目标模型的对抗样本;算法维护一个由多个候选对抗文本组成的"种群",通过选择、交叉(重组)和变异这三步操作,使种群一代代进化,不断逼近攻击目标。

imitation attack(模仿攻击):攻击者通过观察目标模型的输入输出对,模仿其决策边界或功能,从而构建一个替代模型(surrogate model)。然后利用替代模型生成对抗样本,这些样本往往也能欺骗原始模型(迁移性)。

backdoor attack(后门攻击):攻击者在训练阶段将"后门模式"(如特殊单词、短语、标点符号)植入模型,使得模型在遇到某些触发因素时输出不正常。当正常输入时模型表现良好;但一旦输入中包含后门触发器,模型就强制输出攻击者指定的错误标签。

6.攻击方法

方法 核心思路 特点
FGSM (Fast Gradient Sign Method) 这是一种高效的单步攻击方法。它通过计算损失函数的梯度,然后沿着梯度方向增加一个极小的扰动 ϵϵ 来生成对抗样本。公式为:=x+ϵ⋅sign(∇xJ(θ,x,y))xadv​=x+ϵ⋅sign(∇x​J(θ,x,y))。 速度极快,是评估模型基础鲁棒性的标准方法。
I-FGSM (Iterative FGSM) 不满足于单步攻击,I-FGSM 将 FGSM 的一步攻击拆分为多步,每一步都施加一个微小的扰动,并重新计算梯度。 通常在相同总扰动下,比 FGSM 的攻击成功率更高。
偏微分 (Partial Derivative) 它不是一种具体攻击方法,而是FGSM等方法的数学基础。FGSM 中的关键操作就是计算损失函数对输入的 偏微分(梯度) ,以此确定扰动的方向。 梯度的计算是整个攻击过程的理论基石。

补充:

攻击模型的存在不是未来"破坏",而是未来发现隐患、推动安全加固;可以评估模型的安全性和可靠性;可以研究模型的可解释性和鲁棒性边界。

相关推荐
Element_南笙16 小时前
VGG网络-深度学习经典架构解析
网络·深度学习·架构
薛定猫AI16 小时前
【深度解析】Claude Code Skills 工作流:用知识图谱、设计规范与 Agent 工具链提升 AI 编程效率
人工智能·知识图谱·设计规范
AI自动化工坊16 小时前
Cloudflare Project Think技术实践:零成本AI Agent部署架构深度解析
人工智能·架构·agent·cloudflare
IT_陈寒17 小时前
JavaScript里这个隐式类型转换的坑,我终于爬出来了
前端·人工智能·后端
星幻元宇VR17 小时前
VR航空航天科普设备助力航天知识普及
人工智能·科技·学习·安全·vr·虚拟现实
Agent产品评测局17 小时前
制造业生产调度自动化落地,完整步骤与避坑指南:2026企业级智能体选型与实战全景
运维·人工智能·ai·chatgpt·自动化
志栋智能17 小时前
超自动化巡检:让合规与审计变得轻松简单
运维·网络·人工智能·自动化
用户17085428888518 小时前
用 Codex + Huashu Design Skill,15 分钟做出设计师级别的演示文稿(PPT)
人工智能
Elastic 中国社区官方博客18 小时前
Elasticsearch:智能搜索 - AI builder 及 skills
大数据·人工智能·elasticsearch·搜索引擎·ai·信息可视化·全文检索
陶陶然Yay18 小时前
神经网络卷积层梯度公式推导
人工智能·深度学习·神经网络