【第二十五周】机器学习笔记二十四

摘要

本周学习围绕对抗攻击这一核心概念展开。通过构造恶意输入来测试并提升模型在真实场景中的鲁棒性,例如在垃圾邮件过滤等安全关键领域。进而,系统介绍了攻击的两大类型:无目标攻击与有目标攻击。在实现方法上,重点讲解了基于梯度优化(如快速梯度符号法)和距离度量的基本技术框架。

abstract

This week's learning focused on the core concept of adversarial attacks. The course explained the necessity of constructing malicious inputs to test and improve the robustness of models in real-world scenarios, such as in security-critical areas like spam filtering. It then systematically introduced the two main types of attacks: non-targeted and targeted attacks. Regarding implementation methods, the course emphasized the basic technical framework based on gradient optimization (e.g., the Fast Gradient Sign Method) and distance metrics.

一、对抗攻击的必要性

对抗攻击的必要性在于,人工智能模型在理想实验环境下的性能表现往往掩盖了其在现实场景中的潜在脆弱性。通过对模型输入进行精心设计的微小扰动(即对抗样本),可以系统性检验模型对于恶意干扰的鲁棒性,暴露其决策边界的不稳定性与隐蔽缺陷。这一评估过程对于垃圾邮件过滤、自动驾驶、金融风控等安全敏感领域至关重要,不仅是模型安全部署前的必要压力测试,也是推动开发更稳健、可信赖的AI系统的基础性工作。

二、Evasion Attacks in Computer Vision

Evasion Attacks(规避攻击)是计算机视觉领域的一种对抗性攻击,旨在通过精心构造并人眼难以察觉的扰动,输入到目标机器学习模型中,使其产生错误的预测结果。这类攻击发生在模型推理阶段,不改变模型本身,而是针对特定输入进行"欺骗"。例如,在图像分类任务中,攻击者可能通过在熊猫图片上添加细微的噪声扰动,使模型将其误判为"长臂猿"。

其核心原理在于利用模型决策边界的脆弱性。深度学习模型通常在高维空间中存在线性或非线性的决策边界,而对抗性扰动通过沿着损失函数梯度上升的方向(如快速梯度符号法FGSM)或优化方法,在原始输入上添加微小扰动,使其越过决策边界,导致输出突变。由于扰动幅度小,人类视觉系统难以察觉,但模型的高维特征空间对这类变化极为敏感。这暴露了模型过于依赖数据表面统计特征、缺乏鲁棒语义理解的局限性,促使研究者使用更稳健的防御方法。

二、基于梯度优化的对抗攻击生成流程如下:

  1. 设定目标:决定是让模型认错就行(非目标攻击),还是必须错成某个特定类别(目标攻击)。

  2. 选择约束 :确定使用哪种距离度量(如 L∞)及其上限(如 ε = 0.03,即每个像素值变化不超过 0.03,假设像素值范围是 [0, 1])。

  3. 梯度计算:将原始图片输入模型,根据攻击目标计算损失函数的梯度。

  4. 生成扰动:根据梯度信息(如 FGSM 取符号)和约束上限,计算出一个扰动向量。

  5. 施加扰动 :将扰动加到原始图片上,得到对抗样本 x' = x + 扰动

  6. 裁剪 :为确保 x' 仍在有效的输入范围内(如图像像素值在 0 到 1 之间),会进行裁剪操作。

  7. 验证 :将 x' 输入模型,查看攻击是否成功。

相关推荐
一定要AK2 小时前
Spring 入门核心笔记
java·笔记·spring
墨染天姬2 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志2 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114242 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠2 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光2 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好2 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
_李小白2 小时前
【OSG学习笔记】Day 38: TextureVisitor(纹理访问器)
android·笔记·学习
智星云算力3 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo3 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin