网络流数据集处理(深度学习数据处理基础)

一、数据集处理

处理数据集是一个文件夹 一个文件夹处理的,将原网络流数据集 放入一个文件夹 处理转换成 Json文件。(数据预处理)然后将这些文件处理成目标文件格式 再分割成训练集和测试集。每次运行只会处理一个文件夹。

  • 运行train.py 导入训练集训练模型,训练完之后进行保存模型参数。
  • 运行test.py 导入测试集测试模型,因此我们需要使用模型参数保存代码。

如果我们需要将数据集4倍交叉验证分为4个部分,3个训练集,一个测试集。那就相当于运行三次train.py分别运行导入不同的三个训练集即可。如果每个部分都需要当做一次测试集,那就重复4次就行。

二、后门攻击训练

为了进行有监督训练,我们需要带有标签的数据集。

我们认为数据集是带有标签的,

训练这里分为几个步骤:

将训练集每64个网络流当做一个批次。

(1)选择一个投毒目标yt,在当前训练集批次中随机选择20%个投毒目标,进行以下处理:

  • 上一次网络流+当前网络流生成 触发器掩码m
  • 当前网络流 与 掩码的m[n+1,2n]相加,训练模型分类为目标类别yt

(2)对于不投毒的训练集,用正常标签训练。

相关推荐
加油吧zkf11 分钟前
Conda虚拟环境管理:从入门到精通的常用命令
图像处理·深度学习·计算机视觉·conda
算家计算1 小时前
“28项评测23项SOTA——GLM-4.1V-9B-Thinking本地部署教程:10B级视觉语言模型的性能天花板!
人工智能·开源
Codebee1 小时前
OneCode注解驱动:智能送货单系统的AI原生实现
人工智能·低代码
2401_878624791 小时前
pytorch 自动微分
人工智能·pytorch·python·机器学习
胖达不服输1 小时前
「日拱一码」021 机器学习——特征工程
人工智能·python·机器学习·特征工程
Rvelamen1 小时前
大模型安全风险与防护产品综述 —— 以 Otter LLM Guard 为例
人工智能
MARS_AI_1 小时前
大语言模型驱动智能语音应答:技术演进与架构革新
人工智能·语言模型·自然语言处理·架构·信息与通信
程序员小灰1 小时前
AI独角兽团队Manus裁员80人,剩下40人迁至新加坡总部!
人工智能·aigc·agent
新智元1 小时前
OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课
人工智能·openai