网络流数据集处理(深度学习数据处理基础)

一、数据集处理

处理数据集是一个文件夹 一个文件夹处理的,将原网络流数据集 放入一个文件夹 处理转换成 Json文件。(数据预处理)然后将这些文件处理成目标文件格式 再分割成训练集和测试集。每次运行只会处理一个文件夹。

  • 运行train.py 导入训练集训练模型,训练完之后进行保存模型参数。
  • 运行test.py 导入测试集测试模型,因此我们需要使用模型参数保存代码。

如果我们需要将数据集4倍交叉验证分为4个部分,3个训练集,一个测试集。那就相当于运行三次train.py分别运行导入不同的三个训练集即可。如果每个部分都需要当做一次测试集,那就重复4次就行。

二、后门攻击训练

为了进行有监督训练,我们需要带有标签的数据集。

我们认为数据集是带有标签的,

训练这里分为几个步骤:

将训练集每64个网络流当做一个批次。

(1)选择一个投毒目标yt,在当前训练集批次中随机选择20%个投毒目标,进行以下处理:

  • 上一次网络流+当前网络流生成 触发器掩码m
  • 当前网络流 与 掩码的m[n+1,2n]相加,训练模型分类为目标类别yt

(2)对于不投毒的训练集,用正常标签训练。

相关推荐
岁月宁静1 分钟前
FastAPI 入门指南
人工智能·后端·python
乾元1 分钟前
AI 如何从配置历史与变更日志中推理出“变更引发的故障”——自动化根因分析的因果推理引擎
网络·人工智能·运维开发
明明如月学长2 分钟前
Token到底是个啥?看完这篇终于懂了(附计算工具)
人工智能
自动驾驶小学生2 分钟前
Transformer和LLM前沿内容(1):Transformer and LLM(注定成为经典)
人工智能·深度学习·llm·transformer
豆芽8196 分钟前
计算机视觉:异常检测(paper with code汇总更新中)
人工智能·神经网络·计算机视觉·视觉检测·扩散模型
semantist@语校11 分钟前
第五十五篇|从解释约束到结构化认知:京都国际学院的语言学校Prompt工程化实践
大数据·数据库·人工智能·python·百度·prompt·知识图谱
longvoyage15 分钟前
MindSpore社区活动:在对抗中增强网络
网络·人工智能·深度学习
科士威传动17 分钟前
如何为特定应用选型滚珠导轨?
人工智能·科技·机器人·自动化·制造
imbackneverdie23 分钟前
什么是Token?——理解自然语言处理中的基本单位
数据库·人工智能·自然语言处理·aigc·token
ai_xiaogui23 分钟前
Stable Diffusion Web UI 整合包一键安装教程:Windows/Mac零基础部署AI绘画工具
人工智能·ai作画·stable diffusion·一键整合包·ai生图神器·ai生图和动作迁移