PenGymy论文阅读

这里发现idea被人家先发了,没办法,资料收集的不够全面,现在来学习一下这个项目

这篇论文的贡献如下:

总的来说,他的主要工作是构建逼真的仿真环境,然后根据这个仿真环境生成真实的靶场,使得这个智能体能够在这个真实的环境去互动。下面来逐渐解析他的工作,我尽量详细一点

1、背景和动机

这种项目是在网络攻防中,攻防双方攻击者处于暗面,防御者处于明面,这时候受到攻击后应急处理多少会造成损失,那么要是可以提前预测攻击者的攻击路径,并提前防御的话,那么就能够节省很多工作。在安全领域叫做攻击路径预测。但是网络环境复杂化,要是网络高度敏感脆弱,攻击方式也多,导致攻击方式多样化。提前部署需要经验丰富的防御者,来识别这些潜在的攻击路径。修补这些路径的优先级也有所考虑。由于时间问题,暴力穷举也不是那么实惠。人们想要找到智能代理去做到这件事情。

强化学习,就是这玩意智能体能够去自己试错,得到反馈去调整。诶不错哦。下面是他们的建模示意图。

然后他们说,前面的搭大家做的仿真环境,需要的资源有限,大体说的是不够逼真把,和实际的结果还是有点区别的。要么就是前面做的动作比较少,看来他很自信。

2、论文工作

2.1 靶场部分

前面说了,他实现了搭建自定义靶场环境,然后能在这个真实环境中交互,显然会比仿真环境更加真实。2018年Beuran等人描述使用 CyRIS模块来自动创建靶场环境。这篇论文就讲设计一个PenGym模块,把渗透测试场景(仿真环境)转换成为CyRIS描述,去创建这样一个网络靶场。作者强调:我们的实施涵盖主机配置和网络连接,包括网桥和虚拟接口。

2.2 PenGym框架

这里说明下,前面的PenGym模块是这个框架的一部分。这个框架作者声称已将 PenGym 扩展为 RL 渗透测试代理的全自动、有效和现实的训练框架。它支持网络流量发现和基于主机的漏洞利用操作,包括 NASim 中的所有操作。

他有两种模式,文章中用的词是simulation mode and an emulation mode.,一种算是更加逼真的仿真环境,另外一种就是前面说的包含着PenGym模块,将会创建靶场的真实环境。

我们主要还是看这个PenGym模块的模式,他的流程是,首先从动作空间中挑选动作,然后应该会有一个模块去转换一下,变成实际执行的动作去执行,这里也就是他说的一个叫做状态/动作模块之类的东西,然后这个模块获取到了这个返回再返回给仿真环境。

2.3 智能体动作

宣称是有六类动作空间的

2.4 动作优化

执行的时间可能会比较长,作者对动作进行了两种优化,执行的动作所撰写的脚本使用了nmap等工具,这里使用了一些参数来节约时间,比方说:包括:-Pn、-n、-T5、--min-parallel 和 --max-parallel。此外,还提供了当前方案中可用的端口,以避免扫描不可用的端口,从而节省时间。

第二就是在获取了主机权限后获取到足够的信息后停止对该主机的自动检查。文中是这样描述:

Stopping conditions are determined to finish the Metasploit job earlier for these actions. This job will terminate once all shell information is obtained. However, some information is not required for subsequent actions. Stopping the job early can reduce execution time while preserving the functionality of the shell object.

  • 当 Metasploit 成功获得目标系统的 shell 后,它会收集相关信息。在某些情况下,并不是所有收集到的信息都对后续操作是必需的。
  • 通过在获取到所有必要的 shell 信息后及时停止作业,可以有效缩短执行时间。

2.5 训练时间优化

作者觉得在优化训练阶段,一个动作获取到的信息可以重复利用,可以把他存起来

后续是作者一些实验方面的工作了 主要就是用三个环境训练的智能体相互在其他两个环境中测试下 感兴趣的可以阅读原文看一下 下面打算对这个项目进行复现 喜欢的话可以点点关注 交流一下

相关推荐
Kaydeon16 小时前
【具身智能】Spatial Forcing 论文笔记 如何隐式地为 VLA 注入 3D 空间感知能力
论文阅读
wzx_Eleven16 小时前
【论文阅读】Towards Fair Federated Learning via Unbiased Feature Aggregation
论文阅读·人工智能·神经网络
张较瘦_19 小时前
[论文阅读] AI+ | AI重构工业数字孪生!新一代iDTS破解数据稀缺、智能不足难题,附3大落地案例
论文阅读·人工智能·重构
DuHz1 天前
基于时频域霍夫变换的汽车雷达互干扰抑制——论文阅读
论文阅读·算法·汽车·毫米波雷达
张较瘦_1 天前
[论文阅读] AI + 职业教育 | 从框架到实践:职业院校教师人工智能素养提升的完整方案
论文阅读·人工智能
仙人掌_lz1 天前
Kimi Linear 论文阅读笔记:第一次“线性注意力”全面胜过全注意力
论文阅读·笔记
平和男人杨争争1 天前
SNN(TTFS)论文阅读——LC-TTFS
论文阅读·人工智能·神经网络·机器学习
2301_797892831 天前
论文阅读:《A Universal Model for Human Mobility Prediction》
论文阅读
锂享生活1 天前
论文阅读:铁路车辆跨临界 CO₂ 空调系统模型预测控制(MPC)策略
论文阅读·算法
DuHz2 天前
霍夫变换和基于时频脊线的汽车FMCW雷达干扰抑制——论文阅读
论文阅读·物联网·算法·汽车·信息与通信·毫米波雷达