基于规则引导的半监督日志异常检测系统

我想尝试做一个web日志分析系统，在查阅相关资料后我了解到web日志每一条都包含了ip/time/method/path/status/size/referrer/users_agent这几个数据

Ip和time就不说了

Method主要是看请求方式是get还是post

Path是访问路径，如果涉及到很多../这种跳往上级目录的也说明很有问题

Status是状态，就是访问状态，像我们平常出错的404、403这类的,如果同一个ip访问失败次数特别多基本上说明它非常可疑

referer告诉服务器你是从哪个页面点进来的，攻击者/脚本程序/扫描工具可能直接请求接口，不带referer，或者伪造一个奇怪的referer。

user_agent告诉服务器你是谁、你是什么设备或浏览器,如果太短大概率也有问题

声明：使用数据集来源

www.kaggle.com/datasets/el...

下载压缩包解压后里面有个.log扩展名文件，我们要是用的就是这个

首先我们提取数据变成csv文件，数据提取需要用到正则表达式：

数据提取

正则表达式提取数据代码：

log_pattern = re.compile(

r'(?P\S+) - - [(?P.?)] "(?P\S+) (?P\S+) \S+" (?P\d{3}) (?P\d+|-) "(?P[^"])" "(?P<user_agent>[^"]*)"'

)

参照一下正则表达式规则就能看懂，之前学习爬虫的时候对这些也略有涉猎，感觉还挺亲切的

数据提取完成之后数据有点太多了，所以我就随机挑选20万使用。

检测数据

这一步其实我想了好久好久，我们自己怎么找出异常数据呢？最后使用的是打分的方式。路径太长加几分，有危险词汇（比如sql注入）也加几分，状态错误码的话在加几分，User-Agent太长或者太短、出现特殊字符（比如<>%$@等）也会加分，分越高越可疑。

好处就是也方便调整权重，哪些主要特征，无关紧要的特征可以设置得分少一些。

结果是：

思路

首先数据是没法自己来一点点标记的，索性就直接思考无监督模型吧。我的思路是给每个数据评分后就能通过无监督学习去划定一个范围，正常数据肯定占大多数，得分低比较密集，恶意数据会比较分散。通过训练来划定一定范围然后据此范围来预测数据是正常的还是恶意的。但是无监督模型不好测试，因为我们谁也不知道测试数据的真正结果没法据此参照测试模型。

然后我又在想先每个数据跟据评分判断出是否是恶意的或者正常的，打上标签，然后将原本的字符串数据喂给模型让他根据日志本来的样子来判断。

用规则系统（你就是这样做的）给一小部分样本打标签（伪标签），训练一个初步模型用模型预测未标记样本，把置信度高的预测结果当成新标签加入训练集，再训练模型（迭代），这是伪标签+ 监督学习是半监督学习得方法。

说干就干，我用上边的代码制作伪标签，