数据分析 | 频率编码和标签编码 | Python代码

数据集见GitHub链接:https://github.com/ChuanTaoLai/Frequency-Encoding-And-Label-Encoding

标签编码:

python 复制代码
import pandas as pd
from sklearn.preprocessing import LabelEncoder

data1 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTrain.xlsx')
data2 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTest_without_unkown.xlsx')

'''标签编码'''
label_encoder = LabelEncoder()
df1 = pd.DataFrame()
df2 = pd.DataFrame()

df1['Attack_Types'] = label_encoder.fit_transform(data1['Attack_Types'])
df2['Attack_Types'] = label_encoder.transform(data2['Attack_Types'])

df1.to_excel('KDDTrain_label_encoded.xlsx', index=False)
df2.to_excel('KDDTest_label_encoded.xlsx', index=False)

频率编码:

python 复制代码
import pandas as pd

data1 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTrain.xlsx')
data2 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTest_without_unkown.xlsx')

df1 = data1[['protocol_type', 'service', 'flag']].copy()
df2 = data2[['protocol_type', 'service', 'flag']].copy()

'''频率编码'''
for col in df1.columns:
    df1[col + '_frequency_encoded'] = df1[col].map(df1[col].value_counts(normalize=True))

for col in df2.columns:
    df2[col + '_frequency_encoded'] = df2[col].map(df2[col].value_counts(normalize=True))

df1.to_excel('KDDTrain_frequency_encoded.xlsx', index=False)
df2.to_excel('KDDTest_frequency_encoded.xlsx', index=False)
相关推荐
谷玉树2 分钟前
框架分类与选型:一种清晰的三层分类法
人工智能·pytorch·机器学习·架构·django·前端框架
星川皆无恙8 分钟前
大数据爬虫可视化分析:基于Python的豆瓣书籍可视化分析系统的设计与实现
大数据·爬虫·python·架构·pycharm·django
GIS数据转换器10 分钟前
基于GIS的智慧招商引资数据可视化系统
人工智能·信息可视化·数据挖掘·数据分析·无人机·旅游
生而为虫12 分钟前
30.正则表达式的应用
python·正则表达式·django·flask·fastapi·tornado
☆光之梦☆13 分钟前
openGauss企业级开源数据库:架构设计原理与核心特性深度拆解
数据库·python
嫂子的姐夫15 分钟前
01-协程
爬虫·python·协程·多任务爬虫
MediaTea16 分钟前
Python 编程B17:文件(二)
开发语言·python
我爱鸢尾花17 分钟前
RNN公式推导、案例实现及Python实现
人工智能·python·rnn·深度学习·神经网络·算法
lucky_syq26 分钟前
深入Spark核心:Shuffle全剖析与实战指南
大数据·分布式·python·spark