数据分析 | 频率编码和标签编码 | Python代码

数据集见GitHub链接:https://github.com/ChuanTaoLai/Frequency-Encoding-And-Label-Encoding

标签编码:

python 复制代码
import pandas as pd
from sklearn.preprocessing import LabelEncoder

data1 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTrain.xlsx')
data2 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTest_without_unkown.xlsx')

'''标签编码'''
label_encoder = LabelEncoder()
df1 = pd.DataFrame()
df2 = pd.DataFrame()

df1['Attack_Types'] = label_encoder.fit_transform(data1['Attack_Types'])
df2['Attack_Types'] = label_encoder.transform(data2['Attack_Types'])

df1.to_excel('KDDTrain_label_encoded.xlsx', index=False)
df2.to_excel('KDDTest_label_encoded.xlsx', index=False)

频率编码:

python 复制代码
import pandas as pd

data1 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTrain.xlsx')
data2 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTest_without_unkown.xlsx')

df1 = data1[['protocol_type', 'service', 'flag']].copy()
df2 = data2[['protocol_type', 'service', 'flag']].copy()

'''频率编码'''
for col in df1.columns:
    df1[col + '_frequency_encoded'] = df1[col].map(df1[col].value_counts(normalize=True))

for col in df2.columns:
    df2[col + '_frequency_encoded'] = df2[col].map(df2[col].value_counts(normalize=True))

df1.to_excel('KDDTrain_frequency_encoded.xlsx', index=False)
df2.to_excel('KDDTest_frequency_encoded.xlsx', index=False)
相关推荐
Nice2cu_Code3 分钟前
Python教程(三):类&对象、闭包、装饰器、类型注解、MRO
开发语言·python
databook8 分钟前
manim边学边做--三维图形的场景类
python·动效
调皮的芋头12 分钟前
【“以退为进“、“不得已而为之“与“风险对冲“的协同机制】
python·神经网络·机器学习
杜子腾dd28 分钟前
18.使用读写包操作Excel文件:xlrd、xlwt 和 xlutils 包
python·数据挖掘·excel·numpy·pandas
林泽毅31 分钟前
SwanLab私有化部署教程!
python·深度学习·大模型·强化学习·swanlab·训练实战
空谷传声~42 分钟前
配置blender的python环境
python·blender
小杨4042 小时前
python入门系列八(类)
人工智能·python·jupyter
没有晚不了安4 小时前
第三周日志-周末看书(3)
python
喵~来学编程啦4 小时前
【Python入门】一篇掌握Python中的字典(创建、访问、修改、字典方法)【详细版】
开发语言·python
患得患失9495 小时前
【后端】【django drf】Django DRF API 编写规范(程序设计规则)
python·django·sqlite