数据分析 | 频率编码和标签编码 | Python代码

数据集见GitHub链接:https://github.com/ChuanTaoLai/Frequency-Encoding-And-Label-Encoding

标签编码:

python 复制代码
import pandas as pd
from sklearn.preprocessing import LabelEncoder

data1 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTrain.xlsx')
data2 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTest_without_unkown.xlsx')

'''标签编码'''
label_encoder = LabelEncoder()
df1 = pd.DataFrame()
df2 = pd.DataFrame()

df1['Attack_Types'] = label_encoder.fit_transform(data1['Attack_Types'])
df2['Attack_Types'] = label_encoder.transform(data2['Attack_Types'])

df1.to_excel('KDDTrain_label_encoded.xlsx', index=False)
df2.to_excel('KDDTest_label_encoded.xlsx', index=False)

频率编码:

python 复制代码
import pandas as pd

data1 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTrain.xlsx')
data2 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTest_without_unkown.xlsx')

df1 = data1[['protocol_type', 'service', 'flag']].copy()
df2 = data2[['protocol_type', 'service', 'flag']].copy()

'''频率编码'''
for col in df1.columns:
    df1[col + '_frequency_encoded'] = df1[col].map(df1[col].value_counts(normalize=True))

for col in df2.columns:
    df2[col + '_frequency_encoded'] = df2[col].map(df2[col].value_counts(normalize=True))

df1.to_excel('KDDTrain_frequency_encoded.xlsx', index=False)
df2.to_excel('KDDTest_frequency_encoded.xlsx', index=False)
相关推荐
qq_3422958217 小时前
如何备份大量小表组成的数据库_并行导出与多文件并发写入.txt
jvm·数据库·python
justjinji17 小时前
MySQL存储过程中如何防止SQL注入_使用参数化查询规范
jvm·数据库·python
qq_2069013917 小时前
mysql索引排序规则设置方法_mysqlCollation对索引影响
jvm·数据库·python
MOON404☾17 小时前
Chapter 001. Machine Learning Fundamentals
人工智能·机器学习
HHHHH1010HHHHH17 小时前
如何快速重置SQL表中的自增ID_使用TRUNCATE与重置命令
jvm·数据库·python
m0_7349497917 小时前
html怎么转konva舞台_Konva如何在HTML中创建2D绘图舞台
jvm·数据库·python
m0_7164300717 小时前
如何在非受控输入中实时显示值(不依赖状态更新)
jvm·数据库·python
2201_7610405917 小时前
如何统计SQL分组汇总数据_详解GROUP BY与HAVING用法
jvm·数据库·python
2301_7641505617 小时前
CSS如何通过BEM提升质量_应用命名规范减少Bug产生
jvm·数据库·python
2301_7641505617 小时前
CSS如何实现鼠标悬浮放大图片_使用transform scale效果
jvm·数据库·python