数据分析 | 频率编码和标签编码 | Python代码

数据集见GitHub链接:https://github.com/ChuanTaoLai/Frequency-Encoding-And-Label-Encoding

标签编码:

python 复制代码
import pandas as pd
from sklearn.preprocessing import LabelEncoder

data1 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTrain.xlsx')
data2 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTest_without_unkown.xlsx')

'''标签编码'''
label_encoder = LabelEncoder()
df1 = pd.DataFrame()
df2 = pd.DataFrame()

df1['Attack_Types'] = label_encoder.fit_transform(data1['Attack_Types'])
df2['Attack_Types'] = label_encoder.transform(data2['Attack_Types'])

df1.to_excel('KDDTrain_label_encoded.xlsx', index=False)
df2.to_excel('KDDTest_label_encoded.xlsx', index=False)

频率编码:

python 复制代码
import pandas as pd

data1 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTrain.xlsx')
data2 = pd.read_excel(r'D:\0文献整理\网络入侵检测\KDD99\KDDTest_without_unkown.xlsx')

df1 = data1[['protocol_type', 'service', 'flag']].copy()
df2 = data2[['protocol_type', 'service', 'flag']].copy()

'''频率编码'''
for col in df1.columns:
    df1[col + '_frequency_encoded'] = df1[col].map(df1[col].value_counts(normalize=True))

for col in df2.columns:
    df2[col + '_frequency_encoded'] = df2[col].map(df2[col].value_counts(normalize=True))

df1.to_excel('KDDTrain_frequency_encoded.xlsx', index=False)
df2.to_excel('KDDTest_frequency_encoded.xlsx', index=False)
相关推荐
Conqueror71213 分钟前
机器学习丨八股学习分享 EP1
人工智能·机器学习
boring_student17 分钟前
自动驾驶与车路协同
人工智能·机器学习·自动驾驶
追逐☞20 分钟前
PyTorch使用-张量类型转换
人工智能·pytorch·python
GIS数据转换器22 分钟前
构建智能汽车地图标准体系:自动驾驶技术的基石
大数据·人工智能·科技·安全·机器学习·自动驾驶·汽车
懒大王爱吃狼29 分钟前
Python + Qt Designer构建多界面GUI应用程序:Python如何调用多个界面文件
开发语言·数据库·python·qt·mysql·python基础·命令模式
北京_宏哥33 分钟前
🔥《手把手教你》系列练习篇之8-python+ selenium自动化测试(详细教程)
前端·python·selenium
北京_宏哥35 分钟前
🔥《手把手教你》系列练习篇之7-python+ selenium自动化测试(详细教程)
前端·python·selenium
三道杠卷胡40 分钟前
【AI News | 20250316】每日AI进展
人工智能·python·语言模型·github·aigc
这里有鱼汤1 小时前
Python编程新境界:掌握函数式编程,让你的代码优雅到飞起
后端·python
这里有鱼汤1 小时前
如何让 Python 代码像口红一样有质感?答案是 dataclass!
后端·python