sklearn的LabelEncoder 遇到新值的解决办法

问题:sklearn的LabelEncoder函数遇到新值报错

sklearn的LabelEncoder函数,在fit结束后,对dataframe数据进行transform的时候,如果遇到了没在fit时编码规则里的新值,会出现代码报错,不同于spark的LabelEncoder碰到新值会给你编成len+1。

解决办法:基于编码规则的修改

1、保存编码字典

复制代码
from sklearn.preprocessing import LabelEncoder

le = preprocessing.LabelEncoder()
le.fit(X)

# label编码其实就是映射的字典,将编码字典保存
le_dict = dict(zip(le.classes_, le.transform(le.classes_)))

2、数据判断

检索单个新项目的标签,如果项目丢失,则将值设置为未知

复制代码
le_dict.get(new_item, 'Unknown')

3、批量检索 Dataframe 列的标签

复制代码
df['col'] = df['col'].apply(lambda x: le_dict.get(x, 'Unknown'))

# 再将新值删除
df = df[df['col'] != 'Unknown']
df['col'] = df['col'].astype(dtype='int64')
相关推荐
aitoolhub6 分钟前
精选AI设计工具测评:创新性、易用性及行业应用
人工智能·在线设计
AndrewHZ29 分钟前
【图像处理基石】如何在图像中提取出基本形状,比如圆形,椭圆,方形等等?
图像处理·python·算法·计算机视觉·cv·形状提取
safestar201239 分钟前
n8n 架构深度解构:从设计哲学到企业级实践
人工智能·ai编程
喵手42 分钟前
AI在自动化与机器人技术中的前沿应用
人工智能·机器人·自动化
一只乔哇噻1 小时前
java后端工程师+AI大模型进修ing(研一版‖day55)
人工智能
温轻舟1 小时前
Python自动办公工具05-Word表中相同内容的单元格自动合并
开发语言·python·word·自动化办公·温轻舟
小毅&Nora1 小时前
【AI微服务】【Spring AI Alibaba】② Agent 深度实战:构建可记忆、可拦截、可流式的智能体系统
人工智能·微服务·spring-ai
陈天伟教授2 小时前
基于学习的人工智能(7)机器学习基本框架
人工智能·学习
千里念行客2402 小时前
昂瑞微正式启动科创板IPO发行
人工智能·科技·信息与通信·射频工程
习习.y2 小时前
python笔记梳理以及一些题目整理
开发语言·笔记·python