Machine learing中通过pandas.factorize将object值变成离散值

深入了解 pandas.factorize 函数

pandas.factorize() 是 Pandas 库中一个功能强大且多用途的函数。它被用来将对象编码为枚举类型或分类变量。

功能概览:

这个方法非常有用,尤其是当我们需要获取一个数组的数字表示,并且只关心识别其中不同值的情况。factorize 提供了多种形式的调用方式,可作为顶级函数 pandas.factorize(),以及 Series.factorize()Index.factorize() 方法使用。

参数解析:

  • values(序列) :一个一维序列,表示需要进行因子化的数据。如果序列不是 Pandas 对象,会在因子化之前被转换为 ndarray。
  • sort(布尔型,默认为 False) :对唯一值进行排序并洗牌,以保持关系。
  • use_na_sentinel(布尔型,默认为 True) :若为 True,则使用哨兵值 -1 代表 NaN 值。若为 False,则 NaN 值将被编码为非负整数,并且在值的唯一值中不会删除 NaN。

返回结果:

  • codes(ndarray) :一个整数 ndarray,作为唯一值的索引器。uniques.take(codes) 将具有与原始值相同的值。
  • uniques(ndarray、Index 或 Categorical) :唯一的有效值。当值是 Categorical 时,uniques 是一个 Categorical。当值是其他 Pandas 对象时,返回一个 Index。否则,返回一个一维 ndarray。

注意事项:

即使值中存在缺失值,uniques 也不会包含针对缺失值的条目。

示例和用法:

以下是一些使用 pandas.factorize() 的示例:

php 复制代码
>>> codes, uniques = pd.factorize(np.array(['b', 'b', 'a', 'c', 'b'], dtype="O"))
>>> codes
array([0, 0, 1, 2, 0])
>>> uniques
array(['b', 'a', 'c'], dtype=object)
  • 排序和关系维护:使用 sort=True,uniques 将被排序,并且 codes 将被洗牌以维护关系。

    ini 复制代码
    codes, uniques = pd.factorize(np.array(['b', 'b', 'a', 'c', 'b'], dtype="O"),
    ...                               sort=True)
    >>> codes
    array([1, 1, 0, 2, 1])
    >>> uniques
    array(['a', 'b', 'c'], dtype=object)
  • 处理 NaN 值:当 use_na_sentinel=True 时(默认),缺失值在 codes 中用-1 表示,并且在 uniques 中不包含缺失值。

    php 复制代码
    codes, uniques = pd.factorize(np.array(['b', None, 'a', 'c', 'b'], dtype="O"))
    >>> codes
    array([ 0, -1,  1,  2,  0])
    >>> uniques
    array(['b', 'a', 'c'], dtype=object)

对于不同的 Pandas 对象,因子化的结果类型会有所不同。对于 Categoricals,将返回一个 Categorical;对于其他 Pandas 对象,将返回一个 Index。

css 复制代码
>>> cat = pd.Categorical(['a', 'a', 'c'], categories=['a', 'b', 'c'])
>>> codes, uniques = pd.factorize(cat)
>>> codes
array([0, 0, 1])
>>> uniques
['a', 'c']
Categories (3, object): ['a', 'b', 'c']

pandas.factorize() 是一个高效的工具,能够有效地处理分类数据表示和缺失值的编码。

相关推荐
360智汇云1 小时前
AI标注平台TLP:AI预标+人工精修,重塑数据标注效率
人工智能·深度学习·机器学习
落羽的落羽1 小时前
【算法札记】练习 | Week2
android·linux·服务器·c++·python·算法·机器学习
做cv的小昊2 小时前
【TJU】研究生应用统计学课程笔记(3)——第一章 数理统计的基本知识(1.4 正态总体的样本均值和样本方差的分布、1.5 充分统计量和完备统计量)
笔记·学习·线性代数·机器学习·数学建模·概率论
码农的神经元2 小时前
从零搭建一个带 GUI 的机器学习建模系统:多模型切换、遗传算法优化与可视化实战复盘
人工智能·机器学习
一楼的猫2 小时前
茄子小说AI辅助智能写作助手:10倍速创作神器
人工智能·学习·机器学习·学习方法·ai写作·迁移学习·集成学习
gjhave2 小时前
强化学习论文(Double-DQN)
人工智能·机器学习
MicroTech20252 小时前
融合残差结构的量子电路算法:MLGO微算法科技拓展量子机器学习频谱边界
科技·算法·机器学习
源码之家3 小时前
计算机毕业设计:Python农业数据分析与粮食产量预测系统 Django框架 数据分析 可视化 机器学习 深度学习 大数据 大模型(建议收藏)✅
python·机器学习·信息可视化·数据分析·django·flask·课程设计
MediaTea3 小时前
Scikit-learn:特征矩阵与目标变量
人工智能·python·机器学习·矩阵·scikit-learn
郝学胜-神的一滴3 小时前
深度学习入门:极简神经网络搭建与参数计算全攻略
人工智能·pytorch·python·深度学习·神经网络·机器学习