数据分析-Pandas数据分类处理

In [1]: s = pd.Series(["a", "b", "c", "a"], dtype="category")
In [2]: s

Out[2]: 
0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

还可以通过把现有序列 astype 转换为 dtype：Series``category

python 复制代码

In [3]: df = pd.DataFrame({"A": ["a", "b", "c", "a"]})
In [4]: df["B"] = df["A"].astype("category")
In [5]: df

Out[5]: 
   A  B
0  a  a
1  b  b
2  c  c
3  a  a

此外，通过使用特殊函数，例如 cut()，将分组数据到离散的箱。

python 复制代码

In [6]: df = pd.DataFrame({"value": np.random.randint(0, 100, 20)})
In [7]: labels = ["{0} - {1}".format(i, i + 9) for i in range(0, 100, 10)]
In [8]: df["group"] = pd.cut(df.value, range(0, 105, 10), right=False, labels=labels)
In [9]: df.head(10)

Out[9]: 
   value    group
0     65  60 - 69
1     49  40 - 49
2     56  50 - 59
3     43  40 - 49
4     43  40 - 49
5     91  90 - 99
6     32  30 - 39
7     87  80 - 89
8     36  30 - 39
9      8    0 - 9

通过传递一个pandas.Categorical 对象给序列或者 DataFrame 。

python 复制代码

In [10]: raw_cat = pd.Categorical(
   ....:     ["a", "b", "c", "a"], categories=["b", "c", "d"], ordered=False
   ....: )
   ....: 
In [11]: s = pd.Series(raw_cat)
In [12]: s

Out[12]: 
0    NaN
1      b
2      c
3    NaN
dtype: category
Categories (3, object): ['b', 'c', 'd']

In [13]: df = pd.DataFrame({"A": ["a", "b", "c", "a"]})
In [14]: df["B"] = raw_cat
In [15]: df

Out[15]: 
   A    B
0  a  NaN
1  b    b
2  c    c
3  a  NaN

分类数据具有特定的数据类型：category

复制代码

In [16]: df.dtypes
Out[16]: 
A      object
B    category
dtype: object

基于DataFrame

与序列转换为分类数据类似，既可以在构造期间转换，也可以在构造完成之后把所有列批量转换。

在构造函数中，是通过指定类型参数来在构造过程中完成：dtype="category"

python 复制代码

In [17]: df = pd.DataFrame({"A": list("abca"), "B": list("bccd")}, dtype="category")
In [18]: df.dtypes

Out[18]: 
A    category
B    category
dtype: object

需要注意的是，每列中存在的类别可能是不同的；因为转换是逐列完成的，所以只有给定列中存在的标签是有类别：

python 复制代码

In [19]: df["A"]

Out[19]: 
0    a
1    b
2    c
3    a
Name: A, dtype: category
Categories (3, object): ['a', 'b', 'c']

In [20]: df["B"]

Out[20]: 
0    b
1    c
2    c
3    d
Name: B, dtype: category
Categories (3, object): ['b', 'c', 'd']

同样地，现有列中的所有列都可以使用以下命令 astype() 转换：

python 复制代码

In [21]: df = pd.DataFrame({"A": list("abca"), "B": list("bccd")})
In [22]: df_cat = df.astype("category")
In [23]: df_cat.dtypes

Out[23]: 
A    category
B    category
dtype: object

同样的，这个转换也是逐列完成的：

复制代码

In [24]: df_cat["A"]
Out[24]: 
0    a
1    b
2    c
3    a
Name: A, dtype: category
Categories (3, object): ['a', 'b', 'c']

In [25]: df_cat["B"]
Out[25]: 
0    b
1    c
2    c
3    d
Name: B, dtype: category
Categories (3, object): ['b', 'c', 'd']

以上代码只是一个简单示例，示例代码中的表达式可以根据实际问题进行修改。

后面介绍下其他的展示形式。

觉得有用 收藏收藏收藏

点个赞点个赞点个赞

End

GPT专栏文章：

GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案

GPT实战系列-LangChain + ChatGLM3构建天气查询助手

大模型查询工具助手之股票免费查询接口

GPT实战系列-简单聊聊LangChain

GPT实战系列-大模型为我所用之借用ChatGLM3构建查询助手

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型，到底做了什么？(二)