【Python进阶（七）】——Series数据结构

🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972

个人介绍: 研一｜统计学｜干货分享
擅长Python、Matlab、R等主流编程软件
累计十余项国家级比赛奖项，参与研究经费10w、40w级横向

文章目录

1 Series的主要特点
2 Series的定义方法
3 Series的操作方法

【Python进阶（六）】------随机数与数组，建议收藏！

该篇文章主要讲解了Python数据结构之Series，首先阐述了该数据结构的特点，然后利用Python展示了其定义方法和操作方法。

1 Series的主要特点

在Python的pandas库中，Series是一个一维的数组型对象，它能够保存任何数据类型（整数、字符串、浮点数、Python对象等），它带有一个轴标签（即索引），使得数据操作变得非常简单和直观。以下是Series的一些主要特点：

带有标签的一维数组：
- Series对象类似于NumPy的一维数组（ndarray），但是每个元素都有一个与之相关联的索引标签。
索引：
- Series的索引可以是任何数据类型（整数、字符串、日期时间等），这使得Series非常适合用于时间序列数据。
- 索引是自动生成的，通常是0到N-1的整数，除非明确指定了其他索引。
数据类型：
- Series可以保存任何数据类型，包括整数、浮点数、字符串、布尔值等。
- 如果Series中的数据类型不一致，它会自动转换为最通用的数据类型（例如，将整数转换为浮点数以包含小数）。
数据操作：
- 提供了许多用于数据分析和处理的方法，如算术运算、排序、筛选、分组等。
- 可以使用索引或条件表达式来访问或修改Series中的元素。
与DataFrame的兼容性：
- Series是pandas中更复杂的二维数据结构DataFrame的基础。
- 可以将多个Series组合成一个DataFrame，或将DataFrame的列视为单独的Series对象进行处理。
内存效率：
- 与纯Python列表相比，Series对象在内存使用上更加高效，因为它们使用了NumPy的底层数组结构。
缺失数据处理：
- Series支持缺失数据（NaN），这使得它非常适合处理现实世界中的数据集，其中可能包含缺失或无效的值。
- 提供了多种方法来处理缺失数据，如填充、删除或插值。
绘图集成：
- Series对象与Matplotlib等绘图库无缝集成，可以轻松创建各种数据可视化图表。
与NumPy的兼容性：
- Series的底层实现基于NumPy的数组，因此它继承了NumPy的许多功能和性能优势。
扩展性：
- 可以使用自定义的函数和方法来扩展Series的功能，以满足特定的数据分析需求。

2 Series的定义方法

运行程序：

复制代码

import pandas as pd
mySeries1=pd.Series(data = [11,12,13,14,15,16,17],index=["a","b","c","d","e","f","g"]) 
mySeries1

运行结果：

复制代码

a    11
b    12
c    13
d    14
e    15
f    16
g    17
dtype: int64

PS :

1.pd.Series( $11,12,13,14,15,16,17$ , index= $a,b,c,d,e,f,g$ ) #index为字符串时，需要双引号或单引号；

2.当data只包含一个元素时，series对象的定义支持"循环补齐"；

3.当series值多与一个时，值数和索引数需一致。

3 Series的操作方法

运行程序：

复制代码

import pandas as pd
mySeries4=pd.Series([21,22,23,24,25,26,27], index=["a","b","c","d","e","f","g"]) 
mySeries4.index#显示索引

mySeries4.values  #显示值

mySeries4['b']#索引b所对应值

mySeries4["b"] #索引b所对应值

mySeries4[["a","b","c"]]  #索引a、b、b所对应值


mySeries4["a":"d"] #索引a-d所对应值


mySeries4[1:4:2]#第2个-第5个，步长为2


mySeries4


"c" in mySeries4 #判断索引c是否在series中

"h" in mySeries4#判断索引h是否在series中

import pandas as pd
mySeries4=pd.Series([21,22,23,24,25,26,27], index=["a","b","c","d","e","f","g"]) 
mySeries5=mySeries4.reindex(index=["b","c","a","d","e","g","f"]) #修改索引
mySeries5 

mySeries5=mySeries4.reindex(index=["b","c","a","d","e","g","f"]) #修改索引
mySeries4 

mySeries5=mySeries4.reindex(index=["new1","c","a","new2","e","g","new3"])#更新索引次序，不存在则为nan

mySeries5

mySeries4

运行结果：

复制代码

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])
array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object')
array([21, 22, 23, 24, 25, 26, 27], dtype=int64)
22
22
a    21
b    22
c    23
dtype: int64
a    21
b    22
c    23
d    24
dtype: int64
b    22
d    24
dtype: int64
a    21
b    22
c    23
d    24
e    25
f    26
g    27
dtype: int64
True
False
b    22
c    23
a    21
d    24
e    25
g    27
f    26
dtype: int64
a    21
b    22
c    23
d    24
e    25
f    26
g    27
dtype: int64
new1     NaN
c       23.0
a       21.0
new2     NaN
e       25.0
g       27.0
new3     NaN
dtype: float64
a    21
b    22
c    23
d    24
e    25
f    26
g    27
dtype: int64