Python pandas基础：Series数据操作详解

Pandas与numpy的主要区别在于：Pandas主要用来处理表格和异构数据，numpy更适合处理同类型的数组数据。

Pandas中的两个主要数据结构是：Series和DataFrame。Series是类似于一维数组的对象，其创建方式为pd.Series()。
使用Pandas库的首要工作是导入Pandas库，import pandas as pd，有些情况下，可能使用from pandas import Series,DataFrame,后者在后续的使用中，不需要加pd.。示例如下:

python 复制代码

import pandas as pd
pd1=pd.Series([1,2,3,4,5,6])
print(pd1)

python 复制代码

from pandas import Series,DataFrame
pd1=Series([1,2,3,4,5,6])
print(pd1)

就个人使用习惯来讲，推荐第一种方式。
本次文档实例中，只讨论Series的具体使用情况，DataFrame将在后续文中讨论。

python 复制代码

import pandas as pd                    #导入pandas库
data=pd.Series([1,2,3,4,5,6])          #Series是类似一维数组的对象
print(data)                            #左边显示索引，右边显示数据，未指定索引，从0开始
# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# 5    6
# dtype: int64
print(data.index)
# RangeIndex(start=0, stop=6, step=1)
data_a=pd.Series([1,2,3,4,5,6],index=['a','b','c','d','e','f'])
#创建带有索引的Series，用具体的索引指明Series的值
print(data_a)
# a    1
# b    2
# c    3
# d    4
# e    5
# f    6
# dtype: int64
print(data_a.index)
# Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')
print(data_a['a'])
# 1
print(data_a[['a','c','e']])    #多个索引值，需要用'[]'括起来
# a    1
# c    3
# e    5
# dtype: int64
print(data_a[data_a>3])
# d    4
# e    5
# f    6
# dtype: int64
print(data_a*2)
# a     2
# b     4
# c     6
# d     8
# e    10
# f    12
# dtype: int64
import numpy as np
print(np.exp(data_a))
# a      2.718282
# b      7.389056
# c     20.085537
# d     54.598150
# e    148.413159
# f    403.428793
# dtype: float64
d1={"jiangsu":"nanjing","zhejiang":"hangzhou","hebei":"shijiazhuang"}
pd1=pd.Series(d1)               #将字典转换为Series
print(pd1)
# jiangsu          nanjing
# zhejiang        hangzhou
# hebei       shijiazhuang
# dtype: object
d2=pd1.to_dict()               #将Series转换为dict
print(d2)
# {'jiangsu': 'nanjing', 'zhejiang': 'hangzhou', 'hebei': 'shijiazhuang'}
p=['hebei','zhejiang','jiangsu']
pd2=pd.Series(d1,index=p)   #指定索引顺序
print(pd2)
# hebei       shijiazhuang
# zhejiang        hangzhou
# jiangsu          nanjing
# dtype: object
pd1.index=['金陵中学','杭州二中','石家庄一中']   #修改索引值
print(pd1)
# 金陵中学          nanjing
# 杭州二中         hangzhou
# 石家庄一中    shijiazhuang
# dtype: object