Pandas与numpy的主要区别在于:Pandas主要用来处理表格和异构数据,numpy更适合处理同类型的数组数据。
Pandas中的两个主要数据结构是:Series和DataFrame。Series是类似于一维数组的对象,其创建方式为pd.Series()。
使用Pandas库的首要工作是导入Pandas库,import pandas as pd,有些情况下,可能使用from pandas import Series,DataFrame,后者在后续的使用中,不需要加pd.。示例如下:
pythonimport pandas as pd pd1=pd.Series([1,2,3,4,5,6]) print(pd1)
pythonfrom pandas import Series,DataFrame pd1=Series([1,2,3,4,5,6]) print(pd1)就个人使用习惯来讲,推荐第一种方式。
本次文档实例中,只讨论Series的具体使用情况,DataFrame将在后续文中讨论。
pythonimport pandas as pd #导入pandas库 data=pd.Series([1,2,3,4,5,6]) #Series是类似一维数组的对象 print(data) #左边显示索引,右边显示数据,未指定索引,从0开始 # 0 1 # 1 2 # 2 3 # 3 4 # 4 5 # 5 6 # dtype: int64 print(data.index) # RangeIndex(start=0, stop=6, step=1) data_a=pd.Series([1,2,3,4,5,6],index=['a','b','c','d','e','f']) #创建带有索引的Series,用具体的索引指明Series的值 print(data_a) # a 1 # b 2 # c 3 # d 4 # e 5 # f 6 # dtype: int64 print(data_a.index) # Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object') print(data_a['a']) # 1 print(data_a[['a','c','e']]) #多个索引值,需要用'[]'括起来 # a 1 # c 3 # e 5 # dtype: int64 print(data_a[data_a>3]) # d 4 # e 5 # f 6 # dtype: int64 print(data_a*2) # a 2 # b 4 # c 6 # d 8 # e 10 # f 12 # dtype: int64 import numpy as np print(np.exp(data_a)) # a 2.718282 # b 7.389056 # c 20.085537 # d 54.598150 # e 148.413159 # f 403.428793 # dtype: float64 d1={"jiangsu":"nanjing","zhejiang":"hangzhou","hebei":"shijiazhuang"} pd1=pd.Series(d1) #将字典转换为Series print(pd1) # jiangsu nanjing # zhejiang hangzhou # hebei shijiazhuang # dtype: object d2=pd1.to_dict() #将Series转换为dict print(d2) # {'jiangsu': 'nanjing', 'zhejiang': 'hangzhou', 'hebei': 'shijiazhuang'} p=['hebei','zhejiang','jiangsu'] pd2=pd.Series(d1,index=p) #指定索引顺序 print(pd2) # hebei shijiazhuang # zhejiang hangzhou # jiangsu nanjing # dtype: object pd1.index=['金陵中学','杭州二中','石家庄一中'] #修改索引值 print(pd1) # 金陵中学 nanjing # 杭州二中 hangzhou # 石家庄一中 shijiazhuang # dtype: object
Python pandas基础:Series数据操作详解
njxiejing2025-11-16 9:11