初识Pandas和Series

Pandas概述

Pandas是数据分析的三大剑客之一,是Python的核心数据分析师,它提供了快速、灵活、明确的数据结构,能够简单,直观,快速地处理各种类型的数据,具体介绍如下:

Pandas能够处理的数据:

1、与SQL或Excel表类似的数据

2、有序和无序(非固定频率)的时间序列数据

3、带行、列标签的矩阵数据

4、任意其他形式的观测、统计数据集 Pandas提供的两个主要数据结构Series(一维数组结构)和DataFrame(二维数组结构),可以处理金融,统计,社会科学,工程等领域里的大多数典型案例,并且Pandas是基于Numpy进行开发的,可以与其他第三方科学计算库完美集成。

pandas的功能很多,具体优势如下:

1.处理浮点与非浮点数据里的缺失数据,表示为NaN

2.大小可变,例如插入或删除DataFrame等多维对象的列

3.自动、显式数据对齐,显式地将对象与一组标签对齐,也可以忽略标签,在Series、DataFrame计算时自动与数据对齐

4.强大、灵活的分组统计(groupby)功能,即数据聚合、数据转换

5.把Python和NumPy数据结构里不规则、不同索引的数据轻松地转换为DataFrame对象

6.智能标签,对大型数据集进行切片、花式索引、子集分解等操作

7.直观地合并(merge)、连接(join)数据集

8.灵活地重塑(reshape)、透视(pivot)数据集

9.成熟的导入、导出工具,导入文本文件(CSV等支持分隔符的文件)、Excel文件、数据库等来源的数据,导出Excel文件、文本文件等,利用超快的HDF5格式保存或加载数据

10.时间序列;支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列共功能

Series

Pandas是Python数据分析重要的库,而Series和DataFrame是Pandas库中两个重要的对象,也是Pandas中两个重要的数据结构。

图解Series

Series是Python的Pandas库中的一种数据结构,它类似一维数组,由一组数据以及这组数据相关的标签(索引)组成,或者仅有一组数据或者仅有一组数据没有索引也可以创建一个简单的Series对象,Series可以存储整数,浮点数,字符串,Python对象等多种类型的数据。

Series对象的创建

创建Series对象主要使用Pandas中的Series()方法,语法如下:

ini 复制代码
import pandas as pd
s=pd.Series(data,index=index)

s=pd.Series([100,90,80])
print(s,type(s))

输出结果:

参数说明: data:表示数据,支持Python字典、多维数组、标量值(即只有大小,没有方向的量。也就是说,只是一个数值,如s=pd.Series(5))。

index:表示行标签(索引),不写的话默认从0开始。

返回值:Series对象。

Series的索引

Series位置索引

位置索引是从0开始的 [0]是Series的第一个数,[1]是Series的第二个数,以此类推。默认用到的就是位置索引。

注意点: Series对象不能用[-1]定位索引。

ini 复制代码
s1 = pd.Series([100,90,80])
print(s1[2])

Series标签索引

Series标签索引与位置索引方法类似,用[]表示,里面是索引名称,注意index的数据类型是字符串,如果需求获取多个标签索引值,用[[]]表示(相当于[]中包含一个列表)

lua 复制代码
s2 = pd.Series([110,119,120],index=['a','b','c'])
print(s2)
print(s2['a'])
print(s2[['a','c']])

Series切片索引

  • 标签索引做切片,包头包尾(即包含索引开始位置的数据,也包含索引借宿位置的数据)
  • 位置索引做切片,包头不包尾(即包含索引开始位置的数据,不包含索引借宿位置的数据)
python 复制代码
import pandas as pd
s2 = pd.Series([110,119,120],index=['a','b','c'])
print(s2)
# 使用标签索引切片
print(s2['b':'c'])
print('------')
# 使用位置索引切片
s4 = pd.Series([110,119,120])
print(s4[1:2])

获取Series的索引和值

python 复制代码
import pandas as pd
s2 = pd.Series([110,119,120],index=['a','b','c'])
print(s2.index)
print('------')
for i in s2.index:
    print(i)
print('------')
print(s2.values)
print('------')
for i in s2.values:
    print(i)

输出结果:

相关推荐
凡梦千华3 分钟前
Django时区感知
后端·python·django
程序猿 小项目大搞头1 小时前
即梦批量生成图片软件使用运营大管家-即梦图片批量生成器
python
dpxiaolong1 小时前
RK3588 Android12默认移除导航栏
开发语言·python
max5006001 小时前
基于多元线性回归、随机森林与神经网络的农作物元素含量预测及SHAP贡献量分析
人工智能·python·深度学习·神经网络·随机森林·线性回归·transformer
Pocker_Spades_A2 小时前
Python快速入门专业版(二十九):函数返回值:多返回值、None与函数嵌套调用
服务器·开发语言·python
yunpeng.zhou2 小时前
logging 模块升级版 loguru
python
kida_yuan2 小时前
【从零开始】14. 数据评分与筛选
python·数据分析·nlp
小李独爱秋3 小时前
特征值优化:机器学习中的数学基石
人工智能·python·线性代数·机器学习·数学建模
TwoAI3 小时前
Matplotlib:绘制你的第一张折线图与散点图
python·matplotlib
摸鱼仙人~3 小时前
一文详解 Python 密码哈希库 Passlib
开发语言·python·哈希算法