一、Pandas 是什么?
Pandas 是一个开源的 Python 类库,专为数据分析、处理和可视化设计。它有三大优势:高性能、易用的数据结构和便捷的分析工具,是数据处理的得力助手。
二、怎么用 Pandas?
安装 :可以用 pip install pandas
或 conda install pandas
,用清华源(https://pypi.tuna.tsinghua.edu.cn/simple)能加速安装。
导入 :通常用 import pandas as pd
语句导入,方便后续使用。
三、Pandas 的核心数据结构
1. Series
它类似表格中的一列,像一维数组,能存各种数据类型,由索引和值组成。创建方式多样:
用列表:不指定索引的话,默认从 0 开始。
用 ndarray:可以自己指定索引标签,比如 'a'、'b' 等。
用字典:字典的键会成为索引,值就是 Series 的值。
还能查看它的索引(.index
)和数值(.values
)。
2. DataFrame
这是个表格型数据结构,有行索引和列索引,列可以是不同数据类型。构造方法灵活,数据可以是 ndarray、series、列表、字典等。创建方式有:
用列表:需要指定列标签。
用 ndarrays:把数据组织成字典形式,键作为列名。
用字典:每个字典项对应一行数据,缺失的键会用 NaN 填充。
四、Pandas 数据查询
主要用 loc()
方法:
取单行:df.loc[行索引]
,能返回指定行的数据。
取多行:用 df.loc[[行索引1, 行索引2...]]
的格式,返回多个指定行。
当设置了自定义索引(比如用 "Chinese"、"Math" 等),直接用自定义索引就能取对应行。
掌握这些,就能轻松上手 Pandas 处理数据啦!