基础操作
查看数据
df.head()
df.tail()
df.sample(5)
df.info()
df.describe()
索引
df.set_index('col_name', inplace=True/False) 设置某列为索引
查询数据
列
查看单列 df'Q1' 返回一个series 带索引
查看多列 df\['Q1', 'Q2']
查看多列 df.loc:, \['Q1', 'Q2']
行
索引是名称 直接用索引 dfdf.index == 'liver'
查前三行 df0:3 df0:10:2
iloc查行 df.iloc:10, :
行列同时查
df.loc'Ben', 'Q1': 'Q4'
df.loc'Eorge': 'Alexander', 'team': 'Q4'
过滤查询
单条件查询 dfdf.Q1 \> 90 / dfdf\['Q1' > 90]
多条件查询 注意要假括号 不然报错 df(df.Q1 \> 60) \& (df.Q1 \< 80)
另一种多条件查询 dfdf.Q1 \> 60.locdf.Q1 \< 80
排序
单列降序排序 df.sort_values(by='cola_name', ascending=False)
多列分别排序 df.sort_values(by='cola', 'colb', ascending=True, False)
分组聚合
df.groupby('team').sum()
df.groupby('team').mean()
df.groupby('team').agg({'Q1':'sum', 'Q2': 'mean'})