基础操作
查看数据
df.head()
df.tail()
df.sample(5)
df.info()
df.describe()
索引
df.set_index('col_name', inplace=True/False) 设置某列为索引
查询数据
列
查看单列 df['Q1'] 返回一个series 带索引
查看多列 df[['Q1', 'Q2']]
查看多列 df.loc[:, ['Q1', 'Q2']]
行
索引是名称 直接用索引 df[df.index == 'liver']
查前三行 df[0:3] df[0:10:2]
iloc查行 df.iloc[:10, :]
行列同时查
df.loc['Ben', 'Q1': 'Q4']
df.loc['Eorge': 'Alexander', 'team': 'Q4']
过滤查询
单条件查询 df[df.Q1 > 90] / df[df['Q1'] > 90]
多条件查询 注意要假括号 不然报错 df[(df.Q1 > 60) & (df.Q1 < 80)]
另一种多条件查询 df[df.Q1 > 60].loc[df.Q1 < 80]
排序
单列降序排序 df.sort_values(by='cola_name', ascending=False)
多列分别排序 df.sort_values(by=['cola', 'colb'], ascending=[True, False])
分组聚合
df.groupby('team').sum()
df.groupby('team').mean()
df.groupby('team').agg({'Q1':'sum', 'Q2': 'mean'})