📊 Pandas DataFrame 常用操作代码示例
下面用表格汇总了 DataFrame 的常用操作,方便你快速查阅和实践。
操作类别 | 代码示例 | 说明(简要) |
---|---|---|
数据读取 | df = pd.read_csv('data.csv') |
读取 CSV 文件 |
df = pd.read_excel('data.xlsx', sheet_name='Sheet1') |
读取 Excel 文件 | |
df = pd.read_clipboard() |
从剪贴板中读取数据,并将其转换为 DataFrame | |
数据查看 | df.head() |
查看前 5 行数据 |
df.info() |
查看数据基本信息(行数、列类型、非空值等) | |
df.describe() |
生成描述性统计信息(均值、标准差、分位数等) | |
数据清洗 | df.dropna() |
删除包含缺失值的行 |
df.fillna(value) |
填充缺失值 | |
df.drop_duplicates() |
删除重复行 | |
数据选择 | df['column_name'] |
选择单列 |
df[['col1', 'col2']] |
选择多列 | |
df.loc[row_index, col_name] |
按标签选择数据 | |
df.iloc[row_idx, col_idx] |
按位置选择数据 | |
df.query('A > 10 & B < 12') |
使用查询表达式筛选数据 | |
数据排序 | df.sort_values('column_name', ascending=False) |
按指定列的值降序排序 |
df.nlargest(5, 'column_name') |
获取某列最大的前 5 行数据 | |
数据分组聚合 | df.groupby('column_name')['other_column'].mean() |
按列分组并计算另一列的均值 |
df.groupby(['col1', 'col2']).agg({'col3': 'mean', 'col4': 'sum'}) |
多列分组并进行多种聚合操作 | |
数据合并 | pd.merge(df1, df2, on='key_column') |
基于键列合并两个 DataFrame |
pd.concat([df1, df2], axis=0) |
沿行方向拼接两个 DataFrame (axis=1 为列方向) |
|
数据处理 | df['new_column'] = df['existing_column'].apply(lambda x: x*2) |
对列应用函数创建新列 |
df['date_column'] = pd.to_datetime(df['date_column']) |
转换日期列格式 | |
数据输出 | df.to_csv('output.csv', index=False) |
输出到 CSV 文件(不包含索引列) |
💡 一些实用技巧:
- 条件筛选 :
df[(df['Age'] <= 25) & (df['Gender'] == '女')]
可以筛选出年龄小于等于25岁的女性 。 - 处理缺失值 :
df.dropna(subset=['column_name'])
可仅删除指定列中有缺失值的行 。 - 字符串处理 :
df['title'].str.split(' ').str[0]
可用于分割字符串并取第一部分 。
📚 精选Pandas学习资源
要系统学习 Pandas,优质资源很重要。下表汇总了一些推荐的学习资源:
资源类型 | 资源名称 | 作者/提供方 | 特点与简介 |
---|---|---|---|
官方文档 | 10 Minutes to pandas | Pandas | 官方快速入门指南,虽不止10分钟但内容精炼。 |
教程系列 | pandas 教程三部曲 | Greg Reda | 经典入门教程,适合初学者 。 |
实用指南 | 給 aspiring data scientist 的 pandas 實戰手冊 | LeeMeng | 近 40 个实用技巧,由浅入深 。 |
相关书籍 | 《Python for Data Analysis》 | Wes McKinney (Pandas创作者) | 系统介绍利用 Python进行数据分析,涵盖 IPython, NumPy, Pandas 。 |
针对性指南 | 在Pandas中的常规Excel操作 | 帮助有 Excel 背景的用户快速适应 Pandas 。 | |
从SQL到pandas | Greg Reda | 帮助从 SQL 迁移到 Pandas 的用户 。 | |
视频课程 | Pandas 视频教程 | David 9 | 系列视频和 Jupyter notebook 笔记本 。 |
备忘单 | Pandas Cheat Sheet | Pandas | 官方提供的速查表,方便快速查找常用操作。 |
✨ 学习建议:
- 边学边练:Pandas 的最佳学习方式是实际操作。可以在 Jupyter Notebook 或 Google Colab 中运行代码。
- 从实际问题出发:尝试用 Pandas 分析和处理你感兴趣的数据集。
- 善用官方文档:遇到函数用法不明确时,官方文档是最权威的参考。
- 参与社区:在 Stack Overflow 等社区提问和浏览,可以学到很多实战技巧。