Python Pandas数据分析入门指南
一、Pandas简介
Pandas是Python中最流行的数据处理库,提供了高性能、易用的数据结构(Series和DataFrame),特别适合表格数据的分析、处理和清洗。
二、环境准备
python
pip install pandas numpy openpyxl
import pandas as pd
import numpy as np
print(f"Pandas版本: {pd.__version__}")
三、核心数据结构
1. Series
python
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s = pd.Series([90, 85, 78, 92], index=['数学', '语文', '英语', '物理'])
2. DataFrame
python
data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [25, 30, 28, 35], '工资': [8000, 12000, 9500, 15000]}
df = pd.DataFrame(data)
四、数据读取与保存
python
df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
df.to_csv('output.csv', index=False, encoding='utf-8-sig')
df.to_excel('output.xlsx', index=False)
五、数据筛选
python
high_salary = df[df['工资'] > 10000]
young_high_salary = df[(df['年龄'] < 30) & (df['工资'] > 10000)]
六、数据统计
python
print(df.describe())
grouped = df.groupby('部门').agg({'工资': ['mean', 'max', 'min'], '年龄': 'mean'})
df_sorted = df.sort_values('工资', ascending=False)
七、数据清洗
python
df['年龄'].fillna(df['年龄'].mean(), inplace=True)
df.dropna(inplace=True)
df.drop_duplicates(inplace=True)
八、数据透视表
python
pivot = pd.pivot_table(df, values='工资', index='部门', columns='岗位', aggfunc='mean')
九、实验结果

| 操作 | 方法 | 难度 |
|---|---|---|
| 创建数据 | pd.DataFrame() | ⭐ |
| 读取文件 | pd.read_csv() | ⭐ |
| 数据筛选 | dfdf\['列'>值] | ⭐⭐ |
| 分组聚合 | groupby().agg() | ⭐⭐ |
| 数据透视 | pivot_table() | ⭐⭐⭐ |
十、总结
Pandas是Python数据分析的基础库,掌握其核心操作能够大大提高数据处理效率。
标签: Python | Pandas | 数据分析 | 数据处理