1. 数据读取与写入
python
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 写入 CSV 文件
df.to_csv('output.csv', index=False)
2. 数据清洗
python
# 填充缺失值
df.fillna(0, inplace=True)
# 删除缺失值
df.dropna(inplace=True)
# 删除重复值
df.drop_duplicates(inplace=True)
3. 数据筛选与过滤
python
# 筛选某列大于某值的行
filtered_df = df[df['column_name'] > 10]
# 多条件筛选
filtered_df = df[(df['column1'] > 10) & (df['column2'] < 20)]
4. 数据分组与聚合
python
# 按某列分组并计算均值
grouped_df = df.groupby('column_name').mean()
# 多列分组并计算总和
grouped_df = df.groupby(['column1', 'column2']).sum()
5. 数据透视表
python
import pandas as pd
data = {
'Date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-01', '2022-01-02', '2022-01-03'],
'Store': ['A', 'A', 'A', 'B', 'B', 'B'],
'Product': ['Apples', 'Bananas', 'Apples', 'Apples', 'Bananas', 'Bananas'],
'Sales': [10, 15, 10, 12, 15, 20]
}
df = pd.DataFrame(data)
# 创建数据透视表
pivot = pd.pivot_table(df, values='Sales', index='Date', columns='Store', aggfunc='sum')
print(pivot)
6. 数据合并与连接
python
# 横向合并
merged_df = pd.merge(df1, df2, on='common_column')
# 纵向合并
concatenated_df = pd.concat([df1, df2], axis=0)
7. 统计描述
python
# 查看数据的描述性统计信息
df.describe()
8. 计算统计量
python
# 计算均值
mean_value = df['column_name'].mean()
# 计算中位数
median_value = df['column_name'].median()
# 计算标准差
std_value = df['column_name'].std()
9. 时间序列分析
python
# 将列转换为日期时间类型
df['date_column'] = pd.to_datetime(df['date_column'])
# 设置日期列为索引
df.set_index('date_column', inplace=True)
# 按月重采样并计算均值
monthly_mean = df.resample('M').mean()
10. 数据可视化
python
import matplotlib.pyplot as plt
# 简单的折线图
df['column_name'].plot()
plt.show()
11. 数据类型转换
python
# 将某列转换为整数类型
df['column_name'] = df['column_name'].astype(int)
12. 数据排序
python
# 按某列排序
sorted_df = df.sort_values(by='column_name')
13. 数据透视(交叉表)
python
cross_tab = pd.crosstab(df['column1'], df['column2'])
14. 数据重塑(长宽格式转换)
python
# 宽转长
melted_df = pd.melt(df, id_vars=['id_vars'], value_vars=['value_vars'])
# 长转宽
pivoted_df = df.pivot(index='index_column', columns='columns_column', values='values_column')
15. 数据采样
python
# 随机采样
sampled_df = df.sample(n=100)
16. 数据插值
python
# 线性插值
df['column_name'].interpolate(method='linear', inplace=True)
17. 数据变换
python
# 应用自定义函数
df['new_column'] = df['column_name'].apply(lambda x: x * 2)
18. 数据合并
python
# 内连接
merged_df = pd.merge(df1, df2, how='inner', on='common_column')
19. 数据分箱
python
# 分箱
df['binned_column'] = pd.cut(df['column_name'], bins=5)
20. 相关性分析
python
# 计算相关性矩阵
correlation_matrix = df.corr()
这些示例展示了 Pandas 在数据分析和统计中的多种常见操作。Pandas 功能非常强大,适用于多种数据处理和分析任务。