数据分析神器之pandas的20个分析、统计场景及示例

1. 数据读取与写入

python 复制代码

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 写入 CSV 文件
df.to_csv('output.csv', index=False)

2. 数据清洗

python 复制代码

# 填充缺失值
df.fillna(0, inplace=True)

# 删除缺失值
df.dropna(inplace=True)

# 删除重复值
df.drop_duplicates(inplace=True)

3. 数据筛选与过滤

python 复制代码

# 筛选某列大于某值的行
filtered_df = df[df['column_name'] > 10]

# 多条件筛选
filtered_df = df[(df['column1'] > 10) & (df['column2'] < 20)]

4. 数据分组与聚合

python 复制代码

# 按某列分组并计算均值
grouped_df = df.groupby('column_name').mean()

# 多列分组并计算总和
grouped_df = df.groupby(['column1', 'column2']).sum()

5. 数据透视表

python 复制代码

import pandas as pd

data = {
    'Date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-01', '2022-01-02', '2022-01-03'],
    'Store': ['A', 'A', 'A', 'B', 'B', 'B'],
    'Product': ['Apples', 'Bananas', 'Apples', 'Apples', 'Bananas', 'Bananas'],
    'Sales': [10, 15, 10, 12, 15, 20]
}

df = pd.DataFrame(data)

# 创建数据透视表
pivot = pd.pivot_table(df, values='Sales', index='Date', columns='Store', aggfunc='sum')
print(pivot)

6. 数据合并与连接

python 复制代码

# 横向合并
merged_df = pd.merge(df1, df2, on='common_column')

# 纵向合并
concatenated_df = pd.concat([df1, df2], axis=0)

7. 统计描述

python 复制代码

# 查看数据的描述性统计信息
df.describe()

8. 计算统计量

python 复制代码

# 计算均值
mean_value = df['column_name'].mean()

# 计算中位数
median_value = df['column_name'].median()

# 计算标准差
std_value = df['column_name'].std()

9. 时间序列分析

python 复制代码

# 将列转换为日期时间类型
df['date_column'] = pd.to_datetime(df['date_column'])

# 设置日期列为索引
df.set_index('date_column', inplace=True)

# 按月重采样并计算均值
monthly_mean = df.resample('M').mean()

10. 数据可视化

python 复制代码

import matplotlib.pyplot as plt

# 简单的折线图
df['column_name'].plot()
plt.show()

11. 数据类型转换

python 复制代码

# 将某列转换为整数类型
df['column_name'] = df['column_name'].astype(int)

12. 数据排序

python 复制代码

# 按某列排序
sorted_df = df.sort_values(by='column_name')

13. 数据透视（交叉表）

python 复制代码

cross_tab = pd.crosstab(df['column1'], df['column2'])

14. 数据重塑（长宽格式转换）

python 复制代码

# 宽转长
melted_df = pd.melt(df, id_vars=['id_vars'], value_vars=['value_vars'])

# 长转宽
pivoted_df = df.pivot(index='index_column', columns='columns_column', values='values_column')

15. 数据采样

python 复制代码

# 随机采样
sampled_df = df.sample(n=100)

16. 数据插值

python 复制代码

# 线性插值
df['column_name'].interpolate(method='linear', inplace=True)

17. 数据变换

python 复制代码

# 应用自定义函数
df['new_column'] = df['column_name'].apply(lambda x: x * 2)

18. 数据合并

python 复制代码

# 内连接
merged_df = pd.merge(df1, df2, how='inner', on='common_column')

19. 数据分箱

python 复制代码

# 分箱
df['binned_column'] = pd.cut(df['column_name'], bins=5)

20. 相关性分析

python 复制代码

# 计算相关性矩阵
correlation_matrix = df.corr()

这些示例展示了 Pandas 在数据分析和统计中的多种常见操作。Pandas 功能非常强大，适用于多种数据处理和分析任务。

数据分析神器之pandas的20个分析、统计场景 及示例

1. 数据读取与写入

2. 数据清洗

3. 数据筛选与过滤

4. 数据分组与聚合

5. 数据透视表

6. 数据合并与连接

7. 统计描述

8. 计算统计量

9. 时间序列分析

10. 数据可视化

11. 数据类型转换

12. 数据排序

13. 数据透视（交叉表）

14. 数据重塑（长宽格式转换）

15. 数据采样

16. 数据插值

17. 数据变换

18. 数据合并

19. 数据分箱

20. 相关性分析

数据分析神器之pandas的20个分析、统计场景及示例