数据分析神器之pandas的20个分析、统计场景 及示例

1. 数据读取与写入

python 复制代码
import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 写入 CSV 文件
df.to_csv('output.csv', index=False)

2. 数据清洗

python 复制代码
# 填充缺失值
df.fillna(0, inplace=True)

# 删除缺失值
df.dropna(inplace=True)

# 删除重复值
df.drop_duplicates(inplace=True)

3. 数据筛选与过滤

python 复制代码
# 筛选某列大于某值的行
filtered_df = df[df['column_name'] > 10]

# 多条件筛选
filtered_df = df[(df['column1'] > 10) & (df['column2'] < 20)]

4. 数据分组与聚合

python 复制代码
# 按某列分组并计算均值
grouped_df = df.groupby('column_name').mean()

# 多列分组并计算总和
grouped_df = df.groupby(['column1', 'column2']).sum()

5. 数据透视表

python 复制代码
import pandas as pd

data = {
    'Date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-01', '2022-01-02', '2022-01-03'],
    'Store': ['A', 'A', 'A', 'B', 'B', 'B'],
    'Product': ['Apples', 'Bananas', 'Apples', 'Apples', 'Bananas', 'Bananas'],
    'Sales': [10, 15, 10, 12, 15, 20]
}

df = pd.DataFrame(data)

# 创建数据透视表
pivot = pd.pivot_table(df, values='Sales', index='Date', columns='Store', aggfunc='sum')
print(pivot)

6. 数据合并与连接

python 复制代码
# 横向合并
merged_df = pd.merge(df1, df2, on='common_column')

# 纵向合并
concatenated_df = pd.concat([df1, df2], axis=0)

7. 统计描述

python 复制代码
# 查看数据的描述性统计信息
df.describe()

8. 计算统计量

python 复制代码
# 计算均值
mean_value = df['column_name'].mean()

# 计算中位数
median_value = df['column_name'].median()

# 计算标准差
std_value = df['column_name'].std()

9. 时间序列分析

python 复制代码
# 将列转换为日期时间类型
df['date_column'] = pd.to_datetime(df['date_column'])

# 设置日期列为索引
df.set_index('date_column', inplace=True)

# 按月重采样并计算均值
monthly_mean = df.resample('M').mean()

10. 数据可视化

python 复制代码
import matplotlib.pyplot as plt

# 简单的折线图
df['column_name'].plot()
plt.show()

11. 数据类型转换

python 复制代码
# 将某列转换为整数类型
df['column_name'] = df['column_name'].astype(int)

12. 数据排序

python 复制代码
# 按某列排序
sorted_df = df.sort_values(by='column_name')

13. 数据透视(交叉表)

python 复制代码
cross_tab = pd.crosstab(df['column1'], df['column2'])

14. 数据重塑(长宽格式转换)

python 复制代码
# 宽转长
melted_df = pd.melt(df, id_vars=['id_vars'], value_vars=['value_vars'])

# 长转宽
pivoted_df = df.pivot(index='index_column', columns='columns_column', values='values_column')

15. 数据采样

python 复制代码
# 随机采样
sampled_df = df.sample(n=100)

16. 数据插值

python 复制代码
# 线性插值
df['column_name'].interpolate(method='linear', inplace=True)

17. 数据变换

python 复制代码
# 应用自定义函数
df['new_column'] = df['column_name'].apply(lambda x: x * 2)

18. 数据合并

python 复制代码
# 内连接
merged_df = pd.merge(df1, df2, how='inner', on='common_column')

19. 数据分箱

python 复制代码
# 分箱
df['binned_column'] = pd.cut(df['column_name'], bins=5)

20. 相关性分析

python 复制代码
# 计算相关性矩阵
correlation_matrix = df.corr()

这些示例展示了 Pandas 在数据分析和统计中的多种常见操作。Pandas 功能非常强大,适用于多种数据处理和分析任务。

相关推荐
m0_694845572 小时前
Dify部署教程:从AI原型到生产系统的一站式方案
服务器·人工智能·python·数据分析·开源
MediaTea3 小时前
Pandas 应用实例:多工具协同与数据可视化
信息可视化·pandas
李昊哲小课3 小时前
Python办公自动化教程 - 第7章 综合实战案例 - 企业销售管理系统
开发语言·python·数据分析·excel·数据可视化·openpyxl
李昊哲小课4 小时前
Python办公自动化教程 - 第5章 图表创建 - 让数据可视化
python·信息可视化·数据分析·数据可视化·openpyxl
李昊哲小课10 小时前
Python办公自动化教程 - openpyxl让Excel处理变得轻松
python·信息可视化·excel
源码之屋10 小时前
计算机毕业设计:Python出行数据智能分析与预测平台 Django框架 可视化 数据分析 PyEcharts 交通 深度学习(建议收藏)✅
人工智能·python·深度学习·数据分析·django·汽车·课程设计
wang_yb10 小时前
理论都会,实战就废?7个分析模板,帮你打通任督二脉
数据分析·databook
databook10 小时前
理论都会,实战就废?7个分析模板,帮你打通任督二脉
python·数据挖掘·数据分析
数据科学小丫12 小时前
数据分析利器 Pandas :apply() 方法 + map() 配对 + 计算描述统计 + 协方差和相关性 + 异常值处理常用方法(基于 python )
python·数据分析·numpy·pandas
babe小鑫12 小时前
2026大专商务英语毕业学习数据分析指南
学习·数据挖掘·数据分析