数据分析神器之pandas的20个分析、统计场景 及示例

1. 数据读取与写入

python 复制代码
import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 写入 CSV 文件
df.to_csv('output.csv', index=False)

2. 数据清洗

python 复制代码
# 填充缺失值
df.fillna(0, inplace=True)

# 删除缺失值
df.dropna(inplace=True)

# 删除重复值
df.drop_duplicates(inplace=True)

3. 数据筛选与过滤

python 复制代码
# 筛选某列大于某值的行
filtered_df = df[df['column_name'] > 10]

# 多条件筛选
filtered_df = df[(df['column1'] > 10) & (df['column2'] < 20)]

4. 数据分组与聚合

python 复制代码
# 按某列分组并计算均值
grouped_df = df.groupby('column_name').mean()

# 多列分组并计算总和
grouped_df = df.groupby(['column1', 'column2']).sum()

5. 数据透视表

python 复制代码
import pandas as pd

data = {
    'Date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-01', '2022-01-02', '2022-01-03'],
    'Store': ['A', 'A', 'A', 'B', 'B', 'B'],
    'Product': ['Apples', 'Bananas', 'Apples', 'Apples', 'Bananas', 'Bananas'],
    'Sales': [10, 15, 10, 12, 15, 20]
}

df = pd.DataFrame(data)

# 创建数据透视表
pivot = pd.pivot_table(df, values='Sales', index='Date', columns='Store', aggfunc='sum')
print(pivot)

6. 数据合并与连接

python 复制代码
# 横向合并
merged_df = pd.merge(df1, df2, on='common_column')

# 纵向合并
concatenated_df = pd.concat([df1, df2], axis=0)

7. 统计描述

python 复制代码
# 查看数据的描述性统计信息
df.describe()

8. 计算统计量

python 复制代码
# 计算均值
mean_value = df['column_name'].mean()

# 计算中位数
median_value = df['column_name'].median()

# 计算标准差
std_value = df['column_name'].std()

9. 时间序列分析

python 复制代码
# 将列转换为日期时间类型
df['date_column'] = pd.to_datetime(df['date_column'])

# 设置日期列为索引
df.set_index('date_column', inplace=True)

# 按月重采样并计算均值
monthly_mean = df.resample('M').mean()

10. 数据可视化

python 复制代码
import matplotlib.pyplot as plt

# 简单的折线图
df['column_name'].plot()
plt.show()

11. 数据类型转换

python 复制代码
# 将某列转换为整数类型
df['column_name'] = df['column_name'].astype(int)

12. 数据排序

python 复制代码
# 按某列排序
sorted_df = df.sort_values(by='column_name')

13. 数据透视(交叉表)

python 复制代码
cross_tab = pd.crosstab(df['column1'], df['column2'])

14. 数据重塑(长宽格式转换)

python 复制代码
# 宽转长
melted_df = pd.melt(df, id_vars=['id_vars'], value_vars=['value_vars'])

# 长转宽
pivoted_df = df.pivot(index='index_column', columns='columns_column', values='values_column')

15. 数据采样

python 复制代码
# 随机采样
sampled_df = df.sample(n=100)

16. 数据插值

python 复制代码
# 线性插值
df['column_name'].interpolate(method='linear', inplace=True)

17. 数据变换

python 复制代码
# 应用自定义函数
df['new_column'] = df['column_name'].apply(lambda x: x * 2)

18. 数据合并

python 复制代码
# 内连接
merged_df = pd.merge(df1, df2, how='inner', on='common_column')

19. 数据分箱

python 复制代码
# 分箱
df['binned_column'] = pd.cut(df['column_name'], bins=5)

20. 相关性分析

python 复制代码
# 计算相关性矩阵
correlation_matrix = df.corr()

这些示例展示了 Pandas 在数据分析和统计中的多种常见操作。Pandas 功能非常强大,适用于多种数据处理和分析任务。

相关推荐
DataGear11 小时前
如何在DataGear 5.4.1 中快速制作SQL服务端分页的数据表格看板
javascript·数据库·sql·信息可视化·数据分析·echarts·数据可视化
王小王-12313 小时前
基于Hadoop的京东厨具商品数据分析及商品价格预测系统的设计与实现
hadoop·数据分析·京东厨具·厨具分析·商品分析
可观测性用观测云14 小时前
Cloudflare 日志采集和分析最佳实践
数据分析
真智AI15 小时前
AI智能体时代来临:数据分析的变革与自动化之路
人工智能·数据分析·自动化
程序员阿超的博客16 小时前
Python 数据分析与机器学习入门 (五):Matplotlib 数据可视化基础
python·信息可视化·数据分析·matplotlib·数据可视化·python教程·pyplot
旷世奇才李先生18 小时前
Pandas 安装使用教程
pandas
蓝婷儿1 天前
Python 数据分析与可视化 Day 14 - 建模复盘 + 多模型评估对比(逻辑回归 vs 决策树)
python·数据分析·逻辑回归
好开心啊没烦恼1 天前
Python:线性代数,向量内积谐音记忆。
开发语言·python·线性代数·数据挖掘·数据分析
过期的秋刀鱼!1 天前
用“做饭”理解数据分析流程(Excel三件套实战)
数据挖掘·数据分析·excel·powerbi·数据分析入门
大数据CLUB1 天前
基于spark的航班价格分析预测及可视化
大数据·hadoop·分布式·数据分析·spark·数据可视化