数据分析神器之pandas的20个分析、统计场景 及示例

1. 数据读取与写入

python 复制代码
import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 写入 CSV 文件
df.to_csv('output.csv', index=False)

2. 数据清洗

python 复制代码
# 填充缺失值
df.fillna(0, inplace=True)

# 删除缺失值
df.dropna(inplace=True)

# 删除重复值
df.drop_duplicates(inplace=True)

3. 数据筛选与过滤

python 复制代码
# 筛选某列大于某值的行
filtered_df = df[df['column_name'] > 10]

# 多条件筛选
filtered_df = df[(df['column1'] > 10) & (df['column2'] < 20)]

4. 数据分组与聚合

python 复制代码
# 按某列分组并计算均值
grouped_df = df.groupby('column_name').mean()

# 多列分组并计算总和
grouped_df = df.groupby(['column1', 'column2']).sum()

5. 数据透视表

python 复制代码
import pandas as pd

data = {
    'Date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-01', '2022-01-02', '2022-01-03'],
    'Store': ['A', 'A', 'A', 'B', 'B', 'B'],
    'Product': ['Apples', 'Bananas', 'Apples', 'Apples', 'Bananas', 'Bananas'],
    'Sales': [10, 15, 10, 12, 15, 20]
}

df = pd.DataFrame(data)

# 创建数据透视表
pivot = pd.pivot_table(df, values='Sales', index='Date', columns='Store', aggfunc='sum')
print(pivot)

6. 数据合并与连接

python 复制代码
# 横向合并
merged_df = pd.merge(df1, df2, on='common_column')

# 纵向合并
concatenated_df = pd.concat([df1, df2], axis=0)

7. 统计描述

python 复制代码
# 查看数据的描述性统计信息
df.describe()

8. 计算统计量

python 复制代码
# 计算均值
mean_value = df['column_name'].mean()

# 计算中位数
median_value = df['column_name'].median()

# 计算标准差
std_value = df['column_name'].std()

9. 时间序列分析

python 复制代码
# 将列转换为日期时间类型
df['date_column'] = pd.to_datetime(df['date_column'])

# 设置日期列为索引
df.set_index('date_column', inplace=True)

# 按月重采样并计算均值
monthly_mean = df.resample('M').mean()

10. 数据可视化

python 复制代码
import matplotlib.pyplot as plt

# 简单的折线图
df['column_name'].plot()
plt.show()

11. 数据类型转换

python 复制代码
# 将某列转换为整数类型
df['column_name'] = df['column_name'].astype(int)

12. 数据排序

python 复制代码
# 按某列排序
sorted_df = df.sort_values(by='column_name')

13. 数据透视(交叉表)

python 复制代码
cross_tab = pd.crosstab(df['column1'], df['column2'])

14. 数据重塑(长宽格式转换)

python 复制代码
# 宽转长
melted_df = pd.melt(df, id_vars=['id_vars'], value_vars=['value_vars'])

# 长转宽
pivoted_df = df.pivot(index='index_column', columns='columns_column', values='values_column')

15. 数据采样

python 复制代码
# 随机采样
sampled_df = df.sample(n=100)

16. 数据插值

python 复制代码
# 线性插值
df['column_name'].interpolate(method='linear', inplace=True)

17. 数据变换

python 复制代码
# 应用自定义函数
df['new_column'] = df['column_name'].apply(lambda x: x * 2)

18. 数据合并

python 复制代码
# 内连接
merged_df = pd.merge(df1, df2, how='inner', on='common_column')

19. 数据分箱

python 复制代码
# 分箱
df['binned_column'] = pd.cut(df['column_name'], bins=5)

20. 相关性分析

python 复制代码
# 计算相关性矩阵
correlation_matrix = df.corr()

这些示例展示了 Pandas 在数据分析和统计中的多种常见操作。Pandas 功能非常强大,适用于多种数据处理和分析任务。

相关推荐
imbackneverdie4 小时前
只用一天,能写完一篇文献综述吗?
人工智能·信息可视化·aigc·文献综述·文献检索·ai工具·科研工具
小白学大数据7 小时前
抖音搜索页数据批量爬取,多关键词同步采集实现
爬虫·python·数据分析
西贝爱学习7 小时前
智能手机规格与价格数据集
数据分析·数据集
计算机毕业编程指导师8 小时前
基于Spark的性格行为数据分析与可视化系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·python·数据挖掘·数据分析·spark·毕业设计·性格行为
QDYOKR16810 小时前
OKR管理系统怎么选?2026主流OKR工具深度解析
大数据·人工智能·信息可视化·数据挖掘·数据分析
知识分享小能手12 小时前
R语言入门学习教程,从入门到精通,R语言多维数据可视化(12)
学习·信息可视化·r语言
PaperData1 天前
1988-2025年《中国人口和就业统计年鉴》全年份excel+PDF
数据库·人工智能·数据分析·经管
小王毕业啦1 天前
(1990-2024年)个股交易活跃度、个股换手率
大数据·人工智能·数据挖掘·数据分析·区块链·社科数据
知识分享小能手1 天前
R语言入门学习教程,从入门到精通,R语言时间序列数据可视化(11)
学习·信息可视化·r语言
小王毕业啦1 天前
2013-2023年 银行风险资产占比数据
大数据·人工智能·数据挖掘·数据分析·社科数据