数据分析神器之pandas的20个分析、统计场景 及示例

1. 数据读取与写入

python 复制代码
import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 写入 CSV 文件
df.to_csv('output.csv', index=False)

2. 数据清洗

python 复制代码
# 填充缺失值
df.fillna(0, inplace=True)

# 删除缺失值
df.dropna(inplace=True)

# 删除重复值
df.drop_duplicates(inplace=True)

3. 数据筛选与过滤

python 复制代码
# 筛选某列大于某值的行
filtered_df = df[df['column_name'] > 10]

# 多条件筛选
filtered_df = df[(df['column1'] > 10) & (df['column2'] < 20)]

4. 数据分组与聚合

python 复制代码
# 按某列分组并计算均值
grouped_df = df.groupby('column_name').mean()

# 多列分组并计算总和
grouped_df = df.groupby(['column1', 'column2']).sum()

5. 数据透视表

python 复制代码
import pandas as pd

data = {
    'Date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-01', '2022-01-02', '2022-01-03'],
    'Store': ['A', 'A', 'A', 'B', 'B', 'B'],
    'Product': ['Apples', 'Bananas', 'Apples', 'Apples', 'Bananas', 'Bananas'],
    'Sales': [10, 15, 10, 12, 15, 20]
}

df = pd.DataFrame(data)

# 创建数据透视表
pivot = pd.pivot_table(df, values='Sales', index='Date', columns='Store', aggfunc='sum')
print(pivot)

6. 数据合并与连接

python 复制代码
# 横向合并
merged_df = pd.merge(df1, df2, on='common_column')

# 纵向合并
concatenated_df = pd.concat([df1, df2], axis=0)

7. 统计描述

python 复制代码
# 查看数据的描述性统计信息
df.describe()

8. 计算统计量

python 复制代码
# 计算均值
mean_value = df['column_name'].mean()

# 计算中位数
median_value = df['column_name'].median()

# 计算标准差
std_value = df['column_name'].std()

9. 时间序列分析

python 复制代码
# 将列转换为日期时间类型
df['date_column'] = pd.to_datetime(df['date_column'])

# 设置日期列为索引
df.set_index('date_column', inplace=True)

# 按月重采样并计算均值
monthly_mean = df.resample('M').mean()

10. 数据可视化

python 复制代码
import matplotlib.pyplot as plt

# 简单的折线图
df['column_name'].plot()
plt.show()

11. 数据类型转换

python 复制代码
# 将某列转换为整数类型
df['column_name'] = df['column_name'].astype(int)

12. 数据排序

python 复制代码
# 按某列排序
sorted_df = df.sort_values(by='column_name')

13. 数据透视(交叉表)

python 复制代码
cross_tab = pd.crosstab(df['column1'], df['column2'])

14. 数据重塑(长宽格式转换)

python 复制代码
# 宽转长
melted_df = pd.melt(df, id_vars=['id_vars'], value_vars=['value_vars'])

# 长转宽
pivoted_df = df.pivot(index='index_column', columns='columns_column', values='values_column')

15. 数据采样

python 复制代码
# 随机采样
sampled_df = df.sample(n=100)

16. 数据插值

python 复制代码
# 线性插值
df['column_name'].interpolate(method='linear', inplace=True)

17. 数据变换

python 复制代码
# 应用自定义函数
df['new_column'] = df['column_name'].apply(lambda x: x * 2)

18. 数据合并

python 复制代码
# 内连接
merged_df = pd.merge(df1, df2, how='inner', on='common_column')

19. 数据分箱

python 复制代码
# 分箱
df['binned_column'] = pd.cut(df['column_name'], bins=5)

20. 相关性分析

python 复制代码
# 计算相关性矩阵
correlation_matrix = df.corr()

这些示例展示了 Pandas 在数据分析和统计中的多种常见操作。Pandas 功能非常强大,适用于多种数据处理和分析任务。

相关推荐
laocooon523857886几秒前
数据收集, 数据清洗,数据分析,然后可视化,都涉及哪些知识
数据挖掘·数据分析
企业智能研究1 小时前
什么是数据治理?数据治理对企业有什么用?
大数据·人工智能·数据分析·agent
海棠AI实验室2 小时前
第十六章:小项目 2 CSV → 清洗 → 统计 → 图表 → 报告输出
pandas
逻极4 小时前
数据分析项目:Pandas + SQLAlchemy,从数据库到DataFrame的丝滑实战
python·mysql·数据分析·pandas·sqlalchemy
醉卧考场君莫笑4 小时前
数据分析常用方法:上
数据挖掘·数据分析
小王毕业啦5 小时前
2003-2023年 285个地级市邻接矩阵、经济地理矩阵等8个矩阵数据
大数据·人工智能·数据挖掘·数据分析·数据统计·社科数据·实证数据
2501_941803625 小时前
在奥斯陆智能水利场景中构建实时水资源调度与高并发水质数据分析平台的工程设计实践经验分享
数据挖掘·数据分析·云计算
海棠AI实验室7 小时前
第十七章 调试与排错:读懂 Traceback 的方法论
python·pandas·调试
城数派7 小时前
2001-2024年全球500米分辨率逐年土地覆盖类型栅格数据
大数据·人工智能·数据分析
AC赳赳老秦8 小时前
前端可视化组件开发:DeepSeek辅助Vue/React图表组件编写实战
前端·vue.js·人工智能·react.js·信息可视化·数据分析·deepseek