Python Pandas数据分析入门指南

Python Pandas数据分析入门指南

一、Pandas简介

Pandas是Python中最流行的数据处理库,提供了高性能、易用的数据结构(Series和DataFrame),特别适合表格数据的分析、处理和清洗。

二、环境准备

python 复制代码
pip install pandas numpy openpyxl
import pandas as pd
import numpy as np
print(f"Pandas版本: {pd.__version__}")

三、核心数据结构

1. Series

python 复制代码
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s = pd.Series([90, 85, 78, 92], index=['数学', '语文', '英语', '物理'])

2. DataFrame

python 复制代码
data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [25, 30, 28, 35], '工资': [8000, 12000, 9500, 15000]}
df = pd.DataFrame(data)

四、数据读取与保存

python 复制代码
df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
df.to_csv('output.csv', index=False, encoding='utf-8-sig')
df.to_excel('output.xlsx', index=False)

五、数据筛选

python 复制代码
high_salary = df[df['工资'] > 10000]
young_high_salary = df[(df['年龄'] < 30) & (df['工资'] > 10000)]

六、数据统计

python 复制代码
print(df.describe())
grouped = df.groupby('部门').agg({'工资': ['mean', 'max', 'min'], '年龄': 'mean'})
df_sorted = df.sort_values('工资', ascending=False)

七、数据清洗

python 复制代码
df['年龄'].fillna(df['年龄'].mean(), inplace=True)
df.dropna(inplace=True)
df.drop_duplicates(inplace=True)

八、数据透视表

python 复制代码
pivot = pd.pivot_table(df, values='工资', index='部门', columns='岗位', aggfunc='mean')

九、实验结果

操作 方法 难度
创建数据 pd.DataFrame()
读取文件 pd.read_csv()
数据筛选 dfdf\['列'>值] ⭐⭐
分组聚合 groupby().agg() ⭐⭐
数据透视 pivot_table() ⭐⭐⭐

十、总结

Pandas是Python数据分析的基础库,掌握其核心操作能够大大提高数据处理效率。


标签: Python | Pandas | 数据分析 | 数据处理

相关推荐
C++、Java和Python的菜鸟3 分钟前
第1章 集合高级
java·jvm·python
码来的小朋友1 小时前
手把手教你用 Python + PyQt5 做一个可视化图片切图工具
开发语言·python·microsoft
weixin199701080161 小时前
[特殊字符]《京东订单API(jd.order.detail.get)对接ERP:企业认证+OAuth授权避坑指南》(附Python源码)
java·数据库·python
云烟成雨TD1 小时前
LangFlow 1.x 系列【3】入门案例
人工智能·python·agent
创世宇图2 小时前
【Python工程化实战】Python 服务的结构化日志体系:structlog + JSON 输出 + 日志分级策略
python·elk·structlog·结构化日志·可观测性
创世宇图2 小时前
【Python工程化实战】Kubernetes 中 Python 应用的优雅启停与健康检查:零停机滚动更新实战
python·云原生·kubernetes·优雅停机
夜雪一千2 小时前
Python 使用OpenAI调用Qwen3.6-27B-ms模型|完整参数详解
开发语言·python
zhiSiBuYu05173 小时前
重排序(Rerank)提升检索准确率实战指南
开发语言·python·算法
MageGojo3 小时前
集成企业工商信息查询API:从在线调试到生产级调用实战
python·调试·rest api·api集成·企业信息查询
huangjiazhi_3 小时前
Python3.14编写文件服务器
python