Python Pandas数据分析入门指南

Python Pandas数据分析入门指南

一、Pandas简介

Pandas是Python中最流行的数据处理库,提供了高性能、易用的数据结构(Series和DataFrame),特别适合表格数据的分析、处理和清洗。

二、环境准备

python 复制代码
pip install pandas numpy openpyxl
import pandas as pd
import numpy as np
print(f"Pandas版本: {pd.__version__}")

三、核心数据结构

1. Series

python 复制代码
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s = pd.Series([90, 85, 78, 92], index=['数学', '语文', '英语', '物理'])

2. DataFrame

python 复制代码
data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [25, 30, 28, 35], '工资': [8000, 12000, 9500, 15000]}
df = pd.DataFrame(data)

四、数据读取与保存

python 复制代码
df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
df.to_csv('output.csv', index=False, encoding='utf-8-sig')
df.to_excel('output.xlsx', index=False)

五、数据筛选

python 复制代码
high_salary = df[df['工资'] > 10000]
young_high_salary = df[(df['年龄'] < 30) & (df['工资'] > 10000)]

六、数据统计

python 复制代码
print(df.describe())
grouped = df.groupby('部门').agg({'工资': ['mean', 'max', 'min'], '年龄': 'mean'})
df_sorted = df.sort_values('工资', ascending=False)

七、数据清洗

python 复制代码
df['年龄'].fillna(df['年龄'].mean(), inplace=True)
df.dropna(inplace=True)
df.drop_duplicates(inplace=True)

八、数据透视表

python 复制代码
pivot = pd.pivot_table(df, values='工资', index='部门', columns='岗位', aggfunc='mean')

九、实验结果

操作 方法 难度
创建数据 pd.DataFrame()
读取文件 pd.read_csv()
数据筛选 dfdf\['列'>值] ⭐⭐
分组聚合 groupby().agg() ⭐⭐
数据透视 pivot_table() ⭐⭐⭐

十、总结

Pandas是Python数据分析的基础库,掌握其核心操作能够大大提高数据处理效率。


标签: Python | Pandas | 数据分析 | 数据处理

相关推荐
高洁011 小时前
医疗行业的数字孪生革命
python·机器学习·数据挖掘·transformer·知识图谱
风之所往_1 小时前
Python 3.6 新特性全面总结
python
abcy0712131 小时前
flask celery hdfs 异步上传
python·hdfs·flask
2301_781833522 小时前
Python 正则表达式入门教程
开发语言·python·正则表达式
copyer_xyf2 小时前
Agent Tool 调用
后端·python·agent
Amo Xiang2 小时前
SpiderDemo 第5题:OB混淆实战 —— 反调试绕过与 signature 签名还原
python·js逆向·爬虫逆向·反调试·spiderdemo·ob混淆
copyer_xyf2 小时前
Agent 结构化输出
后端·python·agent
FBI HackerHarry浩2 小时前
Ollama如何安装到D盘
python·ai