Python Pandas数据分析入门指南

MATLAB代码顾问2026-06-14 15:03

Python Pandas数据分析入门指南

一、Pandas简介

Pandas是Python中最流行的数据处理库，提供了高性能、易用的数据结构（Series和DataFrame），特别适合表格数据的分析、处理和清洗。

二、环境准备

python 复制代码

pip install pandas numpy openpyxl
import pandas as pd
import numpy as np
print(f"Pandas版本: {pd.__version__}")

三、核心数据结构

1. Series

python 复制代码

s = pd.Series([1, 3, 5, np.nan, 6, 8])
s = pd.Series([90, 85, 78, 92], index=['数学', '语文', '英语', '物理'])

2. DataFrame

python 复制代码

data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [25, 30, 28, 35], '工资': [8000, 12000, 9500, 15000]}
df = pd.DataFrame(data)

四、数据读取与保存

python 复制代码

df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
df.to_csv('output.csv', index=False, encoding='utf-8-sig')
df.to_excel('output.xlsx', index=False)

五、数据筛选

python 复制代码

high_salary = df[df['工资'] > 10000]
young_high_salary = df[(df['年龄'] < 30) & (df['工资'] > 10000)]

六、数据统计

python 复制代码

print(df.describe())
grouped = df.groupby('部门').agg({'工资': ['mean', 'max', 'min'], '年龄': 'mean'})
df_sorted = df.sort_values('工资', ascending=False)

七、数据清洗

python 复制代码

df['年龄'].fillna(df['年龄'].mean(), inplace=True)
df.dropna(inplace=True)
df.drop_duplicates(inplace=True)

八、数据透视表

python 复制代码

pivot = pd.pivot_table(df, values='工资', index='部门', columns='岗位', aggfunc='mean')

九、实验结果

操作	方法	难度
创建数据	pd.DataFrame()	⭐
读取文件	pd.read_csv()	⭐
数据筛选	df $df\['列'$ >值]	⭐⭐
分组聚合	groupby().agg()	⭐⭐
数据透视	pivot_table()	⭐⭐⭐

十、总结

Pandas是Python数据分析的基础库，掌握其核心操作能够大大提高数据处理效率。

标签: Python | Pandas | 数据分析 | 数据处理