数据分析基础
1. 数据加载
使用 Pandas 库可以轻松地加载各种格式的数据,如 CSV、Excel、JSON 等。
import pandas as pd# 从 CSV 文件加载数据
data = pd.read_csv('data.csv').
2. 数据探索
一旦数据加载完成,我们可以开始对数据进行探索性分析,了解数据的结构、特征和分布情况。
查看数据的前几行
print(data.head())
获取数据的统计摘要
print(data.describe())
查看数据的列名
print(data.columns)
统计数据的缺失值print(data.isnull().sum())
3. 数据清洗
数据清洗是数据分析过程中的重要步骤,包括处理缺失值、异常值和重复值等。
处理缺失值
data.dropna(inplace=True)
处理重复值
data.drop_duplicates(inplace=True)
- 数据可视化
数据可视化是理解数据的重要途径,可以使用 Matplotlib 和 Seaborn 库进行数据可视化。import matplotlib.pyplot as plt
import seaborn as sns# 绘制柱状图sns.countplot(x='column_name', data=data)
plt.title('Title of the Plot')
plt.xlabel('X Label')
plt.ylabel('Y Label')
plt.show()