【30天玩转python】数据分析与可视化

数据分析与可视化

数据分析是通过数据提取、整理和分析来发现有用信息的过程,而数据可视化则通过图形和图表的方式,将数据转化为视觉化信息,以便快速理解数据趋势和模式。本篇文章将介绍如何使用 Python 进行数据分析与可视化,重点使用两个常用的库:NumPyPandas 进行数据分析,MatplotlibSeaborn 进行数据可视化。


1. 数据分析基础

数据分析的基本步骤包括:

  1. 数据收集:从文件、数据库、API 或网络获取数据。
  2. 数据清洗:处理缺失值、重复值、格式化问题等。
  3. 数据分析:使用统计方法或编程工具分析数据。
  4. 数据可视化:将分析结果以图形或表格的形式展示。

2. 使用 NumPy 进行数值计算

NumPy 是 Python 的数值计算库,主要用于处理数组和矩阵运算。

2.1 安装 NumPy

可以使用以下命令安装 NumPy

bash 复制代码
pip install numpy
2.2 NumPy 基本用法

示例:创建数组

python 复制代码
import numpy as np

# 创建一维数组
arr = np.array([1, 2, 3, 4, 5])

# 创建二维数组
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

print("一维数组:", arr)
print("二维数组:", arr_2d)

示例:数组运算

python 复制代码
# 数组加法
arr_sum = arr + 10

# 数组元素求和
arr_total = np.sum(arr)

print("数组加法:", arr_sum)
print("数组元素总和:", arr_total)

3. 使用 Pandas 进行数据处理

Pandas 是 Python 最强大的数据分析库之一,它提供了高效的数据结构如 DataFrame,用于处理结构化数据。

3.1 安装 Pandas

可以使用以下命令安装 Pandas

bash 复制代码
pip install pandas
3.2 Pandas 基本用法

示例:创建 DataFrame

python 复制代码
import pandas as pd

# 创建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [24, 27, 22, 32],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}

df = pd.DataFrame(data)

print(df)

输出:

复制代码
      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston
3.3 数据读取与处理

Pandas 可以从多种格式中读取数据,如 CSV、Excel、SQL 数据库等。

示例:读取 CSV 文件

python 复制代码
# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 查看前 5 行
print(df.head())

示例:数据清洗

python 复制代码
# 删除包含缺失值的行
df = df.dropna()

# 填充缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)

# 删除重复行
df = df.drop_duplicates()

4. 数据可视化

数据可视化可以帮助我们快速识别数据中的模式、趋势和异常。常用的 Python 可视化库包括 MatplotlibSeaborn

4.1 安装 Matplotlib 和 Seaborn
bash 复制代码
pip install matplotlib seaborn
4.2 使用 Matplotlib 进行可视化

Matplotlib 是 Python 最基础的可视化库,支持创建多种图表。

示例:绘制折线图

python 复制代码
import matplotlib.pyplot as plt

# 数据
x = [1, 2, 3, 4, 5]
y = [10, 20, 25, 40, 30]

# 绘制折线图
plt.plot(x, y)
plt.xlabel('X 轴')
plt.ylabel('Y 轴')
plt.title('折线图示例')
plt.show()
4.3 使用 Seaborn 进行高级可视化

Seaborn 是基于 Matplotlib 的高级可视化库,能够轻松创建美观的统计图表。

示例:绘制柱状图

python 复制代码
import seaborn as sns

# 示例数据
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [24, 27, 22, 32]}

df = pd.DataFrame(data)

# 绘制柱状图
sns.barplot(x='Name', y='Age', data=df)
plt.title('柱状图示例')
plt.show()

示例:绘制散点图

python 复制代码
# 加载自带数据集
df = sns.load_dataset('iris')

# 绘制散点图
sns.scatterplot(x='sepal_length', y='sepal_width', data=df)
plt.title('鸢尾花数据集散点图')
plt.show()

5. 综合示例:数据分析与可视化

让我们结合 PandasMatplotlibSeaborn,进行一个实际的数据分析和可视化任务。

任务:分析和可视化某城市的气温变化趋势

步骤:

  1. 读取数据文件。
  2. 计算每月的平均气温。
  3. 绘制折线图展示气温变化趋势。

示例代码:

python 复制代码
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 读取 CSV 数据
df = pd.read_csv('temperature_data.csv')

# 计算每月的平均气温
df['Date'] = pd.to_datetime(df['Date'])
df['Month'] = df['Date'].dt.month
monthly_avg_temp = df.groupby('Month')['Temperature'].mean().reset_index()

# 绘制折线图
plt.plot(monthly_avg_temp['Month'], monthly_avg_temp['Temperature'])
plt.xlabel('月份')
plt.ylabel('平均气温 (°C)')
plt.title('某城市月平均气温变化趋势')
plt.show()

# 使用 Seaborn 绘制带有数据点的折线图
sns.lineplot(x='Month', y='Temperature', data=monthly_avg_temp, marker='o')
plt.title('某城市月平均气温变化趋势 (带数据点)')
plt.show()

6. 小结

数据分析与可视化是数据科学中的关键步骤。通过使用 NumPyPandas 等库,我们可以方便地处理和分析数据;使用 MatplotlibSeaborn 等工具,我们能够将分析结果以直观的图表形式展示出来。掌握这些工具和技巧,可以极大地提升数据分析的效率和质量。

相关推荐
怎么就重名了几秒前
记录Qt的UDP通信丢包问题
开发语言·qt·udp
superman超哥4 分钟前
Rust 闭包的定义与捕获:所有权系统下的函数式编程
开发语言·后端·rust·函数式编程·rust闭包·闭包的定义与捕获
曹牧6 分钟前
Java:Math.abs()‌
java·开发语言·算法
天才测试猿7 分钟前
2026全新软件测试面试八股文【含答案+文档】
自动化测试·软件测试·python·功能测试·测试工具·面试·职场和发展
TonyLee0179 分钟前
python深拷贝与浅拷贝机制
python
期待のcode12 分钟前
Java的泛型
java·开发语言
沐知全栈开发13 分钟前
PostgreSQL 删除数据库指南
开发语言
!停19 分钟前
c语言动态申请内存
c语言·开发语言·数据结构
AC赳赳老秦20 分钟前
pbootcms模板后台版权如何修改
java·开发语言·spring boot·postgresql·测试用例·pbootcms·建站
用户83562907805121 分钟前
如何将 Python 列表高效导出为 Excel 文件
后端·python