python中的NumPy和Pandas往往都是同时使用,NumPy和Pandas的在数据分析中的联合使用

文章目录


前言

NumPy和Pandas是Python中两个非常重要的科学计算和数据处理库,它们可以互相配合使用,实现更高效的数据处理和分析。

一、numpy的介绍与用法

NumPy是一个用于数值计算的库,它提供了一个多维数组对象和一系列的函数,可以方便地进行数值计算、矩阵操作、数学变换等操作。以下是NumPy的一些常用功能:

创建多维数组:使用NumPy可以方便地创建二维、三维甚至更高维度的数组对象,并且可以对数组进行各种操作,如切片、索引、重塑等。

数学计算:NumPy提供了大量的数学函数,可以对数组进行各种计算,如加、减、乘、除、平方、开方等。

矩阵操作:NumPy可以方便地进行矩阵运算,如矩阵乘法、矩阵转置、矩阵求逆等。

数据处理:NumPy提供了很多数据处理函数,如求和、求平均值、求方差、排序等。

二、pandas的介绍与用法

Pandas是一个用于数据分析和处理的库,它提供了一种类似于SQL的查询语言和数据结构,可以方便地对数据进行筛选、排序、分组、聚合等操作。以下是Pandas的一些常用功能:

数据读取和导出:Pandas可以方便地从各种数据源中读取数据,如CSV文件、Excel文件、SQL数据库等,并且可以将数据导出为这些格式。

数据筛选:Pandas提供了类似于SQL的查询语言,可以方便地对数据进行筛选、过滤和排序。

数据聚合:Pandas可以将数据按照指定的列进行分组,并对每个组进行聚合操作,如求和、平均值、方差等。

数据转换:Pandas提供了很多数据转换函数,如重塑、合并、分割、映射等,可以方便地将数据进行转换和处理。

三、numpy与pandas的联合使用说明

NumPy和Pandas可以联合使用,实现更高效的数据处理和分析。

例如,可以使用NumPy创建多维数组并进行数学计算,然后将数组导入到Pandas中进行数据分析和处理

以下是一些NumPy和Pandas联合使用的例子

读取CSV文件并计算平均值:使用Pandas读取CSV文件,并使用NumPy计算每列的平均值。

矩阵乘法:使用NumPy进行矩阵乘法运算,并将结果导入到Pandas中进行数据处理。

数据重塑:使用NumPy创建多维数组并进行重塑操作,然后将结果导入到Pandas中进行数据分析和处理。

数据筛选和排序:使用Pandas对数据进行筛选和排序操作,并将结果导出到CSV文件中,然后使用NumPy读取CSV文件并进行数学计算。

数据聚合:使用Pandas将数据按照指定的列进行分组,并对每个组进行聚合操作,然后将结果导出到CSV文件中,最后使用NumPy读取CSV文件并进行数学计算。

数据转换:使用Pandas提供的数据转换函数对数据进行转换和处理,然后将结果导出到CSV文件中,最后使用NumPy读取CSV文件并进行数学计算。

随机数生成:使用NumPy生成随机数并进行数据处理,然后将结果导入到Pandas中进行可视化展示。

信号处理:使用NumPy进行信号处理操作,如傅里叶变换等,然后将结果导入到Pandas中进行数据处理和分析。

四、numpy与pandas的联合使用程序代码

4.1 读取CSV文件并进行数据清洗,如去除NaN值

python 复制代码
import numpy as np  
import pandas as pd  
  
data = pd.read_csv('data.csv')  
clean_data = np.nan_to_num(data)  
print(clean_data)

4.2 矩阵操作和特征工程,如标准化处理

python 复制代码
import numpy as np  
import pandas as pd  
from sklearn.preprocessing import StandardScaler  
  
data = pd.read_csv('data.csv')  
scaled_data = StandardScaler().fit_transform(data)  
print(scaled_data)

4.3 使用Pandas进行数据筛选和分组聚合,如计算每个人的总薪资

python 复制代码
import numpy as np  
import pandas as pd  
  
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice', 'Bob'], 'Age': [25, 20, 30, 35, 40, 45], 'Salary': [50000, 60000, 70000, 80000, 90000, 100000]}  
df = pd.DataFrame(data)  

grouped_df = df.groupby('Name')['Salary'].sum()  
print(grouped_df)

4.4 使用NumPy进行数据重塑

python 复制代码
import numpy as np  
import pandas as pd  
  
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])  
df = pd.DataFrame(data, columns=['A', 'B', 'C'])  
重塑_df = df.pivot(index='A', columns='B', values='C')  
print(重塑_df) 

4.5 排序

python 复制代码
import numpy as np  
import pandas as pd  
  
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [25, 20, 30, 35], 'Salary': [50000, 60000, 70000, 80000]}  
df = pd.DataFrame(data)  
排序_df = df.sort_values('Salary', ascending=False)  
print(排序_df)

4.6 读取CSV文件并计算每列的平均值

python 复制代码
import numpy as np  
import pandas as pd  
  
data = pd.read_csv('data.csv')  
mean_values = np.mean(data, axis=0)  
print(mean_values)

总结

NumPy和Pandas联合使用可以实现更高效的数据处理和分析。NumPy提供了强大的数值计算功能,可以快速地进行矩阵计算和数学运算,而Pandas则提供了数据清洗和分析工具,可以方便地对数据进行筛选、排序、聚合等操作。

相关推荐
如竟没有火炬16 分钟前
全排列——交换的思想
开发语言·数据结构·python·算法·leetcode·深度优先
机器瓦力33 分钟前
Trae使用:重构一个项目
python·ai编程
jarreyer1 小时前
python离线包安装方法总结
开发语言·python
码银1 小时前
【python】基于 生活方式与健康数据预测数据集(Lifestyle and Health Risk Prediction)的可视化练习,附数据集源文件。
开发语言·python·生活
星期天要睡觉2 小时前
大模型(Large Language Model, LLM)——什么是大模型,大模型的基本原理、架构、流程
人工智能·python·ai·语言模型
Q_Q19632884753 小时前
python+uniapp基于微信美食点餐系统小程序
spring boot·python·微信·django·flask·uni-app·node.js
KIKIiiiiiiii3 小时前
微信个人号开发中如何高效实现API二次开发
java·前端·python·微信
山顶听风3 小时前
Flask应用改用Waitress运行
前端·笔记·python·flask
·s.*3 小时前
so-arm101部署操作
python