python中的NumPy和Pandas往往都是同时使用,NumPy和Pandas的在数据分析中的联合使用

文章目录


前言

NumPy和Pandas是Python中两个非常重要的科学计算和数据处理库,它们可以互相配合使用,实现更高效的数据处理和分析。

一、numpy的介绍与用法

NumPy是一个用于数值计算的库,它提供了一个多维数组对象和一系列的函数,可以方便地进行数值计算、矩阵操作、数学变换等操作。以下是NumPy的一些常用功能:

创建多维数组:使用NumPy可以方便地创建二维、三维甚至更高维度的数组对象,并且可以对数组进行各种操作,如切片、索引、重塑等。

数学计算:NumPy提供了大量的数学函数,可以对数组进行各种计算,如加、减、乘、除、平方、开方等。

矩阵操作:NumPy可以方便地进行矩阵运算,如矩阵乘法、矩阵转置、矩阵求逆等。

数据处理:NumPy提供了很多数据处理函数,如求和、求平均值、求方差、排序等。

二、pandas的介绍与用法

Pandas是一个用于数据分析和处理的库,它提供了一种类似于SQL的查询语言和数据结构,可以方便地对数据进行筛选、排序、分组、聚合等操作。以下是Pandas的一些常用功能:

数据读取和导出:Pandas可以方便地从各种数据源中读取数据,如CSV文件、Excel文件、SQL数据库等,并且可以将数据导出为这些格式。

数据筛选:Pandas提供了类似于SQL的查询语言,可以方便地对数据进行筛选、过滤和排序。

数据聚合:Pandas可以将数据按照指定的列进行分组,并对每个组进行聚合操作,如求和、平均值、方差等。

数据转换:Pandas提供了很多数据转换函数,如重塑、合并、分割、映射等,可以方便地将数据进行转换和处理。

三、numpy与pandas的联合使用说明

NumPy和Pandas可以联合使用,实现更高效的数据处理和分析。

例如,可以使用NumPy创建多维数组并进行数学计算,然后将数组导入到Pandas中进行数据分析和处理

以下是一些NumPy和Pandas联合使用的例子

读取CSV文件并计算平均值:使用Pandas读取CSV文件,并使用NumPy计算每列的平均值。

矩阵乘法:使用NumPy进行矩阵乘法运算,并将结果导入到Pandas中进行数据处理。

数据重塑:使用NumPy创建多维数组并进行重塑操作,然后将结果导入到Pandas中进行数据分析和处理。

数据筛选和排序:使用Pandas对数据进行筛选和排序操作,并将结果导出到CSV文件中,然后使用NumPy读取CSV文件并进行数学计算。

数据聚合:使用Pandas将数据按照指定的列进行分组,并对每个组进行聚合操作,然后将结果导出到CSV文件中,最后使用NumPy读取CSV文件并进行数学计算。

数据转换:使用Pandas提供的数据转换函数对数据进行转换和处理,然后将结果导出到CSV文件中,最后使用NumPy读取CSV文件并进行数学计算。

随机数生成:使用NumPy生成随机数并进行数据处理,然后将结果导入到Pandas中进行可视化展示。

信号处理:使用NumPy进行信号处理操作,如傅里叶变换等,然后将结果导入到Pandas中进行数据处理和分析。

四、numpy与pandas的联合使用程序代码

4.1 读取CSV文件并进行数据清洗,如去除NaN值

python 复制代码
import numpy as np  
import pandas as pd  
  
data = pd.read_csv('data.csv')  
clean_data = np.nan_to_num(data)  
print(clean_data)

4.2 矩阵操作和特征工程,如标准化处理

python 复制代码
import numpy as np  
import pandas as pd  
from sklearn.preprocessing import StandardScaler  
  
data = pd.read_csv('data.csv')  
scaled_data = StandardScaler().fit_transform(data)  
print(scaled_data)

4.3 使用Pandas进行数据筛选和分组聚合,如计算每个人的总薪资

python 复制代码
import numpy as np  
import pandas as pd  
  
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice', 'Bob'], 'Age': [25, 20, 30, 35, 40, 45], 'Salary': [50000, 60000, 70000, 80000, 90000, 100000]}  
df = pd.DataFrame(data)  

grouped_df = df.groupby('Name')['Salary'].sum()  
print(grouped_df)

4.4 使用NumPy进行数据重塑

python 复制代码
import numpy as np  
import pandas as pd  
  
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])  
df = pd.DataFrame(data, columns=['A', 'B', 'C'])  
重塑_df = df.pivot(index='A', columns='B', values='C')  
print(重塑_df) 

4.5 排序

python 复制代码
import numpy as np  
import pandas as pd  
  
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [25, 20, 30, 35], 'Salary': [50000, 60000, 70000, 80000]}  
df = pd.DataFrame(data)  
排序_df = df.sort_values('Salary', ascending=False)  
print(排序_df)

4.6 读取CSV文件并计算每列的平均值

python 复制代码
import numpy as np  
import pandas as pd  
  
data = pd.read_csv('data.csv')  
mean_values = np.mean(data, axis=0)  
print(mean_values)

总结

NumPy和Pandas联合使用可以实现更高效的数据处理和分析。NumPy提供了强大的数值计算功能,可以快速地进行矩阵计算和数学运算,而Pandas则提供了数据清洗和分析工具,可以方便地对数据进行筛选、排序、聚合等操作。

相关推荐
IT古董1 小时前
第四章:大模型(LLM)】06.langchain原理-(3)LangChain Prompt 用法
java·人工智能·python
fantasy_arch6 小时前
pytorch例子计算两张图相似度
人工智能·pytorch·python
WBluuue8 小时前
数学建模:智能优化算法
python·机器学习·数学建模·爬山算法·启发式算法·聚类·模拟退火算法
赴3358 小时前
矿物分类案列 (一)六种方法对数据的填充
人工智能·python·机器学习·分类·数据挖掘·sklearn·矿物分类
大模型真好玩8 小时前
一文深度解析OpenAI近期发布系列大模型:意欲一统大模型江湖?
人工智能·python·mcp
RPA+AI十二工作室8 小时前
亚马逊店铺绩效巡检_影刀RPA源码解读
chrome·python·rpa·影刀
小艳加油9 小时前
Python机器学习与深度学习;Transformer模型/注意力机制/目标检测/语义分割/图神经网络/强化学习/生成式模型/自监督学习/物理信息神经网络等
python·深度学习·机器学习·transformer
学行库小秘11 小时前
ANN神经网络回归预测模型
人工智能·python·深度学习·神经网络·算法·机器学习·回归
Yn31211 小时前
在 Python 中使用 json 模块的完整指南
开发语言·python·json
秋难降11 小时前
线段树的深度解析(最长递增子序列类解题步骤)
数据结构·python·算法