pandas和polars的常见用法对比

案例背景

最近上班需要处理的都是百万,千万级的数据,pandas的性能已经不够看了(虽然它在处理数据上是真的很好用),公司都是用的polar和pyspark,我最近也学习了一些,然后写篇文章对比一下他们的常见用法。虽然他们都有数据框dataframe这个数据结构,但是具体用法还是有很多差异的。


数据选取

都是做数据分析的,那么就用最简单的机器学习数据集波士顿房价数据集吧,演示以下常见的数据处理的用法。,然后画个图,简单机器学习一下。


代码实现

我这里就用data1表示pandas的数据结构,data2表示polar数据结构。2个数据结构的相同功能都用各种对应的语法展示。

导入包:

python 复制代码
import numpy as np
import pandas as pd
import polars as pl
import matplotlib.pyplot as plt 
import seaborn as sns

plt.rcParams ['font.sans-serif'] ='SimHei'               #显示中文
plt.rcParams ['axes.unicode_minus']=False               #显示负号

数据读取

首先是pandas的

python 复制代码
data1=pd.read_excel('Boston.xlsx')
data1.head(2)

这个其实polar差不多:

python 复制代码
data2=pl.read_excel('Boston.xlsx')  #要装一个什么csv2xlsx的包
data2.head(2)

写入文件

python 复制代码
#data1.to_csv(filepath)
#data2.write_csv(filepath)

这里就没运行了,但是是可用的,语法差不多。


查看数据基本信息

pandas很方便的info就行

python 复制代码
data1.info()

polar里面具有没有这个方法,见鬼,我只找到一个差不多的:

python 复制代码
data2.schema

这个只有数据类别,没得非空值什么的信息,差评。

其他的类型,变量名,数据形状,都是差不多:

python 复制代码
print(data1.dtypes) ;print(data2.dtypes)  #类型
print(data1.shape)  ;print(data2.shape)   #形状
print(data1.columns);print(data2.columns) #列名称

描述性统计

这是也是一样的,都是data.describe()就行

python 复制代码
data1.describe()
python 复制代码
data2.describe()

查看缺失值和填充

pandas 的我很熟悉

python 复制代码
print(data1.isnull().sum())
data1.fillna('2')

polars有些变化

python 复制代码
print(data2.null_count())
data2.fill_null('2')

数据切片

我觉得pandas 的数据切片真的很厉害,很逻辑完善。

python 复制代码
data1.loc[10:15,['CRIM','ZN']]

polars还没怎么用熟,不好评价

python 复制代码
data2.slice(10, 5).select(['CRIM', 'ZN'])   ##10是开始,5是行数

这里就得提一下了,polars没有索引这个东西,所以他的切片是用开始的位置和长度来穿入参数的。太离谱了,pandas的多层索引简直是诺贝尔奖发现好不好,polars居然没得索引这个东西,虽然简化一些东西,但是很多功能都丢失了。


数据筛选

语法差不多,各有优缺点吧

pandas

python 复制代码
data1[data1['MEDV'] >49.9 ]

polars

python 复制代码
data2.filter(data2['MEDV'] >49.9)

选两列数据

python 复制代码
data1[['NOX', 'RAD']]
python 复制代码
data2.select(['NOX', 'RAD'])

数据合并

pandas 的方法太多了:

python 复制代码
data1.merge(pd.Series(np.random.randint(0, 10, size=len(data1)),name='new'),left_index=True, right_index=True)
## 还可以pd.concat([]),还可以直接data1['new']=

polars这个名称是真离谱啊,合并了之后名称不知道怎么给,只能重命名

python 复制代码
##### 也是新增一列的用法
data2.with_columns(pl.Series('new1',np.random.randint(0, 10, size=len(data1)))).rename({'new1':'new'})

分组聚合

分组聚合麻烦起来很麻烦,可以写得超级复杂,咱们就简单求和试试

pandas:

python 复制代码
data1.groupby('RAD').sum()

polars差不多

python 复制代码
data2.groupby('RAD').sum()

删除缺失值

数据是没缺失值的,就随便演示一下了

python 复制代码
#data1.dropna()
data2.drop_nulls()

数据排序

pandas长一些

python 复制代码
data1.sort_values(['MEDV','B'],ascending=False)

polars短一点,且参数名称可能有点不一样

python 复制代码
data2.sort(by=['MEDV', 'B'],descending=True)

列名称重命名

panadas除了rename,其实还有很多方法的。

python 复制代码
data1.rename(columns={'MEDV':'y'})

polars也有rename,但是不能传入columns,而且他也有很多别的方法

python 复制代码
#data2.select(pl.col('MEDV').alias('10Medv'))  #挑选一行数据出来重命名
data2.select([ pl.col('NOX').alias('no'),
    pl.col('RAD').alias('yes')])   #挑选2行数据出来重命名
data2.rename({'MEDV':'y'})  #没索引这个概念,所以就不用传入形参

应用函数

简单的函数应该是差不多的,复杂的可以有区别,但是后面遇到再说

python 复制代码
data1['DIS'].apply(lambda x:str(x).split('.')[0])
python 复制代码
data2['DIS'].apply(lambda x:str(x).split('.')[0])

连接数据

pandas里面主要是merge函数

polars更像sql里面用join

python 复制代码
#data1.merge(data11, on='key')
#data2.join(data22, on='key')

删除某一列数据

两个一模一样

python 复制代码
data1.drop(columns=['MEDV'])
python 复制代码
data2.drop(columns=['MEDV'])

相互转化

polars数据结构也可以变成pandas和numpy的

python 复制代码
import pyarrow as pa
data2.to_pandas()  #需要安装pyarrow
#data2.to_numpy()  #也可以直接运行

链式法则

弄个复杂一点的代码段吧,来对比他们的区别

pandas的

python 复制代码
(data1.assign(sum_B=data1['B'].sum())  # 求和的
    .assign(sorted_MEDV=data1['MEDV'].sort_values())  # 排序的
    .assign(first_name=data1['RAD'].iloc[0])  # 第一个
    .assign(Medv=data1['MEDV'].mean() * 10)  # 10倍
)[['sum_B','sorted_MEDV','first_name','Medv']].sort_values('sorted_MEDV')

polars 的:

python 复制代码
data2.select(
    pl.sum('B'),  #求和的
    pl.col('MEDV').sort(),  #排序的
    pl.col('RAD').first().alias('first name'),  #第一个
    (pl.mean('MEDV')*10).alias('10Medv'),   #10倍
)

画图

pandas 的对象可以直接.plot画图的,也可以plt画图,我发现polars对象也能直接plt画图,还不错。

python 复制代码
plt.figure(figsize=(3,2))
data1['MEDV'].plot.box() # 只有padnas对象可以这样这个方法
#plt.boxplot(data1['MEDV']) #正常的plt画图
plt.boxplot(data2['MEDV'])   #pl数据也能用plt画图
plt.show()

机器学习

我们直接把polars数据结构扔到sklearn库里面去

python 复制代码
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
X = data2.drop(columns=['MEDV'])
y = data2['MEDV']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

线性回归:

python 复制代码
# 线性回归
model =  LinearRegression()
model.fit(X_train, y_train)
model.score(X_test, y_test)

随机森林回归

python 复制代码
# 随机森林
model =  RandomForestRegressor()
model.fit(X_train, y_train)
model.score(X_test, y_test)

居然是和pandas一模一样的数据结果,还不错。


总结

感觉上来说,pandas和polars最大差异在于polars没得索引这个东西,并且很多 新增列,条件筛选,切片等等是存在一定的差异的,相似地方也有一些。最让我惊喜的是plt和sklearn可以完美兼容polars的数据结构,那就真的很不错了。


相关推荐
小码的头发丝、18 分钟前
Django中ListView 和 DetailView类的区别
数据库·python·django
41 分钟前
开源竞争-数据驱动成长-11/05-大专生的思考
人工智能·笔记·学习·算法·机器学习
忘梓.1 小时前
划界与分类的艺术:支持向量机(SVM)的深度解析
机器学习·支持向量机·分类
Chef_Chen1 小时前
从0开始机器学习--Day17--神经网络反向传播作业
python·神经网络·机器学习
千澜空1 小时前
celery在django项目中实现并发任务和定时任务
python·django·celery·定时任务·异步任务
斯凯利.瑞恩2 小时前
Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户附数据代码
python·决策树·随机森林
yannan201903132 小时前
【算法】(Python)动态规划
python·算法·动态规划
MarkHD2 小时前
第十一天 线性代数基础
线性代数·决策树·机器学习
打羽毛球吗️2 小时前
机器学习中的两种主要思路:数据驱动与模型驱动
人工智能·机器学习
蒙娜丽宁2 小时前
《Python OpenCV从菜鸟到高手》——零基础进阶,开启图像处理与计算机视觉的大门!
python·opencv·计算机视觉