从 Pandas 到 Polars 二十九:在Polars中进行机器学习预处理

Polars中的机器学习

在最近的时间里,我将探索在Polars中进行机器学习(ML)可以走到多远。

除了ML模型外,scikit-learn还提供了许多数据预处理功能。让我们看看在Polars中进行一些这样的预处理是否值得。

最小-最大缩放示例

简单示例:我们有一个包含100,000行和100列的数据框,并希望对每个列进行最小-最大缩放。

python 复制代码
import polars as pl
import numpy as np
from sklearn.preprocessing import MinMaxScaler

N = 100000
df = pl.DataFrame(np.random.standard_normal((N,100)))
arr = df.to_numpy()

# Using sklearn
minMax = MinMaxScaler()
minMax.fit_transform(arr)
Time: 90 ms

# Using Polars
df.select(
    (pl.all()-pl.all().min()) / (pl.all().max()-pl.all().min())
)
Time: 40 ms

所以在这个比较中,Polars的速度是原来的两倍。

这只是使用Polars进行机器学习的开始!例如,我们可以创建一个类来用scikit-learn的API包装Polars代码。然后,在转换为numpy以用于机器学习模型之前,我们可以尽可能长时间地保持在快速且内存高效的Polars和ApacheArrow组合中。

相关推荐
tomlone11 小时前
《AI的未来:从“召唤幽灵”到学会反思》
人工智能
编码浪子11 小时前
对LlamaFactory的一点见解
人工智能·机器学习·数据挖掘
长桥夜波11 小时前
【第十八周】机器学习笔记07
人工智能·笔记·机器学习
音视频牛哥12 小时前
从“小而美”到“大而强”:音视频直播SDK的技术进化逻辑
机器学习·计算机视觉·音视频·大牛直播sdk·人工智能+·rtsp播放器rtmp播放器·rtmp同屏推流
luoganttcc12 小时前
是凯恩斯主义主导 西方的经济决策吗
大数据·人工智能·金融·哲学
好奇龙猫12 小时前
AI学习:SPIN -win-安装SPIN-工具过程 SPIN win 电脑安装=accoda 环境-第五篇:代码修复]
人工智能·学习
远山枫谷12 小时前
如何通过nodean安装n8n以及可能遇到的问题
人工智能
AIGC_北苏12 小时前
EvalScope模型压力测试实战
人工智能·语言模型·模型评估·框架评估
CheungChunChiu12 小时前
AI 模型部署体系全景:从 PyTorch 到 RKNN 的嵌入式类比解析
人工智能·pytorch·python·模型
分布式存储与RustFS12 小时前
存算一体架构的先行者:RustFS在异构计算环境下的探索与实践
大数据·人工智能·物联网·云原生·对象存储·minio·rustfs