从 Pandas 到 Polars 二十九:在Polars中进行机器学习预处理

Polars中的机器学习

在最近的时间里,我将探索在Polars中进行机器学习(ML)可以走到多远。

除了ML模型外,scikit-learn还提供了许多数据预处理功能。让我们看看在Polars中进行一些这样的预处理是否值得。

最小-最大缩放示例

简单示例:我们有一个包含100,000行和100列的数据框,并希望对每个列进行最小-最大缩放。

python 复制代码
import polars as pl
import numpy as np
from sklearn.preprocessing import MinMaxScaler

N = 100000
df = pl.DataFrame(np.random.standard_normal((N,100)))
arr = df.to_numpy()

# Using sklearn
minMax = MinMaxScaler()
minMax.fit_transform(arr)
Time: 90 ms

# Using Polars
df.select(
    (pl.all()-pl.all().min()) / (pl.all().max()-pl.all().min())
)
Time: 40 ms

所以在这个比较中,Polars的速度是原来的两倍。

这只是使用Polars进行机器学习的开始!例如,我们可以创建一个类来用scikit-learn的API包装Polars代码。然后,在转换为numpy以用于机器学习模型之前,我们可以尽可能长时间地保持在快速且内存高效的Polars和ApacheArrow组合中。

相关推荐
ishangy几秒前
皮带撕裂早期特征提取:AI摄像机+深度学习在港口的应用
人工智能·深度学习·智慧港口·港口皮带ai识别·皮带检测识别
imbackneverdie6 分钟前
一天怎么完成论文初稿
人工智能·自然语言处理·aigc·ai写作·论文写作·论文投稿·科研工具
189228048619 分钟前
H27QCG8T2ELR-BCF海力士H27QCG8UDBIR-BCB
大数据·服务器·人工智能·科技·缓存
财经资讯数据_灵砚智能18 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月10日
大数据·人工智能·python·信息可视化·自然语言处理
kcuwu.19 分钟前
深度学习技术完全指南
人工智能·深度学习
用户51914958484524 分钟前
图片上传绕过与存储型XSS漏洞利用技术详解
人工智能·aigc
我滴老baby25 分钟前
0基础速通Python+AI|2026热门轻量化玩法全攻略:从入门到实战,3天搞定AI应用开发
开发语言·人工智能·python
舞影天上26 分钟前
在 Windows 上优雅地启动 Hermes Agent Web Dashboard
人工智能
XD74297163627 分钟前
科技早报晚报|2026年5月11日:AI 工具链开始从“能用”走向“可治理”,今天更值得二次开发的 3 个机会
人工智能·科技·科技新闻·ai agent·开发者工具
lizhihai_9927 分钟前
股市学习心得-智能体顶层设计文件收益供应链
大数据·人工智能·学习