从 Pandas 到 Polars 二十九:在Polars中进行机器学习预处理

Polars中的机器学习

在最近的时间里,我将探索在Polars中进行机器学习(ML)可以走到多远。

除了ML模型外,scikit-learn还提供了许多数据预处理功能。让我们看看在Polars中进行一些这样的预处理是否值得。

最小-最大缩放示例

简单示例:我们有一个包含100,000行和100列的数据框,并希望对每个列进行最小-最大缩放。

python 复制代码
import polars as pl
import numpy as np
from sklearn.preprocessing import MinMaxScaler

N = 100000
df = pl.DataFrame(np.random.standard_normal((N,100)))
arr = df.to_numpy()

# Using sklearn
minMax = MinMaxScaler()
minMax.fit_transform(arr)
Time: 90 ms

# Using Polars
df.select(
    (pl.all()-pl.all().min()) / (pl.all().max()-pl.all().min())
)
Time: 40 ms

所以在这个比较中,Polars的速度是原来的两倍。

这只是使用Polars进行机器学习的开始!例如,我们可以创建一个类来用scikit-learn的API包装Polars代码。然后,在转换为numpy以用于机器学习模型之前,我们可以尽可能长时间地保持在快速且内存高效的Polars和ApacheArrow组合中。

相关推荐
2401_84149564几秒前
【机器学习】标准化流模型(NF)
人工智能·python·机器学习·标准化流模型·概率生成模型·可逆变换·概率密度变换
愚公搬代码1 分钟前
【愚公系列】《AI短视频创作一本通》008-AI短视频脚本创作技巧(分析爆款短视频,快速掌握脚本创作技巧)
人工智能
凤希AI伴侣1 分钟前
凤希AI伴侣:导航栏数据全面升级与AI落地的深度思考-2026年2月2日
人工智能·凤希ai伴侣
Blossom.1182 分钟前
从“金鱼记忆“到“超级大脑“:2025年AI智能体记忆机制与MoE架构的融合革命
人工智能·python·算法·架构·自动化·whisper·哈希算法
资讯雷达2 分钟前
VPX架构军工级SSD选型指南:板级定制与国产化解决方案(2026)
人工智能
铁蛋AI编程实战2 分钟前
谷歌MedGemma 1.5医疗大模型开源部署教程:普通显卡可运行,医学影像分析零代码实现
人工智能·chrome·开源
铁蛋AI编程实战3 分钟前
AI Agent工程化落地深度解析:从架构拆解到多智能体协同实战(附源码/避坑)
人工智能·架构
AndrewHZ6 分钟前
【AI黑话日日新】什么是隐式CoT?
人工智能·深度学习·算法·llm·cot·复杂推理
杜子不疼.6 分钟前
用Claude Code构建AI内容创作工作流:从灵感到发布的自动化实践
运维·人工智能·自动化
草莓熊Lotso6 分钟前
从零手搓实现 Linux 简易 Shell:内建命令 + 环境变量 + 程序替换全解析
linux·运维·服务器·数据库·c++·人工智能