**大数据量(几千万行)划分价格区间(价格段)

Polars 对于 大数据量(几千万行)划分价格区间(价格段) 有非常高效的原生方法,推荐使用:


✅ 方法一:使用 pl.when().then().otherwise() 分段(推荐)

适合自定义的非等距价格区间,如:

  • 0--999 元
  • 1000--1999 元
  • 2000--4999 元
  • 5000 元及以上
less 复制代码
df = df.with_columns([
    pl.when(pl.col("price") < 1000).then("0-999")
    .when(pl.col("price") < 2000).then("1000-1999")
    .when(pl.col("price") < 5000).then("2000-4999")
    .otherwise("5000+")
    .alias("price_range")
])

这是 纯表达式向量化处理,速度极快,适合千万行数据。


✅ 方法二:用 cut 类似 Pandas 的 pd.cut(等距或自定义区间)

虽然 Polars 本身没有内置 cut 函数,但你可以手动实现类似功能:

less 复制代码
# 假设你想把价格分为每 1000 元一个区间
step = 1000
df = df.with_columns([
    ((pl.col("price") // step) * step).cast(pl.Int32).alias("price_floor"),
    (((pl.col("price") // step) + 1) * step - 1).cast(pl.Int32).alias("price_ceiling")
])

df = df.with_columns([
    (pl.col("price_floor").cast(pl.Utf8) + "-" + pl.col("price_ceiling").cast(pl.Utf8)).alias("price_range")
])

例如价格为 2789,则落入区间 2000-2999


✅ 方法三:提前准备好价格段字典 + broadcast join(适合维护复杂区间)

ini 复制代码
# 区间定义 DataFrame
price_bins = pl.DataFrame({
    "price_range": ["0-999", "1000-1999", "2000-4999", "5000+"],
    "min_price": [0, 1000, 2000, 5000],
    "max_price": [999, 1999, 4999, float("inf")]
})

# 扩展 df 加入 price_range 列(条件 join)
df = df.join(price_bins, how="inner", 
             left_on=pl.col("price"), 
             right_on=(pl.col("min_price") <= pl.col("price")) & (pl.col("price") <= pl.col("max_price")))

注意这种做法适合精细化分段,并且你能维护段表。


性能建议(千万级数据):

技术点 建议
⚡ 用 .with_columns([...]) 替代 .apply() 速度数量级提升
⚡ 使用 LazyFrame + .collect() 推迟执行 + 自动优化
⚡ 使用 .parquet 等列式文件格式 节省内存+加快读取
⚡ 多线程默认开启 无需手动并行

相关推荐
jerryinwuhan19 小时前
pybullet入门到入门_1
开发语言·人工智能·python
景彡先生19 小时前
Python列表(List)完全指南:从入门到实战优化
windows·python·list
花开花富贵19 小时前
是谁不会表达?来看看程序员的浪漫❤ 1.1
python
java1234_小锋19 小时前
TensorFlow2 Python深度学习 - 生成对抗网络(GAN)实例
python·深度学习·tensorflow·tensorflow2
忘忧记19 小时前
excel拆分和合并代码的思路整合和工具打包
python
天才测试猿20 小时前
黑盒测试用例的四种设计方法
自动化测试·软件测试·python·功能测试·测试工具·职场和发展·测试用例
B站_计算机毕业设计之家20 小时前
机器学习:基于大数据的基金数据分析可视化系统 股票数据 金融数据 股价 Django框架 大数据技术(源码) ✅
大数据·python·金融·数据分析·股票·etf·基金
*才华有限公司*20 小时前
《爬虫进阶之路:从模拟浏览器到破解动态加载的实战指南》
开发语言·python
深蓝电商API20 小时前
爬虫+Redis:如何实现分布式去重与任务队列?
redis·分布式·爬虫·python
我是华为OD~HR~栗栗呀20 小时前
华为OD-23届考研-测试面经
java·c++·python·华为od·华为·面试·单元测试