**大数据量(几千万行)划分价格区间(价格段)

Polars 对于 大数据量(几千万行)划分价格区间(价格段) 有非常高效的原生方法,推荐使用:


✅ 方法一:使用 pl.when().then().otherwise() 分段(推荐)

适合自定义的非等距价格区间,如:

  • 0--999 元
  • 1000--1999 元
  • 2000--4999 元
  • 5000 元及以上
less 复制代码
df = df.with_columns([
    pl.when(pl.col("price") < 1000).then("0-999")
    .when(pl.col("price") < 2000).then("1000-1999")
    .when(pl.col("price") < 5000).then("2000-4999")
    .otherwise("5000+")
    .alias("price_range")
])

这是 纯表达式向量化处理,速度极快,适合千万行数据。


✅ 方法二:用 cut 类似 Pandas 的 pd.cut(等距或自定义区间)

虽然 Polars 本身没有内置 cut 函数,但你可以手动实现类似功能:

less 复制代码
# 假设你想把价格分为每 1000 元一个区间
step = 1000
df = df.with_columns([
    ((pl.col("price") // step) * step).cast(pl.Int32).alias("price_floor"),
    (((pl.col("price") // step) + 1) * step - 1).cast(pl.Int32).alias("price_ceiling")
])

df = df.with_columns([
    (pl.col("price_floor").cast(pl.Utf8) + "-" + pl.col("price_ceiling").cast(pl.Utf8)).alias("price_range")
])

例如价格为 2789,则落入区间 2000-2999


✅ 方法三:提前准备好价格段字典 + broadcast join(适合维护复杂区间)

ini 复制代码
# 区间定义 DataFrame
price_bins = pl.DataFrame({
    "price_range": ["0-999", "1000-1999", "2000-4999", "5000+"],
    "min_price": [0, 1000, 2000, 5000],
    "max_price": [999, 1999, 4999, float("inf")]
})

# 扩展 df 加入 price_range 列(条件 join)
df = df.join(price_bins, how="inner", 
             left_on=pl.col("price"), 
             right_on=(pl.col("min_price") <= pl.col("price")) & (pl.col("price") <= pl.col("max_price")))

注意这种做法适合精细化分段,并且你能维护段表。


性能建议(千万级数据):

技术点 建议
⚡ 用 .with_columns([...]) 替代 .apply() 速度数量级提升
⚡ 使用 LazyFrame + .collect() 推迟执行 + 自动优化
⚡ 使用 .parquet 等列式文件格式 节省内存+加快读取
⚡ 多线程默认开启 无需手动并行

相关推荐
树獭非懒3 小时前
AI大模型小白手册|Embedding 与向量数据库
后端·python·llm
唐叔在学习7 小时前
就算没有服务器,我照样能够同步数据
后端·python·程序员
曲幽8 小时前
FastAPI流式输出实战与避坑指南:让AI像人一样“边想边说”
python·ai·fastapi·web·stream·chat·async·generator·ollama
Flittly9 小时前
【从零手写 AI Agent:learn-claude-code 项目实战笔记】(1)The Agent Loop (智能体循环)
python·agent
vivo互联网技术10 小时前
ICLR2026 | 视频虚化新突破!Any-to-Bokeh 一键生成电影感连贯效果
人工智能·python·深度学习
敏编程11 小时前
一天一个Python库:virtualenv - 隔离你的Python环境,保持项目整洁
python
喝茶与编码13 小时前
Python异步并发控制:asyncio.gather 与 Semaphore 协同设计解析
后端·python
zone773914 小时前
003:RAG 入门-LangChain 读取图片数据
后端·python·面试
用户83562907805114 小时前
在 PowerPoint 中用 Python 添加和定制形状的完整教程
后端·python