我用 Rust 写了个数据文件预览工具,167MB Parquet 35ms 出结果

我用 Rust 写了个数据文件预览工具,167MB Parquet 35ms 出结果

背景

做数据工程时经常遇到这个场景:

收到一个陌生的 .parquet.csv 文件,想快速了解它有多少行、哪些列、什么类型。

常规操作是打开 Python:

python 复制代码
import polars as pl
df = pl.read_parquet("file.parquet")
print(df.shape)
print(df.schema)
print(df.head())

等个几秒,看完,关掉。

每天重复十几次,很烦。

于是我写了 dpeek,一个基于 Polars 的命令行数据预览工具。


一行命令看清楚

行数、列数、类型、数据,一次看全。

还支持:

bash 复制代码
dpeek tail file.parquet         # 看最后几行
dpeek schema file.parquet       # 只看列名和类型
dpeek -c col1,col2 file.csv     # 只看部分列
dpeek -n 20 file.csv            # 看前20行
dpeek --fast file.csv           # 大文件跳过全量扫描

为什么快?

Parquet 的秘密: Parquet 文件把 schema、行数、统计信息都存在文件末尾的 footer 里。dpeek 直接读 footer,不用扫描数据------167MB 的文件,实际 I/O 不到 1MB。

CSV 的权衡: CSV 没有元数据,行数和类型只能扫全文。默认模式会扫完整个文件保证准确;加 --fast 只读前 100 行,1.8GB 的 CSV 也能 90ms 出结果。

性能数据(Apple M4,含进程启动):

文件 大小 模式 耗时
titanic.parquet 11KB 默认 ~23ms
167MB Parquet 167MB 默认 ~35ms
1.8GB CSV 1.8GB --fast ~24ms

对比:pandas/pyarrow 作为 CLI 工具调用,光 Python 解释器启动就要 ~500ms。


安装

最省事的方式(有 uv 就行,自动安装不污染环境):

bash 复制代码
uvx dpeek file.parquet

或者永久安装:

bash 复制代码
uv tool install dpeek   # 之后直接 dpeek
brew install Xyc2016/tap/dpeek
cargo binstall dpeek
pip install dpeek

技术栈

  • Rust --- 核心逻辑
  • Polars 0.53 --- DataFrame 引擎,Parquet/CSV 读取
  • clap 4 --- CLI 解析
  • maturin --- 打包成 Python wheel 发布到 PyPI
  • GitHub Actions --- 三平台构建 + 自动发布 PyPI / Homebrew tap

二进制 39MB(LTO + strip),PyPI wheel 直接包含预编译二进制,无需本地编译。

GitHub: github.com/Xyc2016/dpe...

欢迎 Star ⭐ 和提 Issue!

相关推荐
Rain50921 分钟前
2.2 数据基础:数据库集成与 ORM(TypeORM / Prisma)
数据库·人工智能·ai·数据分析·node.js·自动化·ai编程
wayz1123 分钟前
Overlap:HWMA(Holt-Winter移动平均线)技术指标详解
算法·金融·数据分析·量化交易·特征工程
望眼欲穿的程序猿1 小时前
按键控制 LED
嵌入式硬件·rust
李昊哲小课1 小时前
PyArrow 完整教程
大数据·数据分析·pandas·pyarrow
ai安歌2 小时前
鸿蒙PC:Linux 搭建 Rust 开发环境并实现计算器项目
linux·rust·harmonyos
星栈2 小时前
一套 Rust 代码跑三端:为什么我开始关注 Dioxus
前端·rust·前端框架
babe小鑫2 小时前
金融行业学数据分析的价值
金融·数据挖掘·数据分析
不良使2 小时前
鸿蒙PC迁移_LocalSend 迁移到鸿蒙 PC:一次 Flutter + Rust + 三方库适配的完整记录
flutter·rust·harmonyos
王小王-1233 小时前
基于电脑硬件市场数据分析与可视化系统
数据库·数据分析·django·sqlite·电脑·电脑硬件数据·电脑硬件市场分析
王小王-1233 小时前
基于 Hadoop 的二手房数据分析与可视化平台项目展示
大数据·hadoop·数据分析·大数据房价分析·二手房价格预测·hive房价数据分析